东亚模型大爆发 与 硅谷人才风暴:DeepSeek记忆模块、百度Ernie 5.0抢榜
•9 次浏览•3分钟•前沿
OpenAIDeepSeek百度Zhipu AIMerge Labs
•9 阅读•3分钟•前沿

DeepSeek Engram:把记忆交给哈希表
DeepSeek于1月12日公开的 Engram 论文提出了“条件记忆”模块——将静态的 N‑gram 知识转移到 O(1) 查找表中,类似哈希映射。实验显示,当稀疏参数的 20%–25% 用于该记忆模块时,模型的损失呈现 U 形最优曲线。此举不仅降低了 MoE 专家的计算负担,也为大模型的 稀疏性 提供了新的划分维度:不是仅路由专家,而是路由认知类型。
中国模型冲刺:百度 Ernie 5.0 与 智谱 GLM‑Image
- Baidu Ernie 5.0‑0110:1月15日发布后迅速登上 LMArena 中文模型榜首(全球第8),采用统一自回归的多模态架构,推理基准的提升幅度超出多数西方模型的预期,显示出国内团队在 模型体系 与 算力 方面的同步进化。
- Zhipu AI GLM‑Image:1月13日推出的图像生成模型全程使用华为 Ascend 芯片训练,验证了本土 硬件生态 已能支撑 SOTA 规模的训练任务,为国产算力走向自给提供了有力案例。
硅谷人才争夺:Thinking Machines 与 OpenAI 的零秒换岗
Thinking Machines Lab 的联合创始人 Barret Zoph 与 Luke Metz 在仅 58 分钟内被 OpenAI “解雇‑复聘”,揭示了 人才稀缺 已演化为业界的对抗性博弈。该事件被业界比作 GAN 的对抗过程:少数几百名真正懂得后训练微调的专家,正成为各大实验室争抢的“黄金资源”。
脑机接口新趋势:Merge Labs 获 OpenAI 2.5 亿美元投资
OpenAI 近期领投 Merge Labs 2.52 亿美元融资,后者研发的超声波非侵入式 BCI 旨在以“湿件”方式将人类思维直接映射到数字信号,突破键盘‑文本的低带宽瓶颈。虽然仍处于早期探索阶段,但已被视为实现 Software 3.0 必经的硬件层叠路径。
小结
本周的 AI 生态呈现三大趋势:
- 架构专化 – DeepSeek 的 Engram 将记忆与推理分层处理;
- 本土硬件成熟 – 百度与智谱的模型展示了国产算力的竞争力;
- 人才与硬件交叉 – 硅谷的高端人才流动与 OpenAI 对 BCI 的布局,预示着下一轮技术突破将更依赖跨学科协同。
持续关注这些动向,既是把握行业脉搏的必要,也是未来创新路线图的关键指向。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。