Z.ai高管李子轩揭秘GLM-5:混合专家架构与长文本推理实现行业突破
•15 阅读•4分钟•前沿
生成式AIMoEGLM-5Z.ai
•15 阅读•4分钟•前沿

引言
Z.ai(智谱AI)全球生态负责人李子轩接受The Sequence专访,围绕最新的GLM-5模型、开源生态以及智能体研发展开深度对话。作为中国开源大模型的领军者,Z.ai在模型规模、稀疏激活和商业化服务上持续探索,为行业提供了新的技术标杆。
GLM-5 技术亮点
- 规模与稀疏激活:GLM-5 参数总量达 744B,单次推理激活约 40B 参数,采用 Mixture‑of‑Experts(MoE)实现稀疏计算,保持高效推理的同时提升推理质量。
- DeepSeek 稀疏注意力:首次引入 DeepSeek Sparse Attention,显著降低长上下文的显存占用,使模型在 32K 以上的序列上保持流畅。
- “slime” 强化学习框架:自研的异步 RL 基础设施将数据生成与梯度更新解耦,提升大规模后训练的吞吐,缩短迭代周期。
- 任务对齐表现:在 Vending Bench 2(模拟一年业务运营)上,GLM-5 以近乎 Claude Opus 4.5 的成绩领跑开源模型,展示了在长期目标规划与资源管理上的优势。
“我们打造的是‘智能效率’,而非单纯的参数堆砌。”
开源与生态建设
Z.ai 继续保持开源传统,近期发布了 GLM‑4‑9B 权重,被业界称为“中国的 Llama”。李子轩解释说,开源的三大价值在于:
- 降低准入门槛:开发者可自行下载或通过多家推理服务商使用模型,促进科研与创新。
- 激发二次创作:社区已基于 GLM 系列实现量化、微调及功能扩展,例如 Intellect‑3 等项目。
- 设定行业标准:开放模型有助于形成统一评测与安全规范,闭源难以达成。
他强调,开源并未蚕食公司业务,反而通过生态效应驱动企业级托管服务的需求增长。
本地化智能体的技术瓶颈
在构建能够控制本地设备的智能体时,李子轩指出三大挑战:
- 操作速度:每一步操作的延迟必须低于 2 秒,否则用户体验急剧下降。
- 错误恢复能力:智能体需具备类似人类的容错机制,单次失误不应导致整个工作流中断。
- 跨会话上下文保持:长期任务需要模型记忆过去的状态,才能实现自然的任务衔接。
他认为,虽然延迟是重要因素,但错误纠正与稳健性对用户信任的影响更大。
视觉理解与多模态融合
GLM‑4V 系列表明,视觉数据在物理世界建模中仍不可或缺。李子轩指出,文本可以描述“水向下流”,但视频提供的流体动力学示例能让模型形成更直观的因果认知。未来的最强模型将是文本与视觉的深度融合,通过视觉 grounding 补足纯文本的抽象局限。
市场竞争与企业定位
在中国大模型的“四虎”格局(Zhipu、月之暗面、MiniMax、DeepSeek)中,Z.ai 的差异化体现在 服务完整性:从模型托管、API 到企业级运维全链路支持,打造“为构建者服务的构建者”。这种全栈服务理念帮助其在 B2B 与 B2C 双向市场取得领先。
未来展望
针对 Transformer 的天花板,李子轩持乐观态度,认为当前架构仍有大量未被挖掘的潜力,尤其是未来数据的规模与多样性将继续推动模型性能提升。他预测,2026 年 LLM 收费模式将从“按 token”转向“按价值”,即依据任务完成度或商业产出计费,这将推动模型向更高效的任务导向演进。
全文基于 Z.ai 官方访谈整理,力求客观呈现技术细节与行业洞察。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。