Moonshot AI发布Kimi K2.5 开源视觉代理模型 实现原生Agent Swarm并支持千亿参数规模

24 阅读4分钟开源
Moonshot AI发布Kimi K2.5 开源视觉代理模型 实现原生Agent Swarm并支持千亿参数规模

背景与发布

2026年1月27日,月之暗面(Moonshot AI)正式开源其最新视觉代理模型 Kimi K2.5。该模型在 1 万亿参数的 Mixture‑of‑Experts(MoE)骨干网络上进行原生多模态训练,旨在提升代码生成、跨模态推理和深度网络检索等场景的效率。

模型架构与技术亮点

  • 规模:总参数 1 万亿,单次推理激活约 32 B 参数,61 层网络,384 个专家,每个 token 选取 8 + 1 个共享专家。
  • 上下文:最大上下文长度 256 K token,支持超长文档和工具调用链。
  • 视觉编码:内置 MoonViT 编码器(≈400 M 参数),实现图像、文档、视频的统一 token 表示。
  • 激活函数:使用 SwiGLU,注意力采用 MLA 机制。
  • 部署:兼容 vLLM、SGLang、KTransformers(transformers≥4.57.1),提供 INT4 量化版,适配普通 GPU。

Agent Swarm 并行智能

Kimi K2.5 引入 Agent Swarm,基于 Parallel Agent Reinforcement Learning(PARL)实现多代理协同。关键特性包括:

  • 子代理规模:单任务最多可调度 100 条子代理。
  • 步骤上限:一次运行支持 1 500 步或工具调用。
  • 效率提升:在宽搜索任务上比单代理流水线快约 4.5 倍。
  • Critical Steps 度量:奖励并行化分支,降低序列化步骤数量。

该机制在“发现细分创作者”“跨站点信息抓取”等复杂检索任务中展现出显著加速。

基准表现

任务Kimi K2.5 分数对比模型
HLE Full(工具)50.2GPT‑5.2、Claude 4.5、Gemini 3 Pro
BrowseComp(上下文)74.9 → 78.4(Swarm)同上
MMMU Pro(视觉)78.5同上
VideoMMMU(视频)86.6同上
SWE Bench Verified(代码)76.8同上
LongBench V2(长文)61.0同上

在多数代理、视觉和编码基准上,K2.5 均超过闭源大模型,展示了 MoE 与原生多模态训练的协同优势。

行业意义与展望

  • 开源生态:模型权重、训练脚本及量化工具全部公开,为国内外开发者提供了可直接落地的高性能视觉代理基座。
  • 多模态研发:256 K 上下文与统一视觉编码使得“文档+设计稿+代码”一次性输入成为可能,降低了跨工具集成的成本。
  • 并行智能:Agent Swarm 为复杂任务的并行化提供了系统化方案,预示着未来 AI 助手将从单链思考转向协同网络。

随着社区对 Kimi K2.5 的二次开发和插件生态的丰富,预计其将在企业内部工具、自动化研发和智能检索等场景快速落地。

“我们希望通过开放的技术栈,让每一位开发者都能在视觉与代理两条最前沿的赛道上实验、创新。”——月之暗面技术团队

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。