Moonshot AI发布Kimi K2.5 开源视觉代理模型实现原生Agent Swarm并支持千亿参数规模

2026/01/28 (周三)•24 阅读•4分钟•开源

开源月之暗面KimiAgent Swarm视觉代理

2026/01/28 (周三)•24 阅读•4分钟•开源

Moonshot AI发布Kimi K2.5 开源视觉代理模型实现原生Agent Swarm并支持千亿参数规模

背景与发布

2026年1月27日，月之暗面（Moonshot AI）正式开源其最新视觉代理模型 Kimi K2.5。该模型在 1 万亿参数的 Mixture‑of‑Experts（MoE）骨干网络上进行原生多模态训练，旨在提升代码生成、跨模态推理和深度网络检索等场景的效率。

模型架构与技术亮点

规模：总参数 1 万亿，单次推理激活约 32 B 参数，61 层网络，384 个专家，每个 token 选取 8 + 1 个共享专家。
上下文：最大上下文长度 256 K token，支持超长文档和工具调用链。
视觉编码：内置 MoonViT 编码器（≈400 M 参数），实现图像、文档、视频的统一 token 表示。
激活函数：使用 SwiGLU，注意力采用 MLA 机制。
部署：兼容 vLLM、SGLang、KTransformers（transformers≥4.57.1），提供 INT4 量化版，适配普通 GPU。

Agent Swarm 并行智能

Kimi K2.5 引入 Agent Swarm，基于 Parallel Agent Reinforcement Learning（PARL）实现多代理协同。关键特性包括：

子代理规模：单任务最多可调度 100 条子代理。
步骤上限：一次运行支持 1 500 步或工具调用。
效率提升：在宽搜索任务上比单代理流水线快约 4.5 倍。
Critical Steps 度量：奖励并行化分支，降低序列化步骤数量。

该机制在“发现细分创作者”“跨站点信息抓取”等复杂检索任务中展现出显著加速。

基准表现

任务	Kimi K2.5 分数	对比模型
HLE Full（工具）	50.2	GPT‑5.2、Claude 4.5、Gemini 3 Pro
BrowseComp（上下文）	74.9 → 78.4（Swarm）	同上
MMMU Pro（视觉）	78.5	同上
VideoMMMU（视频）	86.6	同上
SWE Bench Verified（代码）	76.8	同上
LongBench V2（长文）	61.0	同上

在多数代理、视觉和编码基准上，K2.5 均超过闭源大模型，展示了 MoE 与原生多模态训练的协同优势。

行业意义与展望

开源生态：模型权重、训练脚本及量化工具全部公开，为国内外开发者提供了可直接落地的高性能视觉代理基座。
多模态研发：256 K 上下文与统一视觉编码使得“文档+设计稿+代码”一次性输入成为可能，降低了跨工具集成的成本。
并行智能：Agent Swarm 为复杂任务的并行化提供了系统化方案，预示着未来 AI 助手将从单链思考转向协同网络。

随着社区对 Kimi K2.5 的二次开发和插件生态的丰富，预计其将在企业内部工具、自动化研发和智能检索等场景快速落地。

“我们希望通过开放的技术栈，让每一位开发者都能在视觉与代理两条最前沿的赛道上实验、创新。”——月之暗面技术团队

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。