百度发布Qwen3-Coder-Next 开源大模型实现高效编码代理

模型概述

近日，百度旗下的通义千问团队发布了全新开源大模型 Qwen3‑Coder‑Next。该模型基于 Qwen3‑Next‑80B‑A3B 主干，采用稀疏 Mixture‑of‑Experts（MoE）架构，整体参数量 80 B，但每个 token 只激活约 3 B 参数，实现了大模型的容量与低推理成本的平衡，专为编码代理和本地开发场景设计。

技术创新

Hybrid Attention + Sparse MoE：模型在 48 层网络中交替使用 Gated DeltaNet、Gated Attention 与 MoE 模块；MoE 共有 512 位专家，单 token 采用 10 + 1 个专家激活，提供细粒度专家化能力。
256K 长上下文：支持单次会话超过 25 万 token，能够一次性读取完整代码库、日志或对话历史。
非思考模式（non‑thinking）：模型输出仅为工具调用与直接代码片段，不产生额外的思考文本，便于与 IDE、CLI 代理无缝对接。

代理训练与基准表现

团队采用“可执行任务+强化学习”大规模训练方案，约 80 万可验证任务覆盖代码生成、工具序列、运行测试与错误恢复。基准结果显示：

基准	Qwen3‑Coder‑Next	同类大型模型
SWE‑Bench Verified	70.6	DeepSeek‑V3.2 70.2 / GLM‑4.7 74.2
SWE‑Bench Multilingual	62.8	DeepSeek‑V3.2 62.3 / GLM‑4.7 63.7
SWE‑Bench Pro	44.3	DeepSeek‑V3.2 40.9 / GLM‑4.7 40.6
Terminal‑Bench 2.0	36.2	与更大参数模型持平
Aider	66.2	接近同类最佳水平

这些数据表明，在编码代理和长程推理场景下，Qwen3‑Coder‑Next 的表现可媲美甚至超越参数量高出 10‑20 倍的模型。

部署与生态

服务器部署：推荐使用 SGLang（≥0.5.8）或 vLLM（≥0.15.0），通过 --tool-call-parser qwen3_coder 启用工具调用解析，提供兼容 OpenAI /v1 接口。
本地部署：Unsloth 提供 GGUF 量化模型，4‑bit 版约需 46 GB 显存，8‑bit 版约 85 GB，支持 llama.cpp 与 llama‑server 完整工作流，默认上下文 32 K，最大可达 262 K。
生态集成：已适配 Qwen‑Code、Claude‑Code、Cline 等主流编码代理前端，开发者可直接替换模型名称完成迁移。

关键要点

稀疏 MoE 设计：80 B 总参数、3 B 活动计算，实现高容量与低成本的最优组合。
长上下文与混合注意力：256 K token 支持，使大型代码库一次性读取成为可能。
代理式训练：大规模可执行任务与 RL 让模型具备工具调用、错误恢复等真实开发需求。
开源与易部署：Apache‑2.0 许可证、完整量化模型与多平台部署指南，降低企业与个人私有化部署门槛。

百度发布Qwen3-Coder-Next 开源大模型 实现高效编码代理