Anthropic推出Sonnet 4.6,编码与指令遵循显著升级

47 阅读3分钟前沿
Anthropic推出Sonnet 4.6,编码与指令遵循显著升级

背景

Anthropic自2024年起采用四个月一次的迭代节奏,持续强化其中型大模型Sonnet系列。上一代Sonnet 4.5已在多项任务上接近旗舰模型Opus的表现,此次Sonnet 4.6的发布旨在进一步缩小与顶尖模型的差距,并为免费及付费用户提供更强大的默认服务。

关键改进

  • 上下文窗口提升至100万token:相当于之前窗口的两倍,可一次性处理完整代码库、长合同或数十篇科研论文。
  • 编码能力增强:在SWE‑Bench基准上得分提升至60.4%,在代码生成的准确率和可执行性上均有明显改善。
  • 指令遵循与计算机使用:在OS‑World评测中取得新高,模型对自然语言指令的理解更精准,对计算机工具的调用更流畅。
  • 默认模型定位:Sonnet 4.6将成为Anthropic Free和Pro计划的默认模型,用户无需额外配置即可享受最新能力。

基准成绩

基准评分对比模型
ARC‑AGI‑260.4%高于多数中型模型,略低于Opus 4.6、Gemini 3、GPT‑5.2等旗舰模型
SWE‑Bench60.4%超过前代Sonnet 4.5,逼近Opus 4.6水平

市场影响

  • 免费用户受益:Sonnet 4.6的免费默认化降低了小团队和个人开发者的使用门槛,促进了生成式AI在代码审查、文档撰写等生产力场景的落地。
  • 竞争格局:在中型模型赛道,Anthropic的更新速度逼近OpenAI的GPT‑4系列,进一步压缩了模型性能差距,可能促使竞争对手加速迭代。
  • 生态兼容:新模型保持与Anthropic现有API兼容,开发者无需迁移即可获得更大上下文和更好指令响应。

展望

Anthropic已透露,下一步将推出更新版的Haiku模型,继续在低算力场景深耕。同时,随着上下文窗口的扩展,模型在文档摘要、长篇对话等长文本任务中的潜力将进一步显现。业界期待Sonnet 4.6在实际应用中的表现,尤其是对大型代码库的一次性分析能否真正提升软件开发效率。

“我们希望通过更大的上下文和更强的指令遵循,让AI成为开发者的可靠伙伴。” — Anthropic官方声明

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。