IBM研究推出Open Agent Leaderboard 为通用智能代理设立公开评测基准

背景与意义

"AI 代理的真实价值在于系统整体，而非单一模型。"

随着大模型能力的提升，越来越多的企业开始构建能够调用工具、记忆上下文并自行规划的智能代理。传统评测大多聚焦于模型本身的指标，忽视了规划、工具选择、错误恢复等关键模块。IBM Research 在此背景下推出 Open Agent Leaderboard，旨在提供一种能够同时衡量质量与成本的全链路评测方法，推动通用代理的可复制、可部署发展。

评测框架与基准

统一协议（Exgentic）：为不同 benchmark 定义统一的任务、上下文、可执行动作三要素，使各种代理能够在同一接口下交互。
六大基准：
1. SWE‑Bench Verified – 在真实代码库中修复 bug。
2. BrowseComp+ – 跨网页检索并回答复杂研究问题。
3. AppWorld – 在数百款应用中完成个人事务。
4. tau2‑Bench Airline & Retail – 按公司政策提供客服。
5. tau2‑Bench Telecom – 技术支持场景下的故障诊断。
6. Open‑ended Research – 进行开放式学术探索。
评价维度：每个代理系统（模型 + 规划/记忆/工具模块）在每项基准上报告 成功率 与 平均每任务成本，并给出整体加权平均。

关键发现

模型仍是主导因素，但同一模型在不同代理实现下表现差距显著，说明系统设计的影响已初现。
通用代理已具备竞争力：在多数基准上，未经专门调优的通用代理的成功率可与专用系统持平或略优。
失败成本不容忽视：失败任务的费用比成功任务高出 20%‑54%，对大规模部署的成本评估至关重要。
工具筛选提升显著：对可用工具进行前置过滤，使代理聚焦相关工具，可提升所有模型的成功率并降低成本。

开放资源与社区呼吁

公开数据集与代码：Leaderboard 结果、Exgentic 框架、完整评测脚本全部在 GitHub 开源。
社区贡献渠道：
- 提交自研代理实现（遵循 Exgentic 协议）。
- 添加新基准或任务套件。
- 纳入更多开源模型（如 DeepSeek V3.2、Kimi K2.5）。
文档与指南：提供从环境搭建到结果可视化的全流程文档，降低复现门槛。

未来展望

IBM 表示，后续将继续扩展基准覆盖范围，引入更细粒度的 记忆评估 与 多模态交互 场景；同时计划与行业伙伴合作，构建基于真实业务流程的评测集合，帮助企业在成本可控的前提下快速选型最适合的代理系统。

通过公开、可复现的评测体系，Open Agent Leaderboard 有望成为通用智能代理的行业标准，推动从模型研发向系统工程的转型。