IBM研究推出Open Agent Leaderboard 为通用智能代理设立公开评测基准
•30 阅读•3分钟•前沿
DeepSeekHugging FaceIBMOpen Agent Leaderboard
•30 阅读•3分钟•前沿

背景与意义
"AI 代理的真实价值在于系统整体,而非单一模型。"
随着大模型能力的提升,越来越多的企业开始构建能够调用工具、记忆上下文并自行规划的智能代理。传统评测大多聚焦于模型本身的指标,忽视了规划、工具选择、错误恢复等关键模块。IBM Research 在此背景下推出 Open Agent Leaderboard,旨在提供一种能够同时衡量 质量 与 成本 的全链路评测方法,推动通用代理的可复制、可部署发展。
评测框架与基准
- 统一协议(Exgentic):为不同 benchmark 定义统一的任务、上下文、可执行动作三要素,使各种代理能够在同一接口下交互。
- 六大基准:
- SWE‑Bench Verified – 在真实代码库中修复 bug。
- BrowseComp+ – 跨网页检索并回答复杂研究问题。
- AppWorld – 在数百款应用中完成个人事务。
- tau2‑Bench Airline & Retail – 按公司政策提供客服。
- tau2‑Bench Telecom – 技术支持场景下的故障诊断。
- Open‑ended Research – 进行开放式学术探索。
- 评价维度:每个代理系统(模型 + 规划/记忆/工具模块)在每项基准上报告 成功率 与 平均每任务成本,并给出整体加权平均。
关键发现
- 模型仍是主导因素,但同一模型在不同代理实现下表现差距显著,说明系统设计的影响已初现。
- 通用代理已具备竞争力:在多数基准上,未经专门调优的通用代理的成功率可与专用系统持平或略优。
- 失败成本不容忽视:失败任务的费用比成功任务高出 20%‑54%,对大规模部署的成本评估至关重要。
- 工具筛选提升显著:对可用工具进行前置过滤,使代理聚焦相关工具,可提升所有模型的成功率并降低成本。
开放资源与社区呼吁
- 公开数据集与代码:Leaderboard 结果、Exgentic 框架、完整评测脚本全部在 GitHub 开源。
- 社区贡献渠道:
- 提交自研代理实现(遵循 Exgentic 协议)。
- 添加新基准或任务套件。
- 纳入更多开源模型(如 DeepSeek V3.2、Kimi K2.5)。
- 文档与指南:提供从环境搭建到结果可视化的全流程文档,降低复现门槛。
未来展望
IBM 表示,后续将继续扩展基准覆盖范围,引入更细粒度的 记忆评估 与 多模态交互 场景;同时计划与行业伙伴合作,构建基于真实业务流程的评测集合,帮助企业在成本可控的前提下快速选型最适合的代理系统。
通过公开、可复现的评测体系,Open Agent Leaderboard 有望成为通用智能代理的行业标准,推动从模型研发向系统工程的转型。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。