IBM研究推出Open Agent Leaderboard 为通用智能代理设立公开评测基准

30 阅读3分钟前沿
IBM研究推出Open Agent Leaderboard 为通用智能代理设立公开评测基准

背景与意义

"AI 代理的真实价值在于系统整体,而非单一模型。"

随着大模型能力的提升,越来越多的企业开始构建能够调用工具、记忆上下文并自行规划的智能代理。传统评测大多聚焦于模型本身的指标,忽视了规划、工具选择、错误恢复等关键模块。IBM Research 在此背景下推出 Open Agent Leaderboard,旨在提供一种能够同时衡量 质量成本 的全链路评测方法,推动通用代理的可复制、可部署发展。

评测框架与基准

  • 统一协议(Exgentic):为不同 benchmark 定义统一的任务、上下文、可执行动作三要素,使各种代理能够在同一接口下交互。
  • 六大基准
    1. SWE‑Bench Verified – 在真实代码库中修复 bug。
    2. BrowseComp+ – 跨网页检索并回答复杂研究问题。
    3. AppWorld – 在数百款应用中完成个人事务。
    4. tau2‑Bench Airline & Retail – 按公司政策提供客服。
    5. tau2‑Bench Telecom – 技术支持场景下的故障诊断。
    6. Open‑ended Research – 进行开放式学术探索。
  • 评价维度:每个代理系统(模型 + 规划/记忆/工具模块)在每项基准上报告 成功率平均每任务成本,并给出整体加权平均。

关键发现

  1. 模型仍是主导因素,但同一模型在不同代理实现下表现差距显著,说明系统设计的影响已初现。
  2. 通用代理已具备竞争力:在多数基准上,未经专门调优的通用代理的成功率可与专用系统持平或略优。
  3. 失败成本不容忽视:失败任务的费用比成功任务高出 20%‑54%,对大规模部署的成本评估至关重要。
  4. 工具筛选提升显著:对可用工具进行前置过滤,使代理聚焦相关工具,可提升所有模型的成功率并降低成本。

开放资源与社区呼吁

  • 公开数据集与代码:Leaderboard 结果、Exgentic 框架、完整评测脚本全部在 GitHub 开源。
  • 社区贡献渠道
    • 提交自研代理实现(遵循 Exgentic 协议)。
    • 添加新基准或任务套件。
    • 纳入更多开源模型(如 DeepSeek V3.2、Kimi K2.5)。
  • 文档与指南:提供从环境搭建到结果可视化的全流程文档,降低复现门槛。

未来展望

IBM 表示,后续将继续扩展基准覆盖范围,引入更细粒度的 记忆评估多模态交互 场景;同时计划与行业伙伴合作,构建基于真实业务流程的评测集合,帮助企业在成本可控的前提下快速选型最适合的代理系统。

通过公开、可复现的评测体系,Open Agent Leaderboard 有望成为通用智能代理的行业标准,推动从模型研发向系统工程的转型。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。