Google发布Android Bench 首个专注移动开发的LLM评测框架

0 阅读4分钟开源

背景与意义

随着大型语言模型(LLM)在代码生成领域的快速发展,通用编程基准已难以覆盖移动平台的特殊依赖和生态。Google AI因此推出 Android Bench,旨在填补Android开发场景的评测空白,为研发者与模型提供可比的性能参考。

任务设计与数据来源

  • 真实项目抽取:任务直接来源于公开的GitHub Android仓库,确保覆盖主流库与最新API。
  • 多层次难度:包括
    1. Android 版本间的破坏性变更修复;
    2. Wear OS 设备的网络配置;
    3. 将旧版 UI 代码迁移至 Jetpack Compose。
  • 评测流程:模型接收错误报告后生成修复代码,系统随后运行
    • 单元测试(无需Android运行时)
    • 仪器化测试(在真实设备或模拟器上执行),两者均需全部通过方视为成功。

防止数据污染的措施

  1. 人工审查:开发者逐步检查模型的推理轨迹,确保答案是现场推理而非记忆。
  2. Canary String:在基准数据中植入唯一标识串,帮助模型训练方过滤该数据,避免未来训练时被再次摄入。

首批排行榜结果

模型平均成功率 (%)置信区间 (%)
Gemini 3.1 Pro Preview72.465.3‑79.8
Claude Opus 4.666.658.9‑73.9
GPT‑5.2‑Codex62.554.7‑70.3
Gemini 3 Pro Preview60.452.6‑67.8
Claude Sonnet 4.658.451.1‑66.6
Gemini 3 Flash Preview42.036.3‑47.9
Gemini 2.5 Flash16.110.9‑21.9

从结果可见,当前LLM在Android任务上的表现差距显著,最高仅约72%,最低不足20%。这表明移动端代码生成仍处于早期阶段,亟需专用模型或工具链的进一步优化。

对行业的潜在影响

  • 研发者:可直接在Android Studio中使用对应API键调用排行榜模型,对实际项目进行快速原型评估。
  • 模型提供商:通过公开的基准数据和防泄漏机制,获得可靠的性能反馈,指导后续模型迭代。
  • 生态系统:Android Bench的开源属性鼓励社区贡献新任务,形成闭环的评测生态,推动移动AI编程能力的整体提升。

“专注平台的基准是检验LLM实际落地能力的关键”,Google AI团队在发布会中如是说。

展望

下一版Android Bench计划加入工具化工作流评测,例如让模型调用本地构建工具或使用第三方库。此外,Google 还将扩展到 iOS 与跨平台框架,以构建更全面的移动端AI编程评测体系。

随着模型对平台特化能力的提升,Android Bench有望成为衡量AI辅助移动开发成熟度的行业标杆。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。