Google发布Android Bench 首个专注移动开发的LLM评测框架

背景与意义

随着大型语言模型（LLM）在代码生成领域的快速发展，通用编程基准已难以覆盖移动平台的特殊依赖和生态。Google AI因此推出 Android Bench，旨在填补Android开发场景的评测空白，为研发者与模型提供可比的性能参考。

真实项目抽取：任务直接来源于公开的GitHub Android仓库，确保覆盖主流库与最新API。
多层次难度：包括
1. Android 版本间的破坏性变更修复；
2. Wear OS 设备的网络配置；
3. 将旧版 UI 代码迁移至 Jetpack Compose。
评测流程：模型接收错误报告后生成修复代码，系统随后运行
- 单元测试（无需Android运行时）
- 仪器化测试（在真实设备或模拟器上执行），两者均需全部通过方视为成功。

从结果可见，当前LLM在Android任务上的表现差距显著，最高仅约72%，最低不足20%。这表明移动端代码生成仍处于早期阶段，亟需专用模型或工具链的进一步优化。

“专注平台的基准是检验LLM实际落地能力的关键”，Google AI团队在发布会中如是说。

下一版Android Bench计划加入工具化工作流评测，例如让模型调用本地构建工具或使用第三方库。此外，Google 还将扩展到 iOS 与跨平台框架，以构建更全面的移动端AI编程评测体系。

随着模型对平台特化能力的提升，Android Bench有望成为衡量AI辅助移动开发成熟度的行业标杆。