Google发布Android Bench 首个专注移动开发的LLM评测框架
Google AI今日正式开源Android Bench,这是面向Android开发任务的评测框架与排行榜。该基准从真实GitHub项目中抽取任务,覆盖API迁移、Wear OS网络等场景,并通过单元测试与仪器化测试验证模型修复效果,为LLM在移动端的实用性提供了首个量化标准。
Google AI今日正式开源Android Bench,这是面向Android开发任务的评测框架与排行榜。该基准从真实GitHub项目中抽取任务,覆盖API迁移、Wear OS网络等场景,并通过单元测试与仪器化测试验证模型修复效果,为LLM在移动端的实用性提供了首个量化标准。


本文基于开源指令模型 Qwen2.5-1.5B‑Instruct,详细阐述了如何构建由规划、执行与聚合三个子代理组成的层级规划系统。通过代码示例展示模型加载、JSON 结构化输出、工具调用以及多轮迭代执行的完整流程,为研发者提供可直接复用的实践方案。





旅行平台Agoda今日发布开源工具APIAgent,能够在无需编写代码和部署的情况下,将任意REST或GraphQL接口自动转换为符合Model Context Protocol(MCP)的服务器,帮助AI代理快速接入企业数据,显著降低集成成本。







Clawdbot是一款可自行部署的开源个人AI助手,利用Anthropic、OpenAI等大模型并通过Gateway、Skill、Lobster等模块将聊天转化为可审计的本地自动化流程,帮助用户在私有硬件上安全高效地完成日常任务。

