H公司发布Holo2-235B-A22B Preview 创下 UI 本地化新纪录
•29 阅读•3分钟•前沿
H CompanyHolo2-235B-A22BUI本地化Agentic Localization
•29 阅读•3分钟•前沿

背景
随着 4K、8K 超高清显示器的普及,软件界面元素密度大幅提升,传统本地化工具在高分辨率屏幕上往往难以精准定位小尺寸按钮、图标等 UI 组件。H公司在去年发布首批 Holo2 系列模型后,持续聚焦 UI 视觉理解与跨语言映射,计划以更大规模的模型突破当前的定位瓶颈。
关键技术:Agentic Localization
Holo2-235B-A22B Preview 引入了**代理式本地化(Agentic Localization)**机制。模型在首次预测后,会根据置信度对低置信区域发起二次、三次迭代,每一步均利用前一步的输出作为上下文进行细化。该循环式推理带来了约 10%‑20% 的相对增益,使得模型在大尺寸界面上也能保持高精度定位。
性能表现
- Screenspot‑Pro:单步预测准确率 70.6%;开启代理模式后,三步累计准确率 78.5%,刷新该基准的 SOTA 纪录。
- OSWorld G:在该跨平台 UI 语义匹配基准上取得 79.0% 的整体得分,同样领跑业界。
以上成绩均在 Holo2‑235B‑A22B Preview 的研究版模型上实现,模型规模为 235 B 参数,采用最新的稀疏混合专家(MoE)架构,并在多语言 UI 数据集上进行大规模预训练。
行业意义
- 加速 UI 本地化流水线:高精度定位直接降低了后期人工审校成本,特别是对需要多语言同步发布的全球化产品。
- 推动多模态大模型向细粒度任务渗透:从文本生成转向高分辨率视觉理解,展示了大模型在专业化细分场景的可行性。
- 为后续跨模态交互奠基:精准的 UI 元素定位是实现智能助手在真实软件环境中直接操作的前提,Holo2 系列的进展为未来的“具身智能”提供了基础。
展望
H公司表示,Holo2‑235B‑A22B Preview 将以 Research Release 形式公开在 Hugging Face,鼓励社区在实际产品中进行验证和二次开发。后续计划在模型规模、稀疏专家数以及跨语言适配上继续迭代,目标是实现 90% 以上的端到端 UI 本地化准确率,并探索将该技术与代码生成、自动化测试等研发流程深度融合。
“我们相信,随着模型对 UI 细节的理解不断提升,AI 将在软件本地化、跨平台适配等关键环节发挥前所未有的驱动力。” — H公司技术负责人
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。