H公司发布Holo2-235B-A22B Preview 创下 UI 本地化新纪录

背景

随着 4K、8K 超高清显示器的普及，软件界面元素密度大幅提升，传统本地化工具在高分辨率屏幕上往往难以精准定位小尺寸按钮、图标等 UI 组件。H公司在去年发布首批 Holo2 系列模型后，持续聚焦 UI 视觉理解与跨语言映射，计划以更大规模的模型突破当前的定位瓶颈。

关键技术：Agentic Localization

Holo2-235B-A22B Preview 引入了**代理式本地化（Agentic Localization）**机制。模型在首次预测后，会根据置信度对低置信区域发起二次、三次迭代，每一步均利用前一步的输出作为上下文进行细化。该循环式推理带来了约 10%‑20% 的相对增益，使得模型在大尺寸界面上也能保持高精度定位。

性能表现

Screenspot‑Pro：单步预测准确率 70.6%；开启代理模式后，三步累计准确率 78.5%，刷新该基准的 SOTA 纪录。
OSWorld G：在该跨平台 UI 语义匹配基准上取得 79.0% 的整体得分，同样领跑业界。

以上成绩均在 Holo2‑235B‑A22B Preview 的研究版模型上实现，模型规模为 235 B 参数，采用最新的稀疏混合专家（MoE）架构，并在多语言 UI 数据集上进行大规模预训练。

行业意义

加速 UI 本地化流水线：高精度定位直接降低了后期人工审校成本，特别是对需要多语言同步发布的全球化产品。
推动多模态大模型向细粒度任务渗透：从文本生成转向高分辨率视觉理解，展示了大模型在专业化细分场景的可行性。
为后续跨模态交互奠基：精准的 UI 元素定位是实现智能助手在真实软件环境中直接操作的前提，Holo2 系列的进展为未来的“具身智能”提供了基础。

展望

H公司表示，Holo2‑235B‑A22B Preview 将以 Research Release 形式公开在 Hugging Face，鼓励社区在实际产品中进行验证和二次开发。后续计划在模型规模、稀疏专家数以及跨语言适配上继续迭代，目标是实现 90% 以上的端到端 UI 本地化准确率，并探索将该技术与代码生成、自动化测试等研发流程深度融合。

“我们相信，随着模型对 UI 细节的理解不断提升，AI 将在软件本地化、跨平台适配等关键环节发挥前所未有的驱动力。” — H公司技术负责人

H公司发布Holo2-235B-A22B Preview 创下 UI 本地化新纪录

背景

关键技术：Agentic Localization

性能表现

行业意义

展望

标签分类

H公司发布Holo2-235B-A22B Preview 创下 UI 本地化新纪录