DeepMind发布Gemini Robotics-ER 1.6提升机器人空间推理与仪表读取能力

关键发布

Google DeepMind在官方博客上正式推出 Gemini Robotics-ER 1.6，定位为机器人系统的高层认知模型。相较于1.5版，1.6在空间感知、任务规划、成功检测以及全新仪表读取能力上均有显著提升，为工业现场的自主检查提供了可落地的技术支撑。

两者的配合类似策划者‑执行者的关系：ER 提供高层决策，VLA 执行具体动作，实现了模块化、可扩展的机器人智能体系。

指向（pointing）是模型在像素级别定位目标的能力，远超传统目标检测。1.6版利用指向实现：

内部基准显示，1.6在这些任务上的准确率明显高于1.5，显著降低了机器人因误检导致的失误风险。

仪表读取是本次更新的最大亮点。模型能够解析模拟仪表、压力表、视窗玻璃等工业读数，支持：

在与波士顿动力（Boston Dynamics）Spot 机器人的合作实验中，1.6的仪表读取准确率达 93%（启用代理视觉），相比1.5的 23% 提升近四倍。此能力直接面向工业设施巡检、设备维护等高价值场景。

机器人往往配备俯视摄像头和腕部摄像头，需要跨视角融合信息判断任务是否完成。1.6在多视角推理上实现：

成功检测的可靠性提升，使机器人能够自主决定是重试还是继续执行后续任务，推动真正的端到端自主操作。

Gemini Robotics‑ER 1.6的发布标志着具身智能在实际工业应用中的一次重要跃迁。它将高层认知与底层执行解耦，为 模块化机器人系统 提供了可复用的“大脑”。

总体来看，Gemini Robotics‑ER 1.6不仅是 DeepMind 在具身 AI 研究的里程碑，也为机器人行业的商业化落地提供了关键技术支点。