DeepMind发布Gemini Robotics-ER 1.6提升机器人空间推理与仪表读取能力

31 阅读4分钟前沿
DeepMind发布Gemini Robotics-ER 1.6提升机器人空间推理与仪表读取能力

关键发布

Google DeepMind在官方博客上正式推出 Gemini Robotics-ER 1.6,定位为机器人系统的高层认知模型。相较于1.5版,1.6在空间感知、任务规划、成功检测以及全新仪表读取能力上均有显著提升,为工业现场的自主检查提供了可落地的技术支撑。

双模型协同架构

  • Gemini Robotics 1.5:视觉‑语言‑动作(VLA)模型,负责将视觉输入和指令直接转化为电机指令。
  • Gemini Robotics‑ER 1.6:具身推理模型,专注于理解物理空间、制定计划并评估任务完成度,不直接控制机械臂。

两者的配合类似策划者‑执行者的关系:ER 提供高层决策,VLA 执行具体动作,实现了模块化、可扩展的机器人智能体系。

指向能力与空间推理

指向(pointing)是模型在像素级别定位目标的能力,远超传统目标检测。1.6版利用指向实现:

  • 精确计数:在复杂场景中准确统计锤子、剪刀等物体数量。
  • 关系推理:如“将最小的物体移动到蓝色杯子里”。
  • 运动轨迹规划:通过指向确定抓取点和移动路径。
  • 约束满足:识别所有能放入指定容器的物体。

内部基准显示,1.6在这些任务上的准确率明显高于1.5,显著降低了机器人因误检导致的失误风险。

仪表读取的突破

仪表读取是本次更新的最大亮点。模型能够解析模拟仪表、压力表、视窗玻璃等工业读数,支持:

  • 针式指针定位刻度识别文字单位读取
  • 结合代理视觉(agentic vision),先放大关键区域,再通过代码执行完成比例计算与单位换算。

在与波士顿动力(Boston Dynamics)Spot 机器人的合作实验中,1.6的仪表读取准确率达 93%(启用代理视觉),相比1.5的 23% 提升近四倍。此能力直接面向工业设施巡检、设备维护等高价值场景。

多视角成功检测

机器人往往配备俯视摄像头和腕部摄像头,需要跨视角融合信息判断任务是否完成。1.6在多视角推理上实现:

  • 跨视角一致性校验:识别同一对象在不同摄像头下的对应关系。
  • 遮挡处理:在部分视角被遮挡时仍能推断整体状态。
  • 动态环境适应:实时更新场景模型,判断是否进入下一步骤。

成功检测的可靠性提升,使机器人能够自主决定是重试还是继续执行后续任务,推动真正的端到端自主操作。

业界意义与前景

Gemini Robotics‑ER 1.6的发布标志着具身智能在实际工业应用中的一次重要跃迁。它将高层认知与底层执行解耦,为 模块化机器人系统 提供了可复用的“大脑”。

  • 机器人研发团队而言,可直接调用该模型的 API,实现快速原型验证。
  • 工业用户来说,仪表读取和多视角成功检测降低了人工巡检成本,提升了安全性。
  • Boston Dynamics Spot 的合作示例展示了跨公司生态的协同潜力,预示未来更多机器人平台将集成类似认知模型。

总体来看,Gemini Robotics‑ER 1.6不仅是 DeepMind 在具身 AI 研究的里程碑,也为机器人行业的商业化落地提供了关键技术支点。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。