DeepMind推出D4RT实现300倍速4维场景重建与追踪

2026/01/16 (周五)•31 阅读•2分钟•前沿

DeepMind4D重建动态场景实时感知空间计算

2026/01/16 (周五)•31 阅读•2分钟•前沿

DeepMind推出D4RT实现300倍速4维场景重建与追踪

背景与挑战

传统的4D（空间 + 时间）场景重建依赖多套专门模型：深度估计、运动估计、相机位姿恢复等，各自计算量大且难以协同。面对视频中物体遮挡、快速运动以及相机抖动，现有方法往往出现碎片化重建或严重延迟，难以满足实时交互的需求。

D4RT核心原理

D4RT 采用统一的 Encoder‑Decoder Transformer 架构，核心创新在于 查询驱动 的处理方式：

单一查询：模型只需回答“该像素在任意时间、任意相机视角下的3D坐标”。
并行解码：数千个查询可同步在现代 AI 加速器上执行，实现毫秒级响应。
全局压缩表征：Encoder 将整段视频压缩为统一的几何‑运动表征，Decoder 依据查询即时提取所需信息。

性能与评估

速度：在单块 TPU 上，处理 1 分钟视频仅需约 5 秒，较前沿方法快 18–300 倍。
精度：在 MPI‑Sintel、Aria Digital Twin 以及 RE10k 数据集上，D4RT 在点云重建、像素追踪和相机位姿估计等指标上均刷新最高记录。
鲁棒性：即使目标在部分帧中完全不可见，模型仍能预测其连续轨迹，显著降低遮挡导致的错误。

下游应用前景

机器人：提供动态环境的实时空间映射，提升导航与操作安全性。
增强现实 (AR)：低延迟的几何感知使得 AR 眼镜能够在设备端完成对象遮挡与交互渲染。
世界模型：通过解耦相机运动与物体运动，D4RT 为通用人工智能构建更完整的物理世界模型奠定基础。

“我们不必在准确性和效率之间做选择，D4RT 让两者兼得，为空间计算打开新局面。” — DeepMind 研究团队

未来，DeepMind 将继续优化模型规模与硬件适配，推动 D4RT 在移动端和嵌入式系统中的落地。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。