Physical Intelligence团队推出多尺度记忆系统MEM，让Gemma 3‑4B机器人模型拥有15分钟上下文

背景

传统的端到端机器人策略，尤其是Vision‑Language‑Action（VLA）模型，往往只能利用单帧或极短的历史信息。这导致在厨房清洁、食谱执行等需要数分钟甚至更长时间的任务上，模型容易出现失误或根本无法完成。为突破记忆瓶颈，Physical Intelligence团队联合斯坦福、加州大学伯克利和MIT的研究者提出了 Multi‑Scale Embodied Memory（MEM），并将其嵌入到基于Gemma 3‑4B的π0.6 VLA中。

MEM 架构

MEM 将机器人记忆划分为两个层次：

短期视频记忆：采用空间‑时间可分离注意力（Space‑Time Separable Attention），在每四层插入一次因果时间注意力，显著降低计算复杂度 (O(n^2K^2) → O(Kn^2 + nK^2))。仅保留当前帧的视觉特征进入VLA主干，保持 token 数量与单帧模型相当，实现 380 ms 以内的实时推理。
长期语言记忆：利用 LLM 生成的语言摘要压缩过去的语义事件，如“我放了三个碗”。高层策略 (π_{HL}) 维护这段摘要并生成子任务指令，低层策略 (π_{LL}) 根据最近的视觉信息执行具体动作。公式如下：

\pi(a_{t:t+H},l_{t+1},m_{t+1}|o_{t-T:t},m_{t},g) \approx \pi_{LL}(a_{t:t+H}|o_{t-K:t},l_{t+1},g)\pi_{HL}(l_{t+1},m_{t+1}|o_{t},m_{t},g)

实验与成果

团队在真实厨房环境中评估了 MEM‑增强的机器人。关键指标如下：

适应性提升：在未知铰链方向的冰箱打开任务中成功率提升 62%。
细粒度操作：在可变高度的筷子拾取任务中提升 11%。
长程任务：成功完成 15 分钟的“配方准备”与“厨房清洁”两大任务，记忆缺失的基线模型几乎全部失败。
算力效率：单卡 NVIDIA H100 下，视频编码器可一次处理 16 帧（约 1 分钟），仍保持实时推理门槛。

“MEM 的核心在于用语言压缩长期语义，用视觉捕捉短期细节，两者相辅相成，使机器人拥有类似人类的工作记忆。”——论文作者之一

影响与展望

MEM 的设计思路为机器人长期自治提供了可行路径。通过将大模型的语言理解能力与高效视频编码相结合，系统在不牺牲实时性前提下实现了 15 分钟 级别的上下文记忆，这可能推动厨房助理、仓储分拣以及家庭清洁等场景的商业落地。未来工作包括：

将 MEM 与更大规模的基础模型（如 GPT‑4‑Turbo）对齐，以提升语言摘要的细腻度；
探索跨模态记忆共享，让机器人在视觉、触觉和语言之间实现信息互补；
优化硬件加速，进一步压缩视频编码的延迟，争取突破 200 ms 实时门槛。

结语：MEM 为机器人记忆体系注入了“双尺度”创新，展示了在保持算力可控的前提下，实现长时程任务的可行性。随着开源模型与专用硬件的持续迭代，类似 MEM 的记忆框架有望成为下一代通用机器人系统的标准组件。

Physical Intelligence团队推出多尺度记忆系统MEM，让Gemma 3‑4B机器人模型拥有15分钟上下文

背景

MEM 架构

实验与成果

影响与展望

标签分类