Meta AI与KAUST提出神经计算机将计算、记忆和I/O融合于单一模型

背景

Meta AI 与 KAUST 的研究团队在近期的 arXiv 论文中提出 神经计算机（Neural Computer, NC） 的全新机器形态。传统计算机依赖显式程序执行，AI 代理则在现有操作系统之上完成任务；而神经计算机的目标是让学习模型本身承担运行时的全部职责，包括计算、记忆以及输入/输出管理，从而消除模型与底层机器的分离。

原理与定义

神经计算机以更新函数 Fθ 与解码器 Gθ 对潜在运行状态 hₜ 进行迭代：

接收当前观察 xₜ 与用户动作 uₜ；
更新 hₜ 形成新的运行上下文；
通过 Gθ 生成下一帧 xₜ₊₁。

该运行状态相当于传统操作系统的可执行上下文、工作内存和界面状态的内部表征。若满足 图灵完备、通用可编程、行为一致性（除非显式重编程）以及机器原生语义 四大条件，则可称为 完全神经计算机（CNC）。

原型实现（基于 Wan2.1）

论文展示了两款原型：

NCCLIGen：在命令行界面（CLI）下，将文本提示、首帧截图与扩散噪声共同送入 DiT（Diffusion Transformer）实现 文本‑图像‑视频 生成。
NCGUIWorld：在图形用户界面（GUI）环境中，记录 1024×768、15 FPS 的 RGB 帧与输入事件，训练模型直接预测完整桌面交互序列。

两者均基于 Wan2.1（当时最先进的视频生成模型），在上层加入专门的条件与动作模块，且训练过程完全 open‑loop：使用离线收集的提示与动作流进行 rollout。

实验结果

NCCLIGen 在通用 CLIGen 数据集（≈823k 条视频流）上训练约 15,000 GPU·h（H100），在清洗版（≈78k 条）上再训练 7,000 GPU·h。终端渲染质量达到 PSNR 40.77 dB、SSIM 0.989，字符级 OCR 准确率从 0.03 提升至 0.54。
NCGUIWorld 使用 64 张 GPU 训练约 15 天（≈23,000 GPU·h），在 110 小时的目标导向轨迹上实现 光标定位准确率 98.7%（对比坐标监督的 8.7%），并在结构一致性（SSIM+15 = 0.863）与感知距离（LPIPS+15 = 0.138）上取得最佳表现。
重新提示（re‑prompt）可将 NCCLIGen 的算术任务正确率从 4% 提升至 83%，表明模型具备 可引导性 而非内在符号计算能力。

未解挑战与展望

尽管原型展示了短时界面控制的可学习性，但仍存在三大鸿沟：

可复用的学习例程：模型缺乏稳定的功能模块化与调用机制。
长时程执行一致性：跨多步推理时行为漂移仍未得到控制。
更新治理：如何在不产生隐式行为改变的前提下对模型进行显式编程、追溯与回滚。

研究团队将这些视为实现 完全神经计算机（CNC） 的关键评估维度，未来工作将围绕 install‑reuse、execution consistency、update governance 三个镜头展开。

结论

神经计算机的提出标志着 AI 研究从“模型‑工具”向“模型‑机器”迈出重要一步。当前的原型已经证明了端到端界面渲染与交互控制的可行性，并揭示了数据质量（目标导向轨迹）相较于规模的决定性作用。然而，要让神经网络真正承担完整的计算平台职责，还需在可复用性、长期一致性以及可审计的更新机制上取得突破。此方向若实现，将为通用人工智能提供全新的架构范式，也可能重塑传统软硬件协同的设计思路。

Meta AI与KAUST提出神经计算机 将计算、记忆和I/O融合于单一模型

背景

原理与定义

原型实现（基于 Wan2.1）

实验结果

未解挑战与展望

结论

标签分类

Meta AI与KAUST提出神经计算机将计算、记忆和I/O融合于单一模型