Meta AI与KAUST提出神经计算机 将计算、记忆和I/O融合于单一模型
•51 阅读•4分钟•前沿
MetaKAUST神经计算机Wan2.1
•51 阅读•4分钟•前沿

背景
Meta AI 与 KAUST 的研究团队在近期的 arXiv 论文中提出 神经计算机(Neural Computer, NC) 的全新机器形态。传统计算机依赖显式程序执行,AI 代理则在现有操作系统之上完成任务;而神经计算机的目标是让学习模型本身承担运行时的全部职责,包括计算、记忆以及输入/输出管理,从而消除模型与底层机器的分离。
原理与定义
神经计算机以更新函数 Fθ 与解码器 Gθ 对潜在运行状态 hₜ 进行迭代:
- 接收当前观察 xₜ 与用户动作 uₜ;
- 更新 hₜ 形成新的运行上下文;
- 通过 Gθ 生成下一帧 xₜ₊₁。
该运行状态相当于传统操作系统的可执行上下文、工作内存和界面状态的内部表征。若满足 图灵完备、通用可编程、行为一致性(除非显式重编程)以及机器原生语义 四大条件,则可称为 完全神经计算机(CNC)。
原型实现(基于 Wan2.1)
论文展示了两款原型:
- NCCLIGen:在命令行界面(CLI)下,将文本提示、首帧截图与扩散噪声共同送入 DiT(Diffusion Transformer)实现 文本‑图像‑视频 生成。
- NCGUIWorld:在图形用户界面(GUI)环境中,记录 1024×768、15 FPS 的 RGB 帧与输入事件,训练模型直接预测完整桌面交互序列。
两者均基于 Wan2.1(当时最先进的视频生成模型),在上层加入专门的条件与动作模块,且训练过程完全 open‑loop:使用离线收集的提示与动作流进行 rollout。
实验结果
- NCCLIGen 在通用 CLIGen 数据集(≈823k 条视频流)上训练约 15,000 GPU·h(H100),在清洗版(≈78k 条)上再训练 7,000 GPU·h。终端渲染质量达到 PSNR 40.77 dB、SSIM 0.989,字符级 OCR 准确率从 0.03 提升至 0.54。
- NCGUIWorld 使用 64 张 GPU 训练约 15 天(≈23,000 GPU·h),在 110 小时的目标导向轨迹上实现 光标定位准确率 98.7%(对比坐标监督的 8.7%),并在结构一致性(SSIM+15 = 0.863)与感知距离(LPIPS+15 = 0.138)上取得最佳表现。
- 重新提示(re‑prompt)可将 NCCLIGen 的算术任务正确率从 4% 提升至 83%,表明模型具备 可引导性 而非内在符号计算能力。
未解挑战与展望
尽管原型展示了短时界面控制的可学习性,但仍存在三大鸿沟:
- 可复用的学习例程:模型缺乏稳定的功能模块化与调用机制。
- 长时程执行一致性:跨多步推理时行为漂移仍未得到控制。
- 更新治理:如何在不产生隐式行为改变的前提下对模型进行显式编程、追溯与回滚。
研究团队将这些视为实现 完全神经计算机(CNC) 的关键评估维度,未来工作将围绕 install‑reuse、execution consistency、update governance 三个镜头展开。
结论
神经计算机的提出标志着 AI 研究从“模型‑工具”向“模型‑机器”迈出重要一步。当前的原型已经证明了端到端界面渲染与交互控制的可行性,并揭示了数据质量(目标导向轨迹)相较于规模的决定性作用。然而,要让神经网络真正承担完整的计算平台职责,还需在可复用性、长期一致性以及可审计的更新机制上取得突破。此方向若实现,将为通用人工智能提供全新的架构范式,也可能重塑传统软硬件协同的设计思路。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。