Meta AI与KAUST提出神经计算机 将计算、记忆和I/O融合于单一模型

51 阅读4分钟前沿
Meta AI与KAUST提出神经计算机 将计算、记忆和I/O融合于单一模型

背景

Meta AI 与 KAUST 的研究团队在近期的 arXiv 论文中提出 神经计算机(Neural Computer, NC) 的全新机器形态。传统计算机依赖显式程序执行,AI 代理则在现有操作系统之上完成任务;而神经计算机的目标是让学习模型本身承担运行时的全部职责,包括计算、记忆以及输入/输出管理,从而消除模型与底层机器的分离。

原理与定义

神经计算机以更新函数 与解码器 对潜在运行状态 hₜ 进行迭代:

  • 接收当前观察 xₜ 与用户动作 uₜ
  • 更新 hₜ 形成新的运行上下文;
  • 通过 生成下一帧 xₜ₊₁

该运行状态相当于传统操作系统的可执行上下文、工作内存和界面状态的内部表征。若满足 图灵完备、通用可编程、行为一致性(除非显式重编程)以及机器原生语义 四大条件,则可称为 完全神经计算机(CNC)

原型实现(基于 Wan2.1)

论文展示了两款原型:

  • NCCLIGen:在命令行界面(CLI)下,将文本提示、首帧截图与扩散噪声共同送入 DiT(Diffusion Transformer)实现 文本‑图像‑视频 生成。
  • NCGUIWorld:在图形用户界面(GUI)环境中,记录 1024×768、15 FPS 的 RGB 帧与输入事件,训练模型直接预测完整桌面交互序列。

两者均基于 Wan2.1(当时最先进的视频生成模型),在上层加入专门的条件与动作模块,且训练过程完全 open‑loop:使用离线收集的提示与动作流进行 rollout。

实验结果

  • NCCLIGen 在通用 CLIGen 数据集(≈823k 条视频流)上训练约 15,000 GPU·h(H100),在清洗版(≈78k 条)上再训练 7,000 GPU·h。终端渲染质量达到 PSNR 40.77 dB、SSIM 0.989,字符级 OCR 准确率从 0.03 提升至 0.54。
  • NCGUIWorld 使用 64 张 GPU 训练约 15 天(≈23,000 GPU·h),在 110 小时的目标导向轨迹上实现 光标定位准确率 98.7%(对比坐标监督的 8.7%),并在结构一致性(SSIM+15 = 0.863)与感知距离(LPIPS+15 = 0.138)上取得最佳表现。
  • 重新提示(re‑prompt)可将 NCCLIGen 的算术任务正确率从 4% 提升至 83%,表明模型具备 可引导性 而非内在符号计算能力。

未解挑战与展望

尽管原型展示了短时界面控制的可学习性,但仍存在三大鸿沟:

  1. 可复用的学习例程:模型缺乏稳定的功能模块化与调用机制。
  2. 长时程执行一致性:跨多步推理时行为漂移仍未得到控制。
  3. 更新治理:如何在不产生隐式行为改变的前提下对模型进行显式编程、追溯与回滚。

研究团队将这些视为实现 完全神经计算机(CNC) 的关键评估维度,未来工作将围绕 install‑reuse、execution consistency、update governance 三个镜头展开。

结论

神经计算机的提出标志着 AI 研究从“模型‑工具”向“模型‑机器”迈出重要一步。当前的原型已经证明了端到端界面渲染与交互控制的可行性,并揭示了数据质量(目标导向轨迹)相较于规模的决定性作用。然而,要让神经网络真正承担完整的计算平台职责,还需在可复用性、长期一致性以及可审计的更新机制上取得突破。此方向若实现,将为通用人工智能提供全新的架构范式,也可能重塑传统软硬件协同的设计思路。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。