NVIDIA发布超2PB开源数据集，助力可信AI加速落地

背景概述

NVIDIA 将 AI 进展视为“模型+数据”双轮驱动。随着智能体逐渐具备自主规划能力，训练数据的质量与可获取性成为制约因素。为破解数据瓶颈，NVIDIA 于本月在 Hugging Face 上公开了 2 PB 以上、180 多个数据集，并同步发布训练配方与评估基准，形成从原始数据到模型上线的完整闭环。

开放数据的核心理念

“开放数据像开放厨房，所有原料、配方都透明可见，任何人都能复刻并改进。” — NVIDIA 数据团队

极端协同设计：数据、硬件、软件、政策团队同步迭代，消除规模化瓶颈。
许可证统一：全部数据采用 CC‑BY‑NC‑4.0 或更宽松许可，确保商业二次使用安全。
生态共建：通过 GitHub 公开训练脚本、通过 Discord 组织社区评测，形成闭环反馈。

重点数据集速览

Physical AI Collection：500K+ 机器人轨迹、57M 抓取动作、15TB 多模态传感数据；已被 Runway、Lightwheel 等公司用于世界模型与策略微调。
Nemotron Personas：合成人口画像，覆盖美国、日、印、巴西等六大地区，总量约 39M 人物；助力 CrowdStrike、NTT Data 等提升跨语言问答与安全检测准确率。
La Proteina：455K 原子级蛋白结构，结构多样性提升 73%，为药物发现提供免版权、无 PII 的高质量分子数据。
SPEED‑Bench：面向推理加速的双分支基准，提供语义多样性文本与不同长度吞吐测评，已成为内部评估 Nemotron MTP 的标准。
Retrieval‑Synthetic‑NVDocs‑v1：110K 查询‑段落‑答案三元组，专为 RAG 与嵌入模型训练设计，微调后 NDCG@10 提升 11%。

极端协同设计的实践

NVIDIA 将数据视作软件工程问题，采用 CLIMB 算法对 400B‑token 的 ClimbMix 数据进行嵌入聚类与迭代精炼，使得训练成本相比旧版 FineWeb‑Edu 降低约 33%。该数据集已被 NanoChat Speedrun 采纳为默认配方，显著缩短 H100 训练时长。

社区与产业回响

下载量：Physical AI Collection 已突破 1000 万次下载。
合作伙伴：OpenAI、Meta、华为等均在内部实验中引用 NVIDIA 开源数据。
生态激励：通过 ViDoRe 与 CVDP 两大联盟，推动行业标准化基准共建，提升跨企业评测可比性。

前景展望

NVIDIA 表示，开放数据是构建可信、可解释 AI 系统的基石。未来将继续扩展生物、材料、金融等领域的数据集，并深化与学术机构的合作，打造“一站式”数据‑模型‑评测闭环，为生成式 AI 与自治智能体提供更安全、更高效的训练资源。