NVIDIA发布超2PB开源数据集,助力可信AI加速落地

3 阅读3分钟视野
NVIDIA发布超2PB开源数据集,助力可信AI加速落地

背景概述

NVIDIA 将 AI 进展视为“模型+数据”双轮驱动。随着智能体逐渐具备自主规划能力,训练数据的质量与可获取性成为制约因素。为破解数据瓶颈,NVIDIA 于本月在 Hugging Face 上公开了 2 PB 以上、180 多个数据集,并同步发布训练配方与评估基准,形成从原始数据到模型上线的完整闭环。

开放数据的核心理念

“开放数据像开放厨房,所有原料、配方都透明可见,任何人都能复刻并改进。” — NVIDIA 数据团队

  • 极端协同设计:数据、硬件、软件、政策团队同步迭代,消除规模化瓶颈。
  • 许可证统一:全部数据采用 CC‑BY‑NC‑4.0 或更宽松许可,确保商业二次使用安全。
  • 生态共建:通过 GitHub 公开训练脚本、通过 Discord 组织社区评测,形成闭环反馈。

重点数据集速览

  • Physical AI Collection:500K+ 机器人轨迹、57M 抓取动作、15TB 多模态传感数据;已被 Runway、Lightwheel 等公司用于世界模型与策略微调。
  • Nemotron Personas:合成人口画像,覆盖美国、日、印、巴西等六大地区,总量约 39M 人物;助力 CrowdStrike、NTT Data 等提升跨语言问答与安全检测准确率。
  • La Proteina:455K 原子级蛋白结构,结构多样性提升 73%,为药物发现提供免版权、无 PII 的高质量分子数据。
  • SPEED‑Bench:面向推理加速的双分支基准,提供语义多样性文本与不同长度吞吐测评,已成为内部评估 Nemotron MTP 的标准。
  • Retrieval‑Synthetic‑NVDocs‑v1:110K 查询‑段落‑答案三元组,专为 RAG 与嵌入模型训练设计,微调后 NDCG@10 提升 11%。

极端协同设计的实践

NVIDIA 将数据视作软件工程问题,采用 CLIMB 算法对 400B‑token 的 ClimbMix 数据进行嵌入聚类与迭代精炼,使得训练成本相比旧版 FineWeb‑Edu 降低约 33%。该数据集已被 NanoChat Speedrun 采纳为默认配方,显著缩短 H100 训练时长。

社区与产业回响

  • 下载量:Physical AI Collection 已突破 1000 万次下载。
  • 合作伙伴:OpenAI、Meta、华为等均在内部实验中引用 NVIDIA 开源数据。
  • 生态激励:通过 ViDoRe 与 CVDP 两大联盟,推动行业标准化基准共建,提升跨企业评测可比性。

前景展望

NVIDIA 表示,开放数据是构建可信、可解释 AI 系统的基石。未来将继续扩展生物、材料、金融等领域的数据集,并深化与学术机构的合作,打造“一站式”数据‑模型‑评测闭环,为生成式 AI 与自治智能体提供更安全、更高效的训练资源。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。