NVIDIA发布Nemotron-Personas-Brazil数据集 助力巴西本土AI实现主权化

25 阅读3分钟前沿
NVIDIA发布Nemotron-Personas-Brazil数据集 助力巴西本土AI实现主权化

项目概览

NVIDIA 与拉美 AI 方案商 WideLabs 联手,推出首个面向巴西市场的合成人格数据集 Nemotron-Personas-Brazil。数据集采用 CC BY 4.0 许可,面向巴西开发者、研究机构提供 6 百万条、约 1.4 十亿 token 的多维人格描述,旨在填补英语中心化训练数据的空白,推动巴西本土 AI 主权化。

数据集细节

  • 规模:6 百万条记录,每条记录包含 6 种人格变体,总计约 1.4 十亿 token;其中约 450 百万 token 属于人格本体。
  • 字段:20 个属性,包括年龄、性别、教育、职业、所在州/市等 14 个上下文字段,以及 6 个人格特征字段。
  • 覆盖:覆盖巴西全部 26 个州及联邦区,收录 45.7 万独特葡萄牙语姓名,职业类别超 1 500 种,涵盖专业、体育、艺术、旅游等多元场景。
  • 语言:全部采用自然巴西葡萄牙语撰写,保留当地命名习惯与交流风格。

构建方法

数据集通过 NeMo Data Designer 生成,核心流程包括:

  1. 统计图模型(基于 Apache‑2.0 许可)对接 IBGE(巴西地理统计局)人口与劳动数据,实现人口、职业、地区分布的概率 grounding。
  2. GPT‑OSS‑120B(Apache‑2.0)负责巴西葡萄牙语文本生成,确保语言自然流畅。
  3. 结构化生成‑验证‑重试机制,保证每条合成记录符合统计约束且语义完整。

关键意义

  • 数据主权:提供本土化、可商用的合成数据,帮助巴西企业摆脱对外部英语数据的依赖,符合当地数据保护法规。
  • 文化真实性:通过官方统计与多维属性建模,捕捉巴西社会习惯、兴趣与职业结构,提升模型在本地场景的表现与公平性。
  • 隐私安全:所有记录均为全合成,不含任何可识别的个人信息,满足 GDPR、LGPD 等隐私合规要求。
  • 生态赋能:数据集可直接在 Hugging Face nvidia/nemotron-personas-brazil 加载,支持对话生成、领域微调、偏见评估等多种实际应用。

未来展望

NVIDIA 计划在 NeMo Data Designer 中内嵌扩展版 Nemotron‑Personas‑Brazil,允许开发者自行调节人口分布、职业细分等参数,进一步实现“合成即服务”。同时,NVIDIA 正在筹划覆盖拉美其他国家的类似数据集,以构建完整的拉美主权 AI 数据生态。

“开放合成数据是实现 AI 主权的关键一步。”—— NVIDIA 数据产品负责人

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。