NVIDIA发布Nemotron-Personas-Brazil数据集助力巴西本土AI实现主权化

项目概览

NVIDIA 与拉美 AI 方案商 WideLabs 联手，推出首个面向巴西市场的合成人格数据集 Nemotron-Personas-Brazil。数据集采用 CC BY 4.0 许可，面向巴西开发者、研究机构提供 6 百万条、约 1.4 十亿 token 的多维人格描述，旨在填补英语中心化训练数据的空白，推动巴西本土 AI 主权化。

数据集细节

规模：6 百万条记录，每条记录包含 6 种人格变体，总计约 1.4 十亿 token；其中约 450 百万 token 属于人格本体。
字段：20 个属性，包括年龄、性别、教育、职业、所在州/市等 14 个上下文字段，以及 6 个人格特征字段。
覆盖：覆盖巴西全部 26 个州及联邦区，收录 45.7 万独特葡萄牙语姓名，职业类别超 1 500 种，涵盖专业、体育、艺术、旅游等多元场景。
语言：全部采用自然巴西葡萄牙语撰写，保留当地命名习惯与交流风格。

构建方法

数据集通过 NeMo Data Designer 生成，核心流程包括：

统计图模型（基于 Apache‑2.0 许可）对接 IBGE（巴西地理统计局）人口与劳动数据，实现人口、职业、地区分布的概率 grounding。
GPT‑OSS‑120B（Apache‑2.0）负责巴西葡萄牙语文本生成，确保语言自然流畅。
结构化生成‑验证‑重试机制，保证每条合成记录符合统计约束且语义完整。

关键意义

数据主权：提供本土化、可商用的合成数据，帮助巴西企业摆脱对外部英语数据的依赖，符合当地数据保护法规。
文化真实性：通过官方统计与多维属性建模，捕捉巴西社会习惯、兴趣与职业结构，提升模型在本地场景的表现与公平性。
隐私安全：所有记录均为全合成，不含任何可识别的个人信息，满足 GDPR、LGPD 等隐私合规要求。
生态赋能：数据集可直接在 Hugging Face nvidia/nemotron-personas-brazil 加载，支持对话生成、领域微调、偏见评估等多种实际应用。

未来展望

NVIDIA 计划在 NeMo Data Designer 中内嵌扩展版 Nemotron‑Personas‑Brazil，允许开发者自行调节人口分布、职业细分等参数，进一步实现“合成即服务”。同时，NVIDIA 正在筹划覆盖拉美其他国家的类似数据集，以构建完整的拉美主权 AI 数据生态。

“开放合成数据是实现 AI 主权的关键一步。”—— NVIDIA 数据产品负责人

NVIDIA发布Nemotron-Personas-Brazil数据集 助力巴西本土AI实现主权化