NVIDIA发布Nemotron两塔模型,实现2.42倍文本生成吞吐并保持98.7%质量

4 阅读6分钟前沿

背景与意义

NVIDIA 在 2026 年 7 月正式发布了 Nemotron‑Labs‑TwoTower(以下简称 TwoTower),这是一款基于已冻结的 Nemotron‑3‑Nano‑30B‑A3B 自回归骨干的离散扩散语言模型。相较于传统的自回归(AR)解码一次只能生成一个 token,TwoTower 通过并行扩散在块级别一次生成多达 16 个 token,从而突破了文本生成的吞吐瓶颈。

架构细节

  • 双塔设计:模型由两座塔组成,分别为
    1. AR 上下文塔:保持原始 Nemotron‑3‑Nano 的自回归能力,负责生成 KV 缓存和 Mamba‑2 状态。
    2. 扩散去噪塔:在每个块内部使用双向注意力对噪声块进行迭代去噪,只训练此塔,保持冻结。
  • 层级交叉注意:去噪塔的第 i 层会跨注意第 i 层的上下文塔,实现多尺度特征共享。
  • 专家混合(MoE):每塔拥有 128 个可路由专家,实际激活 6 个专家 + 2 个共享专家,活跃参数约 3 B。
  • 参数规模:两塔共约 60 B 参数,单塔 52 层(23 Mamba‑2、6 自注意、23 MoE)。

训练与推理

  • 训练数据:去噪塔在约 2.1 T token 上进行微调,远低于骨干的 25 T 预训练。
  • 推理模式:提供三种路径
    1. 完整两塔扩散(2 × H100,BF16,每卡约 59 GB)
    2. Mock‑AR(模拟自回归)
    3. 纯 AR(单卡 80 GB)
  • 代码示例(Python):
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, torch_dtype=torch.bfloat16, trust_remote_code=True)
model.place_towers_on_devices("cuda:0", "cuda:1")
prompt = "France is a country "
inputs = tokenizer(prompt, return_tensors="pt").to("cuda:0")
outputs = model.generate_mask_diffusion(
    inputs["input_ids"], max_new_tokens=128, block_size=16,
    steps_per_block=16, mask_token_id=3, temperature=0.1,
    confidence_threshold=0.8, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:],
                       skip_special_tokens=True))

性能评估

任务AR 基线TwoTower(扩散)质量保留
MMLU (5‑shot)78.5678.2499.6%
ARC‑Challenge91.7292.66+1.0%
HumanEval79.2775.58-4.7%
GSM8K92.4990.14-2.4%
  • 吞吐提升:默认 γ=0.8、块大小 S=16 下,生成速度为 AR 的 2.42×
  • 质量保持:在通用知识和多语言任务上仅有约 1% 的下降,代码与数学任务下降略显明显。

优势与局限

优势

  • 完全开源,遵循 NVIDIA Nemotron Open Model License,可直接商业使用。
  • 在保持 98.7% AR 质量的前提下,实现 2.42 倍吞吐,适合大批量合成。
  • 单一 checkpoint 支持三种推理模式,降低部署成本。

局限

  • 完整两塔扩散需要两块 H100,显存占用约 118 GB(每卡 59 GB),硬件门槛仍高。
  • 代码与数学推理的质量下降显著,需后期指令调优。
  • 当前为基础模型,尚未进行指令微调或安全对齐。

行业意义

TwoTower 的发布标志着扩散技术在大语言模型上的成熟落地,为「高吞吐‑低延迟」的文本生成提供了新思路。对内容生产、对话系统以及大规模合成任务均具备直接价值。随着显存成本的进一步下降和多卡并行调度的优化,预计会有更多企业在合成媒体、数据增强和快速原型开发中采用类似的双塔扩散方案。

“我们希望通过开放模型和灵活的推理路径,让社区能够在保持质量的同时,突破传统自回归的速度瓶颈。” — NVIDIA 研发团队

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。