DiffusionGemma实现四倍加速文本生成，开源26B MoE模型亮相

背景与动机

在传统自回归大语言模型中，文本是逐词生成的，这在本地推理场景会导致GPU算力大量空闲，延迟难以满足实时交互需求。Google DeepMind 团队基于多年 Gemini Diffusion 研究，推出了 DiffusionGemma，希望通过并行生成块状文本来彻底改变这一瓶颈。

文本扩散架构：模型一次性预测 256-token 块，所有 token 同时相互注意，随后多轮迭代细化，类似图像扩散从噪声到清晰图像的过程。
Mixture‑of‑Experts (MoE) 设计：总参数 26 B，其中仅激活约 3.8 B 参数，显著降低显存需求，18 GB VRAM 即可运行（量化后）。
双向注意力：块内每个 token 能看到整个块的上下文，提升了非线性编辑、代码填充等任务的表现。

硬件	生成速率 (tokens/s)	备注
NVIDIA H100	>1000	最高 4× 加速
RTX 5090	~700	适配消费级 GPU

相较于同等规模的 Gemma 4，DiffusionGemma 将解码瓶颈从内存带宽转向计算，充分利用 GPU 的算力峰值。

注意：由于并行解码的固有取舍，生成质量略低于标准 Gemma 4，若对质量要求极高，仍建议使用自回归模型或通过微调提升。

DiffusionGemma 采用 Apache 2.0 许可证，权重已同步至 Hugging Face。开发者可通过以下工具快速部署：

自发布后，社区对其“把 GPU 变成印刷机”的比喻反响热烈，多个开源项目已开始尝试将 DiffusionGemma 融入本地 IDE 插件和低延迟聊天机器人。与此同时，也有分析指出，在高并发云服务场景下，传统自回归模型仍具成本优势。

DiffusionGemma 的出现标志着文本生成从“打字机”向“印刷机”转型的关键一步，为本地 AI 应用打开了速度新上限，也为后续更大规模的扩散文本模型奠定了实验基础。