DiffusionGemma实现四倍加速文本生成,开源26B MoE模型亮相
•0 阅读•3分钟•前沿
GoogleNVIDIAGemmaDiffusionGemma
•0 阅读•3分钟•前沿

背景与动机
在传统自回归大语言模型中,文本是逐词生成的,这在本地推理场景会导致GPU算力大量空闲,延迟难以满足实时交互需求。Google DeepMind 团队基于多年 Gemini Diffusion 研究,推出了 DiffusionGemma,希望通过并行生成块状文本来彻底改变这一瓶颈。
技术创新
- 文本扩散架构:模型一次性预测 256-token 块,所有 token 同时相互注意,随后多轮迭代细化,类似图像扩散从噪声到清晰图像的过程。
- Mixture‑of‑Experts (MoE) 设计:总参数 26 B,其中仅激活约 3.8 B 参数,显著降低显存需求,18 GB VRAM 即可运行(量化后)。
- 双向注意力:块内每个 token 能看到整个块的上下文,提升了非线性编辑、代码填充等任务的表现。
性能表现
| 硬件 | 生成速率 (tokens/s) | 备注 |
|---|---|---|
| NVIDIA H100 | >1000 | 最高 4× 加速 |
| RTX 5090 | ~700 | 适配消费级 GPU |
相较于同等规模的 Gemma 4,DiffusionGemma 将解码瓶颈从内存带宽转向计算,充分利用 GPU 的算力峰值。
适用场景与局限
- 实时交互:如文档内联编辑、即时代码补全、交互式问答等,需要低毫秒级响应的本地应用。
- 非线性任务:生物序列、数学图式、复杂 Markdown 渲染等,可受益于块级全局注意。
注意:由于并行解码的固有取舍,生成质量略低于标准 Gemma 4,若对质量要求极高,仍建议使用自回归模型或通过微调提升。
开源与生态
DiffusionGemma 采用 Apache 2.0 许可证,权重已同步至 Hugging Face。开发者可通过以下工具快速部署:
- MLX、vLLM(Red Hat 支持)
- Hugging Face Transformers
- Unsloth、NVIDIA NeMo 微调套件
- 即将支持 llama.cpp 与 NVIDIA NIM
业界反响
自发布后,社区对其“把 GPU 变成印刷机”的比喻反响热烈,多个开源项目已开始尝试将 DiffusionGemma 融入本地 IDE 插件和低延迟聊天机器人。与此同时,也有分析指出,在高并发云服务场景下,传统自回归模型仍具成本优势。
DiffusionGemma 的出现标志着文本生成从“打字机”向“印刷机”转型的关键一步,为本地 AI 应用打开了速度新上限,也为后续更大规模的扩散文本模型奠定了实验基础。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。