DiffusionGemma实现四倍加速文本生成,开源26B MoE模型亮相

0 阅读3分钟前沿
DiffusionGemma实现四倍加速文本生成,开源26B MoE模型亮相

背景与动机

在传统自回归大语言模型中,文本是逐词生成的,这在本地推理场景会导致GPU算力大量空闲,延迟难以满足实时交互需求。Google DeepMind 团队基于多年 Gemini Diffusion 研究,推出了 DiffusionGemma,希望通过并行生成块状文本来彻底改变这一瓶颈。

技术创新

  • 文本扩散架构:模型一次性预测 256-token 块,所有 token 同时相互注意,随后多轮迭代细化,类似图像扩散从噪声到清晰图像的过程。
  • Mixture‑of‑Experts (MoE) 设计:总参数 26 B,其中仅激活约 3.8 B 参数,显著降低显存需求,18 GB VRAM 即可运行(量化后)。
  • 双向注意力:块内每个 token 能看到整个块的上下文,提升了非线性编辑、代码填充等任务的表现。

性能表现

硬件生成速率 (tokens/s)备注
NVIDIA H100>1000最高 4× 加速
RTX 5090~700适配消费级 GPU

相较于同等规模的 Gemma 4,DiffusionGemma 将解码瓶颈从内存带宽转向计算,充分利用 GPU 的算力峰值。

适用场景与局限

  • 实时交互:如文档内联编辑、即时代码补全、交互式问答等,需要低毫秒级响应的本地应用。
  • 非线性任务:生物序列、数学图式、复杂 Markdown 渲染等,可受益于块级全局注意。

注意:由于并行解码的固有取舍,生成质量略低于标准 Gemma 4,若对质量要求极高,仍建议使用自回归模型或通过微调提升。

开源与生态

DiffusionGemma 采用 Apache 2.0 许可证,权重已同步至 Hugging Face。开发者可通过以下工具快速部署:

  • MLX、vLLM(Red Hat 支持)
  • Hugging Face Transformers
  • Unsloth、NVIDIA NeMo 微调套件
  • 即将支持 llama.cppNVIDIA NIM

业界反响

自发布后,社区对其“把 GPU 变成印刷机”的比喻反响热烈,多个开源项目已开始尝试将 DiffusionGemma 融入本地 IDE 插件和低延迟聊天机器人。与此同时,也有分析指出,在高并发云服务场景下,传统自回归模型仍具成本优势。

DiffusionGemma 的出现标志着文本生成从“打字机”向“印刷机”转型的关键一步,为本地 AI 应用打开了速度新上限,也为后续更大规模的扩散文本模型奠定了实验基础。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。