Interfaze推出首个多语言扩散式ASR模型diffusion-gemma-asr-small，支持六语种并行转写

背景与创新

Interfaze作为YC扶持的AI初创，在语音识别领域推出了首个基于扩散模型的多语言ASR系统——diffusion-gemma-asr-small。与传统自回归模型不同，它采用并行去噪的扩散解码方式，使转写成本取决于去噪步数，而非文本长度，从而在长音频上保持稳定的计算开销。

模型架构

主干模型：Google 开源的 26B DiffusionGemma，采用 128 个专家、top‑8 路由，仅激活约 4B 参数。
音频前端：冻结的 Whisper‑small 编码器，将 30 秒音频映射为 1500 帧的 768 维声学特征。
投影层：约 19M 参数的卷积投影，将声学特征压缩至 188 条 2816 维的音频 token。
适配器：约 42M 参数的 LoRA 适配器，让 DiffusionGemma 能够关注音频 token。
解码器：DiffusionGemma 的离散扩散解码器在 192‑token 画布上进行双向去噪，默认 16 步，8 步即可达到近似最佳效果。

训练细节与性能

训练期间先使用 CTC 损失对投影层进行监督，突破了最初梯度消失的瓶颈。随后在 LibriSpeech、FLEURS、VoxPopuli 三大数据集上进行微调，得到以下指标（16 步去噪）：

数据集	WER	CER
LibriSpeech test‑clean (EN)	6.6%	-
FLEURS EN	15.7%	-
FLEURS HI	-	15.8%
FLEURS ZH	-	29.6%
VoxPopuli EN	18.5%	-

相较于同类扩散模型（TransFusion 约 6‑7% WER）保持领先，但仍落后于自回归 Whisper‑large‑v3（约 2% WER）。Interfaze 将差距归因于数据规模而非架构限制。

推理成本与实际使用

去噪步数 vs. 速度：8 步实时因子约 10.3×，16 步约 6.5×，48 步提升不到 0.1% WER，却导致延迟约 3 倍。
语言覆盖：单一适配器即可支持英语、德语、法语、西班牙语、印地语和中文，省去多模型部署成本。
并行优势：转写时间与音频长度几乎无关，10 秒音频与 2 秒音频的推理时间相差不大，适合批量转写流水线。

快速上手指南

pip install torch peft soundfile librosa huggingface_hub \"transformers @ git+https://github.com/huggingface/transformers.git\"

from huggingface_hub import snapshot_download
repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small")
from inference import load, transcribe
model, tok, fe = load(f"{repo}/diffusion_asr_small.pt", device="cuda")
import soundfile as sf
audio, sr = sf.read("audio.wav")
print(transcribe(audio, model, tok, fe, max_steps=16))

行业意义

diffusion-gemma-asr-small 为非自回归语音识别提供了可复现的基线，展示了利用冻结大模型加小适配器即可实现多语言支持的路径。它的并行去噪机制为高吞吐量的实时转写、跨语言媒体监控以及低功耗边缘部署提供了新思路，也为后续在更大音频模型上探索扩散式生成奠定了技术基础。