Interfaze推出首个多语言扩散式ASR模型diffusion-gemma-asr-small,支持六语种并行转写

1 阅读4分钟前沿

背景与创新

Interfaze作为YC扶持的AI初创,在语音识别领域推出了首个基于扩散模型的多语言ASR系统——diffusion-gemma-asr-small。与传统自回归模型不同,它采用并行去噪的扩散解码方式,使转写成本取决于去噪步数,而非文本长度,从而在长音频上保持稳定的计算开销。

模型架构

  • 主干模型:Google 开源的 26B DiffusionGemma,采用 128 个专家、top‑8 路由,仅激活约 4B 参数。
  • 音频前端:冻结的 Whisper‑small 编码器,将 30 秒音频映射为 1500 帧的 768 维声学特征。
  • 投影层:约 19M 参数的卷积投影,将声学特征压缩至 188 条 2816 维的音频 token。
  • 适配器:约 42M 参数的 LoRA 适配器,让 DiffusionGemma 能够关注音频 token。
  • 解码器:DiffusionGemma 的离散扩散解码器在 192‑token 画布上进行双向去噪,默认 16 步,8 步即可达到近似最佳效果。

训练细节与性能

训练期间先使用 CTC 损失对投影层进行监督,突破了最初梯度消失的瓶颈。随后在 LibriSpeech、FLEURS、VoxPopuli 三大数据集上进行微调,得到以下指标(16 步去噪):

数据集WERCER
LibriSpeech test‑clean (EN)6.6%-
FLEURS EN15.7%-
FLEURS HI-15.8%
FLEURS ZH-29.6%
VoxPopuli EN18.5%-

相较于同类扩散模型(TransFusion 约 6‑7% WER)保持领先,但仍落后于自回归 Whisper‑large‑v3(约 2% WER)。Interfaze 将差距归因于数据规模而非架构限制。

推理成本与实际使用

  • 去噪步数 vs. 速度:8 步实时因子约 10.3×,16 步约 6.5×,48 步提升不到 0.1% WER,却导致延迟约 3 倍。
  • 语言覆盖:单一适配器即可支持英语、德语、法语、西班牙语、印地语和中文,省去多模型部署成本。
  • 并行优势:转写时间与音频长度几乎无关,10 秒音频与 2 秒音频的推理时间相差不大,适合批量转写流水线。

快速上手指南

pip install torch peft soundfile librosa huggingface_hub \"transformers @ git+https://github.com/huggingface/transformers.git\"
from huggingface_hub import snapshot_download
repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small")
from inference import load, transcribe
model, tok, fe = load(f"{repo}/diffusion_asr_small.pt", device="cuda")
import soundfile as sf
audio, sr = sf.read("audio.wav")
print(transcribe(audio, model, tok, fe, max_steps=16))

行业意义

diffusion-gemma-asr-small 为非自回归语音识别提供了可复现的基线,展示了利用冻结大模型加小适配器即可实现多语言支持的路径。它的并行去噪机制为高吞吐量的实时转写、跨语言媒体监控以及低功耗边缘部署提供了新思路,也为后续在更大音频模型上探索扩散式生成奠定了技术基础。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。