Microsoft发布VibeVoice‑ASR 实现单次处理60分钟长音频

41 阅读3分钟开源
Microsoft发布VibeVoice‑ASR 实现单次处理60分钟长音频

发布概览

Microsoft今日正式开源VibeVoice‑ASR,作为VibeVoice系列首个统一的语音转文字模型,采用MIT许可证发布。模型一次性接受最长60分钟、约64K token的音频输入,保持全局上下文,直接输出包含说话人、时间戳和文本的结构化转录。

关键特性

  • 单次全程处理:无需切片或后处理,模型在单一推理步骤内完成整段音频的识别与对话者分离,适用于会议、讲座和长呼叫等场景。
  • 自定义热词:用户可在推理时注入产品名、机构名等专业词汇,模型会在解码阶段倾向正确拼写与发音,无需重新训练。
  • 结构化输出:转录结果同时提供说话人标识、时间戳以及文本内容,便于后续的摘要、行动项提取或分析仪表盘直接使用。
  • 开源完整生态:仓库中同时提供文本到语音(TTS)和实时语音合成模型,配套LoRA微调脚本支持轻量适配与深度领域定制。

技术细节

VibeVoice‑ASR基于连续语音标记器(7.5 Hz)和下一标记扩散框架构建。大语言模型负责文本与对话推理,扩散头负责细粒度声学细节生成。通过单一全局上下文,模型在长音频中维持说话人身份和主题连贯性,显著降低传统ASR的段落切割误差。

评估指标包括DIAR(说话人分割错误率)、cpWER 与 tcpWER(对话场景下的词错误率),在多说话人长音频基准上表现领先,特别适配会议记录和多方通话场景。

业界影响

  • 提升企业会议自动化:统一模型简化了会议记录、实时字幕和后期摘要的技术栈,降低部署成本。
  • 加速行业定制:热词与LoRA微调让同一模型可快速适配金融、医疗、教育等专业领域。
  • 推动开源语音技术生态:MIT许可证鼓励社区贡献模型权重、工具链和评测基准,进一步缩小商业闭源与学术开源之间的差距。

"VibeVoice‑ASR 的出现标志着长时段语音识别进入了全局上下文时代,未来的语音 AI 将更懂场景、更懂人。" — Microsoft AI 团队

结语

作为微软在生成式语音领域的最新里程碑,VibeVoice‑ASR 将长音频识别的技术瓶颈进一步打破。凭借单次全程处理、自定义热词和结构化输出三大核心能力,它为企业级语音应用提供了更简洁、更高效的解决方案,也为开源社区注入了强劲的创新动力。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。