Fish Audio发布S2‑Pro实现亚150毫秒延迟的可控情感语音合成
•16 阅读•3分钟•前沿
Fish AudioS2‑Pro情感语音合成Dual‑AR
•16 阅读•3分钟•前沿
背景
随着文本到语音(TTS)技术从传统模块化流水线向大型音频模型(LAM)迁移,业界对高保真、低延迟以及情感可控性的需求日益增强。Fish Audio 在其 Fish Speech 生态体系中发布的 S2‑Pro,正是面向这一趋势的旗舰模型,旨在提供开箱即用的多说话人、零样本克隆与细粒度情感控制能力。
技术亮点
-
Dual‑AR 双阶段自回归架构
- Slow AR(约 40 亿参数)负责处理文本输入并生成语义令牌,捕捉长程依赖和韵律结构。
- Fast AR(约 4 亿参数)在声学维度上预测残差码本,实现细节纹理的高效生成。
-
残差向量量化(RVQ)
- 将 44.1kHz 原始音频压缩为多层离散令牌,首层编码主要声学特征,后续层捕获残差,保证在保持较小令牌数的同时重建出几乎无失真的高保真音频。
-
零样本声纹克隆与情感迁移
- 通过提供 10‑30 秒的参考音频,模型在上下文窗口中将其视为前缀,实现说话人身份与情感状态的即时继承,无需额外微调。
- 支持自然语言内嵌情感标签(如
[whisper]、[laugh]),在单次推理中完成情感切换,实时调节音高、强度与节奏。
-
高效推理实现
- 与 SGLang 高性能服务框架深度集成,利用 RadixAttention 对 KV 缓存进行优化,同一声纹前缀可复用缓存,显著降低预填充时间。
性能与成本
- 亚150毫秒首音延迟(TTFA):在 NVIDIA H200 GPU 上的实测约 100 毫秒,满足实时对话和交互式游戏的苛刻时延要求。
- 多说话人单次生成:同一上下文窗口内可容纳多个说话人身份,实现对话式多角色朗读,避免频繁切换模型或重新加载权重。
- 训练规模:模型基于 30 万小时以上的多语言音频数据进行训练,覆盖多种语言与非语言声学表现(如叹气、停顿),保证跨语言的鲁棒性。
生态与应用前景
S2‑Pro 的 API 已对外开放,开发者可通过 Python 包直接调用,配合 SGLang 部署即可实现毫秒级响应。该模型适用于客服机器人、智能音箱、游戏配音以及教育辅导等需要即时、情感丰富语音输出的场景。随着大型语言模型与音频模型的协同演进,S2‑Pro 有望成为构建全链路多模态交互系统的关键组件。
结论
Fish Audio 的 S2‑Pro 通过双阶段自回归、RVQ 编码以及创新的情感标签机制,突破了传统 TTS 在延迟与可控性上的瓶颈。其亚150毫秒的实时性能以及零样本声纹克隆能力,为下一代具身智能交互提供了强有力的音频支撑,值得业界持续关注。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。