Fish Audio发布S2‑Pro实现亚150毫秒延迟的可控情感语音合成

背景

随着文本到语音（TTS）技术从传统模块化流水线向大型音频模型（LAM）迁移，业界对高保真、低延迟以及情感可控性的需求日益增强。Fish Audio 在其 Fish Speech 生态体系中发布的 S2‑Pro，正是面向这一趋势的旗舰模型，旨在提供开箱即用的多说话人、零样本克隆与细粒度情感控制能力。

技术亮点

Dual‑AR 双阶段自回归架构
- Slow AR（约 40 亿参数）负责处理文本输入并生成语义令牌，捕捉长程依赖和韵律结构。
- Fast AR（约 4 亿参数）在声学维度上预测残差码本，实现细节纹理的高效生成。
残差向量量化（RVQ）
- 将 44.1kHz 原始音频压缩为多层离散令牌，首层编码主要声学特征，后续层捕获残差，保证在保持较小令牌数的同时重建出几乎无失真的高保真音频。
零样本声纹克隆与情感迁移
- 通过提供 10‑30 秒的参考音频，模型在上下文窗口中将其视为前缀，实现说话人身份与情感状态的即时继承，无需额外微调。
- 支持自然语言内嵌情感标签（如 [whisper]、[laugh]），在单次推理中完成情感切换，实时调节音高、强度与节奏。
高效推理实现
- 与 SGLang 高性能服务框架深度集成，利用 RadixAttention 对 KV 缓存进行优化，同一声纹前缀可复用缓存，显著降低预填充时间。

性能与成本

亚150毫秒首音延迟（TTFA）：在 NVIDIA H200 GPU 上的实测约 100 毫秒，满足实时对话和交互式游戏的苛刻时延要求。
多说话人单次生成：同一上下文窗口内可容纳多个说话人身份，实现对话式多角色朗读，避免频繁切换模型或重新加载权重。
训练规模：模型基于 30 万小时以上的多语言音频数据进行训练，覆盖多种语言与非语言声学表现（如叹气、停顿），保证跨语言的鲁棒性。

生态与应用前景

S2‑Pro 的 API 已对外开放，开发者可通过 Python 包直接调用，配合 SGLang 部署即可实现毫秒级响应。该模型适用于客服机器人、智能音箱、游戏配音以及教育辅导等需要即时、情感丰富语音输出的场景。随着大型语言模型与音频模型的协同演进，S2‑Pro 有望成为构建全链路多模态交互系统的关键组件。

结论

Fish Audio 的 S2‑Pro 通过双阶段自回归、RVQ 编码以及创新的情感标签机制，突破了传统 TTS 在延迟与可控性上的瓶颈。其亚150毫秒的实时性能以及零样本声纹克隆能力，为下一代具身智能交互提供了强有力的音频支撑，值得业界持续关注。

Fish Audio发布S2‑Pro实现亚150毫秒延迟的可控情感语音合成

背景

技术亮点

性能与成本

生态与应用前景

结论

标签分类