Supertone发布Supertonic 3，支持31语言本地化TTS并加入表达标签

关键更新

语言规模：从Supertonic 2的5种语言扩展到31种，新增日语、阿拉伯语、德语等20余种 ISO 语言代码，并提供 na 兜底语言用于未知语言文本。
阅读稳定性：通过改进的流匹配与长度感知旋转位置嵌入（LARoPE），显著降低短句和长段落的重复、跳读错误。
表达标签：首次支持 、、`` 等简易标签，可在文本中直接嵌入呼吸、笑声等韵律提示，无需额外前处理模型。
模型体积：约 99 M 参数，ONNX 公共资产总量 404 MB，远小于 0.7 B‑2 B 级别的商业开源 TTS 系统，下载与启动更轻便。

技术架构

Supertonic 3 采用三段式流水线：

语音自编码器 将波形压缩为连续潜在向量；
流匹配文本‑潜在映射 将字符序列映射到音频特征，仅需 2 步推理即可生成高质量波形；
时长预测器 控制自然停顿，实现流畅节奏。

新版本在训练阶段引入 Self‑Purifying Flow Matching，提升对噪声标签的鲁棒性；同时使用 Length‑Aware Rotary Position Embedding（LARoPE）进一步对齐文本与语音时序。

读取准确性与基准

在多语言评测中，Supertonic 3 的 WER/CER 与体积数十倍更大的 VoxCPM2 持平，且在极端边缘硬件（如 Onyx Boox Go 6 电子书阅读器）上实现 0.3× 实时因子（RTF），完全不依赖 GPU。相比 ElevenLabs Flash v2.5、OpenAI TTS‑1、Gemini 2.5 Flash 与 Microsoft 同类系统，Supertonic 3 在金融数字、电话号码、时间日期以及技术单位的文本规范化方面全部通过，而竞争对手均出现错误。

开发者体验

跨平台 SDK：Python、.NET 9、Go、Flutter、Java、C++、C#、Swift/iOS 均提供官方封装，首次运行即自动从 Hugging Face 下载 ONNX 权重。
本地推理：基于 ONNX Runtime，无需网络或 GPU，适配浏览器（WebGPU/WASM）与 Edge 设备。
示例代码：

from supertonic import TTS
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, dur = tts.synthesize(text, voice_style=style, lang="en")
tts.save_audio(wav, "output.wav")
print(f"Generated {dur:.2f}s of audio")

市场意义

Supertonic 3 的轻量化与全本地化特性为移动端、嵌入式以及隐私敏感场景提供了可行的生成式语音解决方案。31 种语言一次覆盖大多数主流市场，配合表达标签的灵活使用，开发者可以在无需后端服务的情况下构建具备情感色彩的语音交互产品。随着边缘计算算力提升和 ONNX 生态成熟，此类模型有望在教育、客服、无障碍等垂直领域实现更广泛落地。