Gradium发布实时语音翻译模型stt-translate与s2s-translate，实现更高精度与更低时延

关键发布

Gradium今日正式发布两款实时语音翻译模型：

stt-translate：一次性完成语音转写与目标语言文本翻译；
s2s-translate：在上述基础上直接合成目标语言语音，实现端到端语音‑到‑语音翻译。两者均支持英语、法语、德语、西班牙语、葡萄牙语五种语言，组合形成20个语言对，全部通过单一 WebSocket 双工连接实时流式返回结果。

技术创新

单通路设计：传统三模型流水线（STT → 翻译 → TTS）被压缩为两模型，stt-translate 将转写与翻译合并为一次前向传播，显著削减模型切换开销。
Hibiki‑Zero 框架：基于该框架的强化学习训练，使模型在低时延与高翻译质量之间实现协同优化。
可选语音克隆：用户可在目标语言中挑选预置声音或上传自有声纹进行克隆，提升跨语言直播与配音的沉浸感。

性能对比

指标	Gradium (s2s‑translate)	gemini‑3.5‑live‑translate	gpt‑realtime‑translate
平均时延 (s)	3.0	2.9	3.6
BLEU	领先	低于Gradium	低于Gradium
MetricX 错误率	与GPT持平，优于Gemini	高于Gradium	与Gradium持平

从表中可以看到，Gradium在准确率上全面领先于gpt‑realtime‑translate，在时延上仅略逊于gemini‑3.5‑live‑translate，但凭借语音克隆功能形成差异化竞争。

典型应用场景

实时配音与本地化：一次克隆演讲者声纹，将法语演讲实时翻译为西班牙语并保持原声色。
多语言客服机器人：来电者语音即时翻译为客服所在语言，客服回复再经s2s‑translate合成目标语言语音，实现无缝跨语言对话。
会议实时字幕：仅使用stt‑translate即可在会议软件中生成同步翻译字幕，降低会议成本。

使用示例（Python SDK）

import asyncio, numpy as np
from gradium import client as gradium_client

client = gradium_client.GradiumClient()
setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000",
    "output_format": "pcm_48000",
    "voice_id": "cLONiZ4hQ8VpQ4Sz",  # 目标语言声纹
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en"
}

with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main():
    audio_out = []
    async with client.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send():
            for i in range(0, len(pcm), 1920):
                await s2s.send_audio(pcm[i:i+1920])
            await s2s.send_eos()
        async def recv():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"])
                elif msg["type"] == "text":
                    print(msg["text"], end=" ")
                elif msg["type"] == "end_of_stream":
                    break
        async with asyncio.TaskGroup() as tg:
            tg.create_task(send())
            tg.create_task(recv())
    return np.frombuffer(b"".join(audio_out), dtype=np.int16)

translated_pcm = asyncio.run(main())

该示例展示了如何在浏览器或本地应用中通过单个 WebSocket 完成语音输入、实时翻译与语音合成的全链路。

优势与局限

优势：
- 单通路降低系统复杂度；
- BLEU 与 MetricX 双指标领先；
- 支持语音克隆，满足品牌化需求；
- 开放 SDK 与 REST API，易于集成。
局限：
- 仅覆盖五种语言，语言覆盖面仍待扩展；
- 与gemini‑3.5‑live‑translate的时延差距仅为0.1 s，极限场景仍有提升空间；
- 评测基于内部对话数据集，外部复现受限。

总体来看，Gradium通过模型结构创新与工程落地，提供了在准确率、时延和可定制语音方面兼具竞争力的实时语音翻译方案，为跨语言实时沟通打开了新路径。