Gradium发布实时语音翻译模型stt-translate与s2s-translate,实现更高精度与更低时延

0 阅读6分钟应用

关键发布

Gradium今日正式发布两款实时语音翻译模型:

  • stt-translate:一次性完成语音转写与目标语言文本翻译;
  • s2s-translate:在上述基础上直接合成目标语言语音,实现端到端语音‑到‑语音翻译。 两者均支持英语、法语、德语、西班牙语、葡萄牙语五种语言,组合形成20个语言对,全部通过单一 WebSocket 双工连接实时流式返回结果。

技术创新

  • 单通路设计:传统三模型流水线(STT → 翻译 → TTS)被压缩为两模型,stt-translate 将转写与翻译合并为一次前向传播,显著削减模型切换开销。
  • Hibiki‑Zero 框架:基于该框架的强化学习训练,使模型在低时延与高翻译质量之间实现协同优化。
  • 可选语音克隆:用户可在目标语言中挑选预置声音或上传自有声纹进行克隆,提升跨语言直播与配音的沉浸感。

性能对比

指标Gradium (s2s‑translate)gemini‑3.5‑live‑translategpt‑realtime‑translate
平均时延 (s)3.02.93.6
BLEU领先低于Gradium低于Gradium
MetricX 错误率与GPT持平,优于Gemini高于Gradium与Gradium持平

从表中可以看到,Gradium在准确率上全面领先于gpt‑realtime‑translate,在时延上仅略逊于gemini‑3.5‑live‑translate,但凭借语音克隆功能形成差异化竞争。

典型应用场景

  • 实时配音与本地化:一次克隆演讲者声纹,将法语演讲实时翻译为西班牙语并保持原声色。
  • 多语言客服机器人:来电者语音即时翻译为客服所在语言,客服回复再经s2s‑translate合成目标语言语音,实现无缝跨语言对话。
  • 会议实时字幕:仅使用stt‑translate即可在会议软件中生成同步翻译字幕,降低会议成本。

使用示例(Python SDK)

import asyncio, numpy as np
from gradium import client as gradium_client

client = gradium_client.GradiumClient()
setup = {
    "model_name": "s2s-translate",
    "input_format": "pcm_24000",
    "output_format": "pcm_48000",
    "voice_id": "cLONiZ4hQ8VpQ4Sz",  # 目标语言声纹
    "stt_model_name": "stt-translate",
    "tts_model_name": "default",
    "target_language": "en"
}

with open("input_24k_mono.pcm", "rb") as f:
    pcm = f.read()

async def main():
    audio_out = []
    async with client.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
        async def send():
            for i in range(0, len(pcm), 1920):
                await s2s.send_audio(pcm[i:i+1920])
            await s2s.send_eos()
        async def recv():
            async for msg in s2s:
                if msg["type"] == "audio":
                    audio_out.append(msg["audio"])
                elif msg["type"] == "text":
                    print(msg["text"], end=" ")
                elif msg["type"] == "end_of_stream":
                    break
        async with asyncio.TaskGroup() as tg:
            tg.create_task(send())
            tg.create_task(recv())
    return np.frombuffer(b"".join(audio_out), dtype=np.int16)

translated_pcm = asyncio.run(main())

该示例展示了如何在浏览器或本地应用中通过单个 WebSocket 完成语音输入、实时翻译与语音合成的全链路。

优势与局限

  • 优势
    • 单通路降低系统复杂度;
    • BLEU 与 MetricX 双指标领先;
    • 支持语音克隆,满足品牌化需求;
    • 开放 SDK 与 REST API,易于集成。
  • 局限
    • 仅覆盖五种语言,语言覆盖面仍待扩展;
    • 与gemini‑3.5‑live‑translate的时延差距仅为0.1 s,极限场景仍有提升空间;
    • 评测基于内部对话数据集,外部复现受限。

总体来看,Gradium通过模型结构创新与工程落地,提供了在准确率、时延和可定制语音方面兼具竞争力的实时语音翻译方案,为跨语言实时沟通打开了新路径。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。