Cohere发布开源语音转录模型Transcribe,2B参数可在消费级GPU上自托管

42 阅读3分钟开源
Cohere发布开源语音转录模型Transcribe,2B参数可在消费级GPU上自托管

模型概览

Cohere在今日的产品发布会上宣布,推出名为 Transcribe 的开源自动语音识别(ASR)模型。模型规模为2 B参数,定位于轻量级部署,能够在单张消费级GPU(如RTX 3060)上实现实时转录。Transcribe 支持包括英语、法语、德语、中文、日语、韩语等在内的 14 种语言,覆盖了全球主要语种需求。

关键性能指标

  • 词错误率(WER):在 Hugging Face Open ASR leaderboard 上取得 5.42% 的平均WER,领先 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3‑ASR‑1.7B。
  • 人评胜率:在人类评审的准确性、连贯性与可用性三项评估中,Transcribe 的平均胜率达 61%,超过所有对手模型。
  • 处理速度:模型能够在一分钟内处理 525 分钟 的音频,显著高于同类轻量模型的吞吐量。

开源与部署

Transcribe 采用 Apache 2.0 许可证发布,源码及模型权重已同步至 Hugging Face Model Hub,社区可直接下载并在本地或私有云环境中部署。Cohere 还提供了 Docker 镜像Python SDK,简化了从数据预处理到推理的全流程。为满足企业级需求,Cohere 将在其托管推理平台 Model Vault 中提供免费 API 接入,用户无需自行维护硬件即可体验。

与现有生态的区别

  • 轻量化:相较于传统的千亿参数 ASR 系统,Transcribe 只需 2 B 参数即可保持竞争力,显著降低算力成本。
  • 多语言覆盖:一次模型训练即覆盖 14 种语言,避免了为每种语言单独训练模型的资源浪费。
  • 开源透明:完整的训练数据、超参数与评测脚本均公开,便于学术界复现与改进。

市场影响与前景

随着远程办公、智能笔记与数字助理需求的激增,企业对 自托管语音转录 的需求日益增长。Transcribe 的出现为中小企业提供了低成本、可控的数据隐私解决方案,有望推动行业从依赖商业云服务向本地化部署转变。Cohere 表示,未来将把 Transcribe 深度集成进其企业智能代理平台 North,实现语音输入到业务流程的全链路自动化。

"我们希望通过开放模型,让更多开发者和企业能够在不泄露敏感语音数据的前提下,构建自己的语音应用。" — Cohere 首席技术官

总体来看,Transcribe 的发布标志着 开源语音识别 正在从学术实验走向可商用的实用层面,为 AI 生态注入了新的竞争活力。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。