Cohere发布开源语音转录模型Transcribe，2B参数可在消费级GPU上自托管

模型概览

Cohere在今日的产品发布会上宣布，推出名为 Transcribe 的开源自动语音识别（ASR）模型。模型规模为2 B参数，定位于轻量级部署，能够在单张消费级GPU（如RTX 3060）上实现实时转录。Transcribe 支持包括英语、法语、德语、中文、日语、韩语等在内的 14 种语言，覆盖了全球主要语种需求。

关键性能指标

词错误率（WER）：在 Hugging Face Open ASR leaderboard 上取得 5.42% 的平均WER，领先 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3‑ASR‑1.7B。
人评胜率：在人类评审的准确性、连贯性与可用性三项评估中，Transcribe 的平均胜率达 61%，超过所有对手模型。
处理速度：模型能够在一分钟内处理 525 分钟 的音频，显著高于同类轻量模型的吞吐量。

开源与部署

Transcribe 采用 Apache 2.0 许可证发布，源码及模型权重已同步至 Hugging Face Model Hub，社区可直接下载并在本地或私有云环境中部署。Cohere 还提供了 Docker 镜像 与 Python SDK，简化了从数据预处理到推理的全流程。为满足企业级需求，Cohere 将在其托管推理平台 Model Vault 中提供免费 API 接入，用户无需自行维护硬件即可体验。

与现有生态的区别

轻量化：相较于传统的千亿参数 ASR 系统，Transcribe 只需 2 B 参数即可保持竞争力，显著降低算力成本。
多语言覆盖：一次模型训练即覆盖 14 种语言，避免了为每种语言单独训练模型的资源浪费。
开源透明：完整的训练数据、超参数与评测脚本均公开，便于学术界复现与改进。

市场影响与前景

随着远程办公、智能笔记与数字助理需求的激增，企业对 自托管语音转录 的需求日益增长。Transcribe 的出现为中小企业提供了低成本、可控的数据隐私解决方案，有望推动行业从依赖商业云服务向本地化部署转变。Cohere 表示，未来将把 Transcribe 深度集成进其企业智能代理平台 North，实现语音输入到业务流程的全链路自动化。

"我们希望通过开放模型，让更多开发者和企业能够在不泄露敏感语音数据的前提下，构建自己的语音应用。" — Cohere 首席技术官

总体来看，Transcribe 的发布标志着 开源语音识别 正在从学术实验走向可商用的实用层面，为 AI 生态注入了新的竞争活力。