Google在Gboard加入Gemini驱动的实时语音输入,或冲击独立转写应用

38 阅读3分钟应用
Google在Gboard加入Gemini驱动的实时语音输入,或冲击独立转写应用

产品概览

Google在本次Android I/O大会上正式推出了Rambler(中文译名暂未公布),这是内置于Gboard键盘的Gemini驱动语音转写功能。与以往的离线或云端转写服务不同,Rambler采用了Google自研的多语言Gemini模型,能够在用户说话时实时生成文字,并在同一句话中实现语言切换,例如英汉混合输入。

关键功能

  • 实时去除填充词:自动剔除“嗯”“啊”等口头禅,提高文本可读性。
  • 中途语言切换:支持多语言混合输入,符合多语言使用者的自然交流习惯。
  • 跨应用使用:Rambler在所有Android应用中均可调用,等同于“重新定义键盘”。
  • 隐私保护:仅使用音频进行转写,不存储原始语音;采用本地+云端混合计算,确保数据安全。

隐私与安全

Google Android核心体验总监Ben Greenwood在发布会上强调,Rambler采用了多年累计的隐私技术投入,结合本地模型推理与加密传输,防止语音数据泄露。相比第三方转写应用,Google的规模化安全审计和透明度报告为用户提供了更高的信任基准。

市场影响

Gboard是全球Android设备的默认键盘,拥有数亿活跃用户。Rambler的预装意味着Google直接在操作系统层面提供转写服务,这对目前主要聚焦iOS和桌面端的转写创业公司(如Wispr Flow、Typeless、Willow等)形成了显著的进入壁垒。要在Android生态中获得用户,竞争对手必须在准确率、功能深度或隐私承诺上提供明显优势,才能说服用户主动下载安装独立应用。

竞争格局

  • 现有独立转写应用:大多依赖云端API,缺乏系统级深度集成。
  • Google的优势:默认键盘、庞大用户基数、强大的算力与数据安全体系。
  • 潜在应对策略:针对专业场景(医疗、法律)提供行业定制化模型;或强化离线功能以规避网络依赖。

展望

Rambler的推出标志着AI语音转写从“应用插件”向“系统功能”升级。随着Gemini模型的持续迭代和更多语言的加入,Google有望进一步巩固在多语言语音交互领域的领先地位。对创业公司而言,寻找细分垂直市场、提升专属行业准确率或打造完全离线方案将是下一步的关键竞争点。

"我们正在通过本地和云端的混合计算,确保用户的每一次语音输入都安全、私密且高效。" — Ben Greenwood, Android Core Experiences

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。