ElevenLabs CEO称语音将成AI新交互方式,融资5亿美元估值110亿美元

关键声明
ElevenLabs 联合创始人兼 CEO Mati Staniszewski 在 Web Summit Qatar 主题演讲中指出,语音正从单纯的文字转写向具备情感、语调并可与大型语言模型(LLM)协同的交互方式演进。他预言,“未来手机会重新回到口袋,用户通过语音即可控制身边的所有技术”。
市场背景
过去一年,OpenAI 在 GPT‑4‑Turbo 中加入了实时语音功能,Google Gemini 同样推出了 Voice‑Chat,Apple 则通过收购 Q.ai 暗示正布局常驻式语音助手。硬件层面,智能耳机、可穿戴设备以及车载系统正加速向“说话即控制”转型,传统的触摸与键盘输入正逐步被视作“过时”。
融资与估值
受语音交互前景驱动,ElevenLabs 本周完成 5 亿美元的 B 轮融资,估值达 110 亿美元。领投方 Iconiq Capital 以及多家硅谷基金均表示,语音模型的商业化路径已从云端转向混合部署,即在云端完成高质量生成,在本地完成低延迟响应,以适配耳机、智能眼镜等新形态硬件。
技术路线与合作
ElevenLabs 正研发“云‑端‑端”混合架构,支持在设备端完成声纹识别与噪声抑制,同时将大模型推理留给云端算力。公司已与 Meta 签署合作,将其语音技术嵌入 Instagram 语音评论以及 Horizon Worlds 虚拟现实平台,并在未来探索与 Ray‑Ban 智能眼镜的深度集成。
隐私与监管挑战
语音数据的持续收集引发隐私担忧。Staniszewski 承认,随着语音模型向本地化迁移,数据泄露与监控风险将更为突出。行业监管机构正加紧制定语音数据存储与使用的合规框架,Google 已因语音数据滥用受到多国调查,ElevenLabs 表示将采用端到端加密并提供用户可控的历史记录删除功能,以降低监管压力。
“语音交互的核心是让技术无形化,让用户无需思考操作方式,只需自然说话”,Staniszewski 在演讲尾声如此总结。
前景展望
从长远来看,语音模型将与持久记忆、情境感知相结合,实现更自然的连续对话。随着硬件成本下降与算力提升,语音有望成为 AI 与日常生活的最重要桥梁,也将成为企业争夺的下一块蓝海。