ElevenLabs CEO称语音将成AI新交互方式，融资5亿美元估值110亿美元

关键声明

ElevenLabs 联合创始人兼 CEO Mati Staniszewski 在 Web Summit Qatar 主题演讲中指出，语音正从单纯的文字转写向具备情感、语调并可与大型语言模型（LLM）协同的交互方式演进。他预言，“未来手机会重新回到口袋，用户通过语音即可控制身边的所有技术”。

市场背景

过去一年，OpenAI 在 GPT‑4‑Turbo 中加入了实时语音功能，Google Gemini 同样推出了 Voice‑Chat，Apple 则通过收购 Q.ai 暗示正布局常驻式语音助手。硬件层面，智能耳机、可穿戴设备以及车载系统正加速向“说话即控制”转型，传统的触摸与键盘输入正逐步被视作“过时”。

融资与估值

受语音交互前景驱动，ElevenLabs 本周完成 5 亿美元的 B 轮融资，估值达 110 亿美元。领投方 Iconiq Capital 以及多家硅谷基金均表示，语音模型的商业化路径已从云端转向混合部署，即在云端完成高质量生成，在本地完成低延迟响应，以适配耳机、智能眼镜等新形态硬件。

技术路线与合作

ElevenLabs 正研发“云‑端‑端”混合架构，支持在设备端完成声纹识别与噪声抑制，同时将大模型推理留给云端算力。公司已与 Meta 签署合作，将其语音技术嵌入 Instagram 语音评论以及 Horizon Worlds 虚拟现实平台，并在未来探索与 Ray‑Ban 智能眼镜的深度集成。

隐私与监管挑战

语音数据的持续收集引发隐私担忧。Staniszewski 承认，随着语音模型向本地化迁移，数据泄露与监控风险将更为突出。行业监管机构正加紧制定语音数据存储与使用的合规框架，Google 已因语音数据滥用受到多国调查，ElevenLabs 表示将采用端到端加密并提供用户可控的历史记录删除功能，以降低监管压力。

“语音交互的核心是让技术无形化，让用户无需思考操作方式，只需自然说话”，Staniszewski 在演讲尾声如此总结。

前景展望

从长远来看，语音模型将与持久记忆、情境感知相结合，实现更自然的连续对话。随着硬件成本下降与算力提升，语音有望成为 AI 与日常生活的最重要桥梁，也将成为企业争夺的下一块蓝海。