DeepMind推出Lyria 3 实现30秒高保真多模态音乐生成

背景与意义

音乐生成一直是生成式AI的难点。相较于离散的文本，音频是连续且多层次的信号，需要同时处理旋律、和声、节奏以及音色的长程一致性。DeepMind在此基础上推出的Lyria 3，首次在消费级应用Gemini中实现了“提示即音频”的全链路闭环，为创作者提供了从概念到成品的秒级落地能力。

在Gemini App 中，用户只需输入“夏日海滩的电子舞曲”或上传一张海滩照片，即可在几秒内得到完整的30秒音轨。实时 API 进一步开放给开发者，支持 WeightedPrompts、实时风格切换 等交互式创作方式，为音乐 SaaS、游戏音效等场景提供了可编程的音频生成能力。

DeepMind 为 Lyria 3 构建了 Music AI Sandbox，提供

为应对版权争议，Lyria 3 内置 SynthID 隐形水印，采用不可听见的数字签名嵌入音频波形，即便经过 MP3 压缩或模拟录音仍可被检测，提供技术层面的归属追溯。

项目	Lyria 3 (DeepMind)	Suno (v5)	Udio (Pro)
主要优势	多模态输入 + 实时流式	爆款短视频配乐	工作室级高保真
最大时长	30 秒（Gemini Beta）	8 分钟	15 分钟
音质	48kHz/16‑bit PCM	48kHz/24‑bit	96kHz/24‑bit
独特功能	SynthID 水印、实时控制	轻量化循环	高级轨道分离

“音乐是时间的艺术，AI 能在毫秒级完成创作，这意味着创作者可以把更多时间用于概念化和情感表达。”——DeepMind 研发负责人