DeepMind推出Lyria 3 实现30秒高保真多模态音乐生成
•19 阅读•4分钟•前沿
GeminiDeepMindLyria 3SynthID文生音
•19 阅读•4分钟•前沿
背景与意义
音乐生成一直是生成式AI的难点。相较于离散的文本,音频是连续且多层次的信号,需要同时处理旋律、和声、节奏以及音色的长程一致性。DeepMind在此基础上推出的Lyria 3,首次在消费级应用Gemini中实现了“提示即音频”的全链路闭环,为创作者提供了从概念到成品的秒级落地能力。
技术突破
- 高保真输出:采样率48kHz、16‑bit PCM立体声,支持人声与多乐器完整编排。
- 跨模态输入:文字、图片甚至音频片段均可作为创作指令,模型通过统一的潜在空间实现跨模态映射。
- 实时流式生成:Lyria RealTime API 采用双向 WebSocket,按 2 秒块递归生成,保证生成速率大于播放速率,实现无缝实时控制。
- 长程一致性:模型在生成过程中持续回顾已有上下文,确保从第1秒到第30秒的旋律、节奏和编曲风格保持统一。
Gemini 集成与实时 API
在Gemini App 中,用户只需输入“夏日海滩的电子舞曲”或上传一张海滩照片,即可在几秒内得到完整的30秒音轨。实时 API 进一步开放给开发者,支持 WeightedPrompts、实时风格切换 等交互式创作方式,为音乐 SaaS、游戏音效等场景提供了可编程的音频生成能力。
Music AI Sandbox 与安全机制
DeepMind 为 Lyria 3 构建了 Music AI Sandbox,提供
- 音频转编曲:将哼唱或简短钢琴片段升华为管弦乐配置;
- 风格迁移:基于 MIDI 和文本描述生成合唱或特定乐器风格;
- 工具化编辑:在保持主旋律的前提下,实时替换乐器或修改编曲。
为应对版权争议,Lyria 3 内置 SynthID 隐形水印,采用不可听见的数字签名嵌入音频波形,即便经过 MP3 压缩或模拟录音仍可被检测,提供技术层面的归属追溯。
行业对比
| 项目 | Lyria 3 (DeepMind) | Suno (v5) | Udio (Pro) |
|---|---|---|---|
| 主要优势 | 多模态输入 + 实时流式 | 爆款短视频配乐 | 工作室级高保真 |
| 最大时长 | 30 秒(Gemini Beta) | 8 分钟 | 15 分钟 |
| 音质 | 48kHz/16‑bit PCM | 48kHz/24‑bit | 96kHz/24‑bit |
| 独特功能 | SynthID 水印、实时控制 | 轻量化循环 | 高级轨道分离 |
关键要点
- 多模态融合:Lyria 3 将音频提升为与文本、图像同等重要的核心模态。
- 实时创作:Chunk‑based 流式生成让用户能够在创作过程中即时调节风格与编曲。
- 版权安全:SynthID 为生成音频提供可验证的数字指纹,降低版权风险。
- 生态落地:作为 Gemini 生态的一部分,Lyria 3 将直接面向数亿用户,推动生成式音频从实验室走向消费端。
“音乐是时间的艺术,AI 能在毫秒级完成创作,这意味着创作者可以把更多时间用于概念化和情感表达。”——DeepMind 研发负责人
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。