Stability AI发布Audio 3.0系列实现6分钟专业音乐生成

新模型概览

Stability AI 在本周宣布发布 Stability Audio 3.0 系列，共计四款模型：

其中 small 系列专为本地设备设计，单曲时长上限约两分钟；medium 与 large 则可生成 6 分钟 20 秒 以上的完整作品，保持音乐结构与旋律连贯性。相比 2024 年推出的 Stable Audio 2.0（最长 47 秒），时长提升超过十倍，逼近专业音乐制作的需求。

参数规模：从 459M 到 2.7B，覆盖轻量级到高算力场景。
运行方式：small 与 small SFX 提供 开放权重，可自行下载并在本地设备上推理；medium 同样开放；large 仅通过 API 或付费自托管服务提供。
数据来源：全链路使用已获授权的音乐数据集，避免了近期行业内因版权纠纷导致的法律风险。

Stability AI 继续坚持开放生态，除 large 模型外，其余三款模型均可自由修改、再分发，鼓励社区在音频创作、游戏音效、交互式媒体等场景进行创新。

企业授权：年收入超过 100 万美元的公司需签订企业授权协议，确保商业使用合规。
合作伙伴：公司去年已与 Warner Music Group 与 Universal Music Group 达成合作，构建基于授权音乐数据的生成模型。
人才布局：前 Universal Audio 与 Fender 高管 Ethan Kaplan 加入，负责专业音乐产品线，显示出 Stability AI 对音乐创作市场的长远布局。

随着 Google、ElevenLabs 等竞争对手也在加速音频生成工具的发布，Stability AI 的开放策略可能成为行业生态的分水岭——既提供高质量模型，又保持开源透明。

近期 Suno 与 Udio 因未获授权使用音乐数据而陷入诉讼，提醒所有音频生成企业必须重视版权合规。Stability AI 明确表示其模型基于 全授权数据，并计划在未来继续与唱片公司合作，以降低法律风险。

在技术层面，large 模型的 API 访问门槛提升，意味着高质量音乐生成将更倾向于付费服务，形成与开源小模型的“双轨”格局。

Stability AI 已透露正在研发面向专业音乐人的完整创作套件，包括编曲、混音与母带处理功能。随着模型规模继续扩大以及硬件算力提升，6 分钟以上的长时音乐生成将成为常态，进一步推动生成式音乐在广告、影视配乐以及个人创作中的落地。

结语：Stability Audio 3.0 的发布不仅提升了生成式音乐的时长与质量，也为行业树立了开放与合规并重的标杆。未来，随着更多企业加入音乐 AI 赛道，版权治理、算力成本与创意价值的平衡将成为决定竞争格局的关键因素。