Stability AI发布Audio 3.0系列 实现6分钟专业音乐生成

新模型概览
Stability AI 在本周宣布发布 Stability Audio 3.0 系列,共计四款模型:
- small SFX(459M 参数)
- small(459M 参数)
- medium(1.4B 参数)
- large(2.7B 参数)
其中 small 系列专为本地设备设计,单曲时长上限约两分钟;medium 与 large 则可生成 6 分钟 20 秒 以上的完整作品,保持音乐结构与旋律连贯性。相比 2024 年推出的 Stable Audio 2.0(最长 47 秒),时长提升超过十倍,逼近专业音乐制作的需求。
技术规格与开放策略
- 参数规模:从 459M 到 2.7B,覆盖轻量级到高算力场景。
- 运行方式:small 与 small SFX 提供 开放权重,可自行下载并在本地设备上推理;medium 同样开放;large 仅通过 API 或付费自托管服务提供。
- 数据来源:全链路使用已获授权的音乐数据集,避免了近期行业内因版权纠纷导致的法律风险。
Stability AI 继续坚持开放生态,除 large 模型外,其余三款模型均可自由修改、再分发,鼓励社区在音频创作、游戏音效、交互式媒体等场景进行创新。
商业化与行业影响
- 企业授权:年收入超过 100 万美元的公司需签订企业授权协议,确保商业使用合规。
- 合作伙伴:公司去年已与 Warner Music Group 与 Universal Music Group 达成合作,构建基于授权音乐数据的生成模型。
- 人才布局:前 Universal Audio 与 Fender 高管 Ethan Kaplan 加入,负责专业音乐产品线,显示出 Stability AI 对音乐创作市场的长远布局。
随着 Google、ElevenLabs 等竞争对手也在加速音频生成工具的发布,Stability AI 的开放策略可能成为行业生态的分水岭——既提供高质量模型,又保持开源透明。
版权风险与行业竞争
近期 Suno 与 Udio 因未获授权使用音乐数据而陷入诉讼,提醒所有音频生成企业必须重视版权合规。Stability AI 明确表示其模型基于 全授权数据,并计划在未来继续与唱片公司合作,以降低法律风险。
在技术层面,large 模型的 API 访问门槛提升,意味着高质量音乐生成将更倾向于付费服务,形成与开源小模型的“双轨”格局。
未来展望
Stability AI 已透露正在研发面向专业音乐人的完整创作套件,包括编曲、混音与母带处理功能。随着模型规模继续扩大以及硬件算力提升,6 分钟以上的长时音乐生成将成为常态,进一步推动生成式音乐在广告、影视配乐以及个人创作中的落地。
结语:Stability Audio 3.0 的发布不仅提升了生成式音乐的时长与质量,也为行业树立了开放与合规并重的标杆。未来,随着更多企业加入音乐 AI 赛道,版权治理、算力成本与创意价值的平衡将成为决定竞争格局的关键因素。