Stability AI发布Audio 3.0系列 实现6分钟专业音乐生成

23 阅读4分钟前沿
Stability AI发布Audio 3.0系列 实现6分钟专业音乐生成

新模型概览

Stability AI 在本周宣布发布 Stability Audio 3.0 系列,共计四款模型:

  • small SFX(459M 参数)
  • small(459M 参数)
  • medium(1.4B 参数)
  • large(2.7B 参数)

其中 small 系列专为本地设备设计,单曲时长上限约两分钟;medium 与 large 则可生成 6 分钟 20 秒 以上的完整作品,保持音乐结构与旋律连贯性。相比 2024 年推出的 Stable Audio 2.0(最长 47 秒),时长提升超过十倍,逼近专业音乐制作的需求。

技术规格与开放策略

  • 参数规模:从 459M 到 2.7B,覆盖轻量级到高算力场景。
  • 运行方式:small 与 small SFX 提供 开放权重,可自行下载并在本地设备上推理;medium 同样开放;large 仅通过 API 或付费自托管服务提供。
  • 数据来源:全链路使用已获授权的音乐数据集,避免了近期行业内因版权纠纷导致的法律风险。

Stability AI 继续坚持开放生态,除 large 模型外,其余三款模型均可自由修改、再分发,鼓励社区在音频创作、游戏音效、交互式媒体等场景进行创新。

商业化与行业影响

  • 企业授权:年收入超过 100 万美元的公司需签订企业授权协议,确保商业使用合规。
  • 合作伙伴:公司去年已与 Warner Music Group 与 Universal Music Group 达成合作,构建基于授权音乐数据的生成模型。
  • 人才布局:前 Universal Audio 与 Fender 高管 Ethan Kaplan 加入,负责专业音乐产品线,显示出 Stability AI 对音乐创作市场的长远布局。

随着 Google、ElevenLabs 等竞争对手也在加速音频生成工具的发布,Stability AI 的开放策略可能成为行业生态的分水岭——既提供高质量模型,又保持开源透明。

版权风险与行业竞争

近期 Suno 与 Udio 因未获授权使用音乐数据而陷入诉讼,提醒所有音频生成企业必须重视版权合规。Stability AI 明确表示其模型基于 全授权数据,并计划在未来继续与唱片公司合作,以降低法律风险。

在技术层面,large 模型的 API 访问门槛提升,意味着高质量音乐生成将更倾向于付费服务,形成与开源小模型的“双轨”格局。

未来展望

Stability AI 已透露正在研发面向专业音乐人的完整创作套件,包括编曲、混音与母带处理功能。随着模型规模继续扩大以及硬件算力提升,6 分钟以上的长时音乐生成将成为常态,进一步推动生成式音乐在广告、影视配乐以及个人创作中的落地。

结语:Stability Audio 3.0 的发布不仅提升了生成式音乐的时长与质量,也为行业树立了开放与合规并重的标杆。未来,随着更多企业加入音乐 AI 赛道,版权治理、算力成本与创意价值的平衡将成为决定竞争格局的关键因素。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。