Stability AI发布Stable Audio 2.0技术论文

分类:AI语音 | 热度:11 ℃

Stability AI之前推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。官方在昨天发布该模型的技术论文,由Stability A通过训练一个基于扩散变换器(diffusion-transformer)的生成模型,能够在长达4分45秒的时间范围内生成连贯的音乐。(相关:Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐

主要功能:

  • 长篇音乐生成:模型能够生成长达4分45秒的音乐作品,这在以往的音乐生成模型中是难以实现的。
  • 文本条件控制:用户可以通过输入文本提示来引导音乐的风格、情感和结构,模型会根据这些提示生成相应的音乐。

主要特点:

  1. 高压缩率的自动编码器:模型使用了一个高度压缩的自动编码器,它能够在时间维度上大幅度降低数据量,同时保持音乐的感知质量。
  2. 扩散变换器:采用了一种基于变换器的架构,这种架构在处理长序列数据时非常有效,能够生成具有长期结构连贯性的音乐。
  3. 无需语义标记:与以往需要依赖语义标记来指导生成过程的模型不同,这个模型即使没有语义标记也能生成结构化的音乐。

工作原理:

  • 自动编码器:首先将音乐波形压缩成较短的序列,这是通过一系列卷积块和残差网络层实现的。
  • 文本-音频嵌入模型:使用基于CLAP的模型,将文本提示转换为可以用于音乐生成的条件信号。
  • 扩散模型:在自动编码器的潜在空间中操作,通过扩散过程生成音乐,这个过程涉及到逐步添加噪声,然后训练模型去除噪声以重建原始音乐信号。

具体应用场景:

  1. 音乐制作:音乐制作人可以使用这个模型来生成新的音乐作品,或者作为创作灵感的来源。
  2. 电影和游戏配乐:在电影或游戏制作中,可以根据场景的文本描述自动生成匹配的音乐。
  3. 音乐教育:学生可以通过与模型的交互来学习音乐理论和作曲技巧。
  4. 艺术创作:艺术家可以利用这个模型来探索新的音乐风格和表达方式。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论