当前位置：首页 > 优惠 >AI音频>文章详情

Stability AI发布Stable Audio 2.0技术论文

推荐人：暴走AI| 商城: AI | 2年前 (2024-04-18)| 分类：AI音频 | 热度：725 ℃

已关闭评论

Stability AI发布Stable Audio 2.0技术论文

AI

Stability AI之前推出Stable Audio 2.0，只需要一句提示词，即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目，还支持音频到音频转换能力，以及上传任意音乐对其进行风格转换。官方在昨天发布该模型的技术论文，由Stability A通过训练一个基于扩散变换器（diffusion-transformer）的生成模型，能够在长达4分45秒的时间范围内生成连贯的音乐。（相关：Stable Audio 2.0：只需一句提示词，即可生成长达三分钟的音乐）

论文地址：https://arxiv.org/abs/2404.10301

主要功能：

长篇音乐生成：模型能够生成长达4分45秒的音乐作品，这在以往的音乐生成模型中是难以实现的。
文本条件控制：用户可以通过输入文本提示来引导音乐的风格、情感和结构，模型会根据这些提示生成相应的音乐。

主要特点：

高压缩率的自动编码器：模型使用了一个高度压缩的自动编码器，它能够在时间维度上大幅度降低数据量，同时保持音乐的感知质量。
扩散变换器：采用了一种基于变换器的架构，这种架构在处理长序列数据时非常有效，能够生成具有长期结构连贯性的音乐。
无需语义标记：与以往需要依赖语义标记来指导生成过程的模型不同，这个模型即使没有语义标记也能生成结构化的音乐。

工作原理：

自动编码器：首先将音乐波形压缩成较短的序列，这是通过一系列卷积块和残差网络层实现的。
文本-音频嵌入模型：使用基于CLAP的模型，将文本提示转换为可以用于音乐生成的条件信号。
扩散模型：在自动编码器的潜在空间中操作，通过扩散过程生成音乐，这个过程涉及到逐步添加噪声，然后训练模型去除噪声以重建原始音乐信号。

具体应用场景：

音乐制作：音乐制作人可以使用这个模型来生成新的音乐作品，或者作为创作灵感的来源。
电影和游戏配乐：在电影或游戏制作中，可以根据场景的文本描述自动生成匹配的音乐。
音乐教育：学生可以通过与模型的交互来学习音乐理论和作曲技巧。
艺术创作：艺术家可以利用这个模型来探索新的音乐风格和表达方式。

stability.ai Stable Audio 2.0

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：专门来学习 Git 的开源游戏Oh My Git!

下一篇： Hugging Face旗下AI聊天应用Hugging Chat上架苹果 App Store，在手机上使用各种开源大模型

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2026 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录