当前位置：首页 > 优惠 >AI音频>文章详情

亚马逊推出10亿参数文本转语音模型BASE TTS

推荐人：暴走AI| 商城: AI | 2年前 (2024-02-16)| 分类：AI音频 | 热度：658 ℃

已关闭评论

亚马逊团队于2月12日推出一个名为BASE TTS（Big Adaptive Streamable TTS with Emergent abilities）的文本转语音（TTS）模型，BASE TTS是目前已知最大的TTS模型，它在100,000小时的公共领域语音数据上进行了训练，实现了前所未有的语音自然度。这个模型采用了一种自回归的Transformer架构，将原始文本转换为离散的编码（称为“speechcodes”），然后通过基于卷积的解码器以增量、可流式的方式将这些编码转换为语音波形。

音频生成样本地址：https://amazon-ltts-paper.com

值得一提的是，模型的语音编码采用了新颖的语音标记化技术，该技术具有说话人ID解纠缠和字节对编码压缩的特点。团队发现，使用10K+小时和500M+参数构建的BASE TTS变体开始在处理复杂文本句子时展现出自然韵律。

亚马逊推出10亿参数文本转语音模型BASE TTS

主要功能：

自然语音合成： BASE TTS能够将文本转换为听起来非常自然的语音。
多语言和多说话者支持： 模型支持多种语言和不同说话者的声音。
增量式语音生成： 模型能够逐步生成语音，而不是一次性生成整个句子，这使得它在实时应用中非常有用。

主要特点：

大规模数据训练： 使用了100,000小时的语音数据进行训练，这在TTS领域是非常罕见的。
自适应能力： 随着模型规模和训练数据量的增加，BASE TTS展现出了“涌现能力”，即在处理复杂文本时能够自然地表达情感和语调。
高效的语音表示： 使用了一种新颖的语音标记化技术，通过字节对编码（Byte-Pair Encoding）进行压缩，以提高模型的效率。

工作原理： BASE TTS的核心是一个自回归的Transformer模型，它首先接收文本输入，然后预测一系列离散的语音编码（speechcodes）。这些编码随后被送入一个卷积解码器，该解码器逐步生成语音波形。为了提高效率，模型使用了WavLM（WaveLM）自监督学习（SSL）模型提取的特征来构建speechcodes，并通过字节对编码来减少序列长度。这样，模型可以在保持高质量语音的同时，处理更长的音频序列。

具体应用场景：