当前位置：首页 > 优惠 >AI音频>文章详情

新型音频编解码器SemantiCodec：能够在极低的比特率下对音频进行压缩和重建，同时保留丰富的语义信息

推荐人：暴走AI| 商城: AI | 2年前 (2024-05-02)| 分类：AI音频 | 热度：714 ℃

已关闭评论

来自萨里大学和上海交通大学的研究人员推出新型音频编解码器SemantiCodec，它能够在极低的比特率下对音频进行压缩和重建，同时保留丰富的语义信息。这种编解码器特别适合于需要在保持音频质量的同时减少数据大小的场景，例如在带宽有限的网络环境中传输音频或者在存储空间受限的设备上存储音频。

实验结果显示，SemantiCodec在重建质量上显著优于现有的Descript编解码器，并且在语义信息的丰富性上也有显著提升。例如，在比较不同编解码器重建的音频时，SemantiCodec能够在极低的比特率下重建出质量更高、语义信息更丰富的音频，这对于音频内容的理解和生成任务非常有用。

双编码器架构：SemantiCodec采用了一个语义编码器和一个声学编码器。语义编码器基于自监督学习的AudioMAE模型，并通过k-means聚类进行离散化，而声学编码器则用于捕捉剩余的音频细节。
基于扩散模型的重建：使用一个潜在扩散模型（LDM）作为解码器，基于语义和声学编码器的输出重建音频。