AI音频

优惠 全新TTS系统F5-TTS:能够将文本信息转换成听起来自然且富有表现力的语音

  • 全新TTS系统F5-TTS:能够将文本信息转换成听起来自然且富有表现力的语音
    AI
  • 上海交通大学、剑桥大学,吉利汽车研究院(宁波)有限公司的研究人员推出一个名为F5-TTS的全新文本到语音(Text-to-Speech,TTS)系统。这个系统能够将文本信息转换成听起来自然且富有表现力的语音。想象一下,你正 ...... 阅读全文

    优惠 Diversity-Rewarded CFG:提高音乐生成模型在创作过程中的多样性和质量

  • Diversity-Rewarded CFG:提高音乐生成模型在创作过程中的多样性和质量
    AI
  • 谷歌发布论文,论文的主题是关于如何提高音乐生成模型在创作过程中的多样性和质量。想象一下,你是一位音乐制作人,想要创作出既符合某个主题又充满新意的音乐作品。但是,如果你每次创作出来的作品都大同小异,那就 ...... 阅读全文

    优惠 用于加速音乐生成的新技术Presto!:通过减少采样步骤和每个步骤的成本,来加速基于分数的音乐生成模型的推理过程

  • 用于加速音乐生成的新技术Presto!:通过减少采样步骤和每个步骤的成本,来加速基于分数的音乐生成模型的推理过程
    AI
  • 加州大学圣地亚哥分校、Adobe Research的研究人员推出一种用于加速音乐生成的新技术Presto!,Presto!通过减少采样步骤和每个步骤的成本,来加速基于分数的扩散变换器(一种生成音乐的模型)的推理过程。例如,你是一 ...... 阅读全文

    优惠 avsoundscape:能够改变输入语音的声学特性,使其听起来像是在另一个不同的场景中录制的

  • avsoundscape:能够改变输入语音的声学特性,使其听起来像是在另一个不同的场景中录制的
    AI
  • 加州大学伯克利分校、Meta和密歇根大学的研究人员推出Self-Supervised Audio-Visual Soundscape Stylization技术,它能够改变输入语音的声学特性,使其听起来像是在另一个不同的场景中录制的。简单来说,就是可以通 ...... 阅读全文

    优惠 谷歌推出零样本跨语言声音转换技术Zero-shot Cross-lingual Voice Transfer

  • 谷歌推出零样本跨语言声音转换技术Zero-shot Cross-lingual Voice Transfer
    AI
  • 谷歌推出了一种名为“Zero-shot Cross-lingual Voice Transfer”(零样本跨语言声音转换)的技术,它可以将一个人的语音转换到另一种语言中去。简单来说,就是如果你有一种语言的语音样本,这项技术能够让你的声音听起 ...... 阅读全文

    优惠 V-AURA:根据视频生成与之匹配的音频

  • V-AURA:根据视频生成与之匹配的音频
    AI
  • 坦佩雷大学和牛津大学的研究人员推出V-AURA模型,它用于根据视频生成与之匹配的音频。简单来说,V-AURA能够观察一段视频,并生成与之对应的、听起来很自然的音频。比如,如果视频显示一个人在弹吉他,V-AURA可以生成 ...... 阅读全文

    优惠 音乐编解码器MuCodec:能够在极低的比特率下压缩和重建音乐

  • 音乐编解码器MuCodec:能够在极低的比特率下压缩和重建音乐
    AI
  • 清华大学深圳国际研究生院、腾讯人工智能实验室和香港中文大学的研究人员推出一个非常高效的音乐编解码器MuCodec,能够在极低的比特率下压缩和重建音乐。编解码器是一类软件,能够将音乐文件压缩成更小的体积进行存 ...... 阅读全文

    优惠 Kyutai推出实时语音到语音模型Moshi:通过模拟人类的对话方式,使得机器与人类的交流更加自然和流畅

  • Kyutai推出实时语音到语音模型Moshi:通过模拟人类的对话方式,使得机器与人类的交流更加自然和流畅
    AI
  • Kyutai推出实时语音到语音模型Moshi,它可以连续地倾听和说话,无需明确地建模发言人的转换或中断。例如,你有一个智能助手,它能够像真人一样与你进行流畅的对话,不仅理解你的话,还能用自然的声音回应你,那么Mos ...... 阅读全文

    优惠 SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计

  • SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计
    AI
  • 约翰霍普金斯大学、腾讯人工智能实验室和南洋理工大学的研究人员推出新型神经编解码自回归模型SSR-Speech,它专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计,以实现稳定、安全和强大的性能 ...... 阅读全文

    优惠 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音

  • 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音
    AI
  • 约翰霍普金斯大学电气与计算机工程系的研究人员推出新型声音提取技术SoloAudio。SoloAudio 是一个基于扩散模型的声音生成模型,专门设计用于从复杂的音频场景中提取特定的声音。这项技术可以帮助我们在有多种声音混 ...... 阅读全文

    优惠 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列

  • 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列
    AI
  • 喜马拉雅Everest团队推出高质量零样本(zero-shot)语音生成模型系列“Takin AudioLLM”。这个系列包括Takin TTS(Text-to-Speech,文本到语音)、Takin VC(Voice Conversion,声音转换)和Takin Morphing(声音变形 ...... 阅读全文

    优惠 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX

  • 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX
    AI
  • 加州大学圣地亚哥分校推出大规模公共领域MusicXML数据集PDMX,它是为了符号音乐处理而设计的。符号音乐处理是指将音乐以乐谱形式进行分析和生成,这与音频领域的音乐生成不同,它更侧重于音乐的结构和符号表示。 项 ...... 阅读全文