AI语音

优惠 微软推出先进神经编解码语言模型VALL-E 2

  • 微软推出先进神经编解码语言模型VALL-E 2
    AI
  • 微软推出先进神经编解码语言模型VALL-E 2,它在零样本文本到语音合成(TTS)领域取得了突破性进展,首次实现了与人类同等水平的表现。VALL-E 2是一个纯粹的研究项目,目前还没有计划将其纳入产品或向公众开放。尽管VALL-E 2能够合成类似专业配音的语音,但其相似度和自然度取决于语音提示的长度和质量、背景噪音以及... 阅读全文

    优惠 开源 AI 可穿戴设备Friend:能够记录您的对话,实时为您提供反馈和建议

  • 开源 AI 可穿戴设备Friend:能够记录您的对话,实时为您提供反馈和建议
    AI
  • Friend是一款创新的开源 AI 可穿戴设备,它能够记录您的对话,实时为您提供反馈和建议,而且单次充电后的使用时间可以超过 6 天。这款设备是您日常生活中的智能伴侣,无论工作还是休闲,都能提供贴心的辅助。 主要特点包括: 实时 AI 音频处理:设备内置的 AI 技术能够即时分析您的声音,帮助您捕捉重要信息。 低功耗蓝... 阅读全文

    优惠 微软推出LiveSpeech系统:低延迟的零样本TTS合成技术

  • 微软推出LiveSpeech系统:低延迟的零样本TTS合成技术
    AI
  • 微软推出LiveSpeech系统,它是一种低延迟的零样本(zero-shot)文本到语音(Text-to-Speech, TTS)合成技术。零样本意味着系统可以在没有特定说话人数据训练的情况下,模仿任何人的声音来生成语音。这项技术特别适用于需要快速响应的实时或低延迟场景,例如实时翻译、口音转换、语音简化或去除语言不流畅... 阅读全文

    优惠 StabilityAI推出全新开源模型Stable Audio Open:能够生成长达 47 秒的音频样本和音效

  • StabilityAI推出全新开源模型Stable Audio Open:能够生成长达 47 秒的音频样本和音效
    AI
  • 关键信息摘要: Stable Audio Open 是一个开源的文本到音频模型,能够生成长达 47 秒的音频样本和音效。 用户可以创作鼓点、乐器即兴重复段、环境声、拟音以及制作所需的音频元素。 该模型支持音频变化和音频样本的风格转换。 StabilityAI推出了全新的开源模型Stable Audio Open,这是一... 阅读全文

    优惠 字节推出文本到语音模型家族Seed-TTS:能够生成与人类语音几乎无法区分的高质量语音

  • 字节推出文本到语音模型家族Seed-TTS:能够生成与人类语音几乎无法区分的高质量语音
    AI
  • 字节跳动推出文本到语音(Text-to-Speech, TTS)模型家族Seed-TTS,它们能够生成与人类语音几乎无法区分的高质量语音。Seed-TTS模型家族通过其先进的技术,为语音合成领域带来了革命性的进步,使得机器生成的语音更加自然和富有表现力,同时提供了强大的控制能力和编辑功能,适用于多种实际应用场景。 主要... 阅读全文

    优惠 AI创作音效新工具!ElevenLabs推出“Sound Effects”

  • AI创作音效新工具!ElevenLabs推出“Sound Effects”
    AI
  • 人工智能领域的创新不断突破,ElevenLabs 最新推出了名为“Sound Effects”的工具,它能够根据文本描述生成最长22秒的音效,为播客、电影或游戏创作提供强大支持。这一新工具的加入,使得 ElevenLabs 的产品线更加丰富,包括原有的语音和音乐平台。ElevenLabs 与知名素材平台 Shutter... 阅读全文

    优惠 索尼推出新型人工智能系统Instruct-MusicGen:能够根据文本指令来编辑音乐

  • 索尼推出新型人工智能系统Instruct-MusicGen:能够根据文本指令来编辑音乐
    AI
  • 索尼推出新型人工智能系统Instruct-MusicGen,它能够根据文本指令来编辑音乐。想象一下,你告诉这个系统“加一段鼓点”,它就能在现有的音乐中加入鼓声,或者你让它“去掉钢琴声”,它就能把钢琴的旋律部分移除。这就像是有一个音乐编辑的魔法棒,你说什么,它就变什么。 主要功能: Instruct-MusicGen的主... 阅读全文

    优惠 索尼推出新型文本到声音生成模型SoundCTM:旨在为多媒体作品(如视频游戏、音乐和电影)创造声音内容,这些声音内容包括音效和Foley声音

  • 索尼推出新型文本到声音生成模型SoundCTM:旨在为多媒体作品(如视频游戏、音乐和电影)创造声音内容,这些声音内容包括音效和Foley声音
    AI
  • 索尼推出新型文本到声音生成模型SoundCTM(Sound Consistency Trajectory Models),SoundCTM旨在为多媒体作品(如视频游戏、音乐和电影)创造声音内容,这些声音内容包括音效和Foley声音(指在后期制作中添加的声音效果,如脚步声、玻璃破碎声等)。例如,你正在制作一个视频游戏,需... 阅读全文

    优惠 Adob​​e推出AI音乐生成新技术DITTO-2:加速可控音乐生成过程,使其能够实时或更快地生成音乐,同时提高音乐质量和控制精度

  • Adob​​e推出AI音乐生成新技术DITTO-2:加速可控音乐生成过程,使其能够实时或更快地生成音乐,同时提高音乐质量和控制精度
    AI
  • 加州大学圣地亚哥分校和Adob​​e 研究部的研究人员推出DITTO-2,它是用于音乐生成的人工智能技术。DITTO-2的核心目标是加速可控音乐生成过程,使其能够实时或更快地生成音乐,同时提高音乐质量和控制精度。例如,你是一位电影制片人,需要为电影中的特定场景定制一段背景音乐。使用DITTO-2,你可以指定音乐的风格、... 阅读全文

    优惠 新型音频编解码器SemantiCodec:能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息

  • 新型音频编解码器SemantiCodec:能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息
    AI
  • 来自萨里大学和上海交通大学的研究人员推出新型音频编解码器SemantiCodec,它能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息。这种编解码器特别适合于需要在保持音频质量的同时减少数据大小的场景,例如在带宽有限的网络环境中传输音频或者在存储空间受限的设备上存储音频。 实验结果显示,SemantiCo... 阅读全文

    优惠 高度精确且轻量级的唤醒词引擎Porcupine,它使得开发始终处于监听状态的语音交互应用成为可能

  • 高度精确且轻量级的唤醒词引擎Porcupine,它使得开发始终处于监听状态的语音交互应用成为可能
    AI
  • Picovoice 是一个面向开发者的平台,让您能够按照自己的需求构建语音产品。与亚马逊或谷歌不同的是,Picovoice 的人工智能技术完全在设备端运行,同时保证更高的准确性。通过 Picovoice,您可以实现关键词检测、语音指令控制、语音用户界面(VUI)、音素搜索、自动语音识别(ASR)、语音转文字(STT)、... 阅读全文

    优惠 新型零样本(Zero-Shot)语音合成系统FlashSpeech

  • 新型零样本(Zero-Shot)语音合成系统FlashSpeech
    AI
  • 来自香港科技大学、MSRA、萨里大学、内蒙古大学、北京邮电大学和新加坡国立大学的研究人员推出新型零样本(Zero-Shot)语音合成系统FlashSpeech,零样本语音合成是指在没有特定说话人数据训练的情况下,能够模仿该说话人的声音来生成语音的技术。这项技术可以应用于多种场景,比如为电影角色配音、创建个性化的虚拟助手... 阅读全文