优惠评估基准MuChoMusic：专门用来测试多模态音频-语言模型在音乐理解方面的能力

AI

推荐人：暴走AI 标签：MuChoMusic AI

2年前 (2024-08-05)AI

庞贝法布拉大学、伦敦玛丽女王大学和环球音乐集团的研究人员推出评估基准MuChoMusic，它专门用来测试多模态音频-语言模型在音乐理解方面的能力。这些模型可以同时处理音频和语言信息，对于音乐领域的理解和应用具有 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

AI

推荐人：暴走AI 标签：OV-AVSS AI

2年前 (2024-08-04)AI

新型视听语义分割任务，称为开放词汇的视听语义分割（Open-Vocabulary Audio-Visual Semantic Segmentation，简称OV-AVSS）。这项技术的目标是在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从 ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠高质量、类人同声传译系统CLASI：在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容

AI

推荐人：暴走AI 标签：CLASI AI

2年前 (2024-08-04)AI

字节跳动研究院跨语言代理团队推出高质量、类人同声传译系统CLASI， CLASI的主要功能是同声传译，即在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容。例如，你正在观看一个英文的科技产品发布 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 PopPop AI：免费在线AI 音效生成器，输入提示词就能生成音效

AI

推荐人：暴走AI 标签：AI 音效 PopPop AI AI

2年前 (2024-07-25)AI

PopPop AI 是一款免费的人工智能音效在线生成器，用户可以通过输入文字描述来快速生成相应的音效素材。这些音效包括鼓掌声、下雨声、车流声等，适用于视频制作、游戏开发或其他需要音效的场合。PopPop AI 的特点是使 ...... 阅读全文

直达链接好 4 不好 0 已关闭评论

优惠 MUSICONGEN：于Transformer的文本到音乐生成模型

AI

推荐人：暴走AI 标签：MUSICONGEN AI

2年前 (2024-07-24)AI

MUSICONGEN是一个基于Transformer的文本到音乐生成模型。简单来说，MUSICONGEN能够根据文本提示生成具有节奏和和弦控制的音乐。这就像是给一个音乐智能助手一些文字描述，比如“一个充满活力的摇滚乐段”，然后它就能 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠提高自动音频字幕生成（ AAC）的效率

AI

推荐人：暴走AI 标签：AAC AI

2年前 (2024-07-22)AI

上海交通大学人工智能教育部重点实验室X-LANCE实验室和英国萨里大学视觉、语音和信号处理中心的研究人员发布论文，论文的主题是关于提高自动音频字幕生成（Automated Audio Captioning, AAC）的效率，即如何让计算机 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 StabilityAI发布全新开源模型Stable Audio Open的技术报告

AI

推荐人：暴走AI 标签：StabilityAI Stable Audio Open AI

2年前 (2024-07-22)AI

StabilityAI在上个月公开新型文本到音频的生成模型Stable Audio Open后，终于在本月公开了技术报告，Stable Audio Open的特别之处在于，它是开放的，意味着任何人都可以使用和研究它，而且它是用Creative Commons（ ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

AI

推荐人：暴走AI 标签：FunAudioLLM AI

2年前 (2024-07-19)AI

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族，专为优化人类与大语言模型(LLMs)间的自然语音交互而设计。该体系的核心亮点是两大创新模型：SenseVoice，擅长处理多语种语音识别、 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠音乐生成新方法musicgenstyle：通过音频输入来控制音乐的风格

AI

推荐人：暴走AI 标签：musicgenstyle AI

2年前 (2024-07-18)AI

Meta、索邦大学、耶路撒冷希伯来大学和Kyutai的研究人员发布论文，论文的主题是关于音乐生成的新方法，特别是如何通过音频输入来控制音乐的风格。例如，你有一个贝多芬的钢琴奏鸣曲的片段，你想让AI生成一首新的钢 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Speech Slytherin：新型序列模型Mamba应用于语音处理的三个关键任务：语音分离、自动语音识别（ASR）和文本到语音合成（TTS）

AI

推荐人：暴走AI 标签：Speech Slytherin AI

2年前 (2024-07-17)AI

哥伦比亚大学电气工程系的研究人员推出Speech Slytherin，探讨了一种新型的序列模型Mamba，并将其应用于语音处理的三个关键任务：语音分离、自动语音识别（ASR）和文本到语音合成（TTS）。Mamba是一种新型的序列模型 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里巴巴集团Qwen团队推出大型音频-语言模型Qwen2-Audio

AI

推荐人：暴走AI 标签：Qwen2-Audio 阿里巴巴 AI

2年前 (2024-07-17)AI

阿里巴巴集团Qwen团队最新研发的大型音频-语言模型Qwen2-Audio。这个模型能够处理各种音频信号输入，并根据语音指令进行音频分析或直接文本回应。简单来说，Qwen2-Audio就像一个超级听力助手，不仅能听懂你说的话， ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 S2TT：将大语言模型应用于语音到文本翻译任务

AI

推荐人：暴走AI 标签：S2TT AI

2年前 (2024-07-04)AI

台湾大学、香港中文大学和Meta的研究人员发布论文，探讨了如何将大型语言模型（LLMs）应用于语音到文本翻译（Speech-to-Text Translation, S2TT）任务。S2TT是一种技术，它能够将一种语言的语音信号转换成另一种语言 ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

推荐类别

栏目分类

AI音频

优惠评估基准MuChoMusic：专门用来测试多模态音频-语言模型在音乐理解方面的能力

优惠开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

优惠高质量、类人同声传译系统CLASI：在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容

优惠 PopPop AI：免费在线AI 音效生成器，输入提示词就能生成音效

优惠 MUSICONGEN：于Transformer的文本到音乐生成模型

优惠提高自动音频字幕生成（ AAC）的效率

优惠 StabilityAI发布全新开源模型Stable Audio Open的技术报告

优惠阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

优惠音乐生成新方法musicgenstyle：通过音频输入来控制音乐的风格

优惠 Speech Slytherin：新型序列模型Mamba应用于语音处理的三个关键任务：语音分离、自动语音识别（ASR）和文本到语音合成（TTS）

优惠阿里巴巴集团Qwen团队推出大型音频-语言模型Qwen2-Audio

优惠 S2TT：将大语言模型应用于语音到文本翻译任务