优惠 SonicSim：一个可定制的模拟平台，用于处理移动声源场景中的语音

AI

推荐人：暴走AI 标签：SonicSim AI

2年前 (2024-10-05)AI

清华大学和日本国立信息研究所的研究人员推出仿真工具SonicSim，以及一个基于此工具生成的大规模合成数据集SonicSet。SonicSim专门用于模拟移动声源场景下的语音处理任务，如语音分离和增强。例如，你正在开发一个智 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠英伟达推出一种用于无标签多教师知识蒸馏的方法PHI-S

AI

推荐人：暴走AI 标签：PHI-S 英伟达 AI

2年前 (2024-10-05)AI

英伟达推出一种名为PHI-S（PHI Standardization）的技术，它是一种用于无标签多教师知识蒸馏的方法。知识蒸馏是一种技术，它允许一个“学生”模型去学习并模仿一个或多个“教师”模型的行为，而不需要直接访问训练数据。 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型框架OPEN-RAG：增强大语言模型（LLMs）的推理能力

AI

推荐人：暴走AI 标签：OPEN-RAG AI

2年前 (2024-10-05)AI

孟加拉国工程技术大学、北德克萨斯大学、加拿大约克大学、Salesforce Research、卡塔尔计算研究所 (QCRI)、Fatima Al-Fihri 博士前奖学金和Cohere For AI Community的研究人员推出新型框架OPEN-RAG，它旨在增强大语 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 RSRD：让机器人通过观看人类的单眼（monocular）视频演示来学习操纵有活动部件的物体

AI

推荐人：暴走AI 标签：RSRD AI

2年前 (2024-09-29)AI

加州大学伯克利分校的研究人员推出一种名为“Robot See Robot Do”（RSRD）的新方法，它能让机器人通过观看人类的单眼（monocular）视频演示来学习操纵有活动部件的物体。这种方法可以用于多种场景，比如教机器人如何 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新颖的高斯喷射框架Disco4D：用于从单张图像生成和动画化4D人体

AI

推荐人：暴走AI 标签：Disco4D AI

2年前 (2024-09-29)AI

南洋理工大学、商汤科技研究院和上海人工智能实验室的研究人员推出一种新颖的高斯喷射框架Disco4D，用于从单张图像生成和动画化4D人体。简单来说，如果你给Disco4D一张人的图片，它能基于这张图片创建出一个详细的3D ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠新型大型多模态模型LLaVA-3D：能够理解和处理三维（3D）空间信息，而不仅仅是传统的二维（2D）图像和视频

AI

推荐人：暴走AI 标签：LLaVA-3D AI

2年前 (2024-09-29)AI

香港大学和上海人工智能实验室的研究人员推出新型大型多模态模型LLaVA-3D，它能够理解和处理三维（3D）空间信息，而不仅仅是传统的二维（2D）图像和视频。想象一下，你有一个AI助手，不仅能看懂图片和文字，还能理解 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态大语言模型EMOVA：使大语言模型具备端到端的语音能力，同时保持领先的视觉-语言性能。

AI

推荐人：暴走AI 标签：EMOVA AI

2年前 (2024-09-29)AI

香港科技大学、香港大学,、华为诺亚方舟实验室、香港中文大学、中山大学和南方科技大学的研究人员推出多模态大语言模型EMOVA，使大语言模型具备端到端的语音能力，同时保持领先的视觉-语言性能。通过一个语义-声学解 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠可学习剪枝方法MaskLLM：通过在大语言模型中建立半结构化（或“N:M”）稀疏性来减少推理过程中的计算开销

AI

推荐人：暴走AI 标签：MaskLLM AI

2年前 (2024-09-29)AI

英伟达和新加坡国立大学的研究人员推出可学习剪枝方法MaskLLM，旨在通过在大语言模型中建立半结构化（或“N:M”）稀疏性来减少推理过程中的计算开销。MaskLLM不采用新的重要性标准，而是通过Gumbel Softmax采样将N:M模 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型多模态方法MonoFormer：核心思想是使用单一的Transformer来处理两种不同的生成任务

AI

推荐人：暴走AI 标签：MonoFormer AI

2年前 (2024-09-26)AI

百度 VIS 和悉尼科技大学的研究人员推出一种新型多模态方法，称为MonoFormer。这个方法的核心思想是使用单一的Transformer来处理两种不同的生成任务：基于自回归（autoregression）的离散文本生成和基于扩散（diffus ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 TIME-MOE：用于时间序列预测的大规模基础模型

AI

推荐人：暴走AI 标签：TIME-MOE 时间序列 AI

2年前 (2024-09-26)

普林斯顿大学、松鼠AI学习和格里菲斯大学的研究人员推出新框架TIME-MOE，它是一个用于时间序列预测的大规模基础模型。TIME-MOE的核心是一个新颖的、高效的解码器-只有的Transformer模型，它采用了专家混合（MoE）架 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型框架TalkinNeRF：能够从单目视频学习动态的NeRF，以此来创建能够进行全身动作和说话的三维人物动画。

AI

推荐人：暴走AI 标签：TalkinNeRF AI

2年前 (2024-09-26)AI

石溪大学、Meta和Flawless AI的研究人员推出新型框架TalkinNeRF，它能够从单目视频（即只有一个摄像头拍摄的视频）学习动态的神经辐射场（NeRF），以此来创建能够进行全身动作和说话的三维人物动画。简单来说，这项 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型3D框架DreamWaltz-G：根据文本描述生成具有表现力的3D高斯化身（即3D头像），并且这些头像可以进行动画化处理

AI

推荐人：暴走AI 标签：DreamWaltz-G AI

2年前 (2024-09-26)AI

香港大学、星尘智能、腾讯、中国科学技术大学和国际数字经济学院（IDEA）的研究人员推出新型框架DreamWaltz-G，它能够根据文本描述生成具有表现力的3D高斯化身（即3D头像），并且这些头像可以进行动画化处理。简单来 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

人工智能

优惠 SonicSim：一个可定制的模拟平台，用于处理移动声源场景中的语音

优惠英伟达推出一种用于无标签多教师知识蒸馏的方法PHI-S

优惠新型框架OPEN-RAG：增强大语言模型（LLMs）的推理能力

优惠 RSRD：让机器人通过观看人类的单眼（monocular）视频演示来学习操纵有活动部件的物体

优惠新颖的高斯喷射框架Disco4D：用于从单张图像生成和动画化4D人体

优惠新型大型多模态模型LLaVA-3D：能够理解和处理三维（3D）空间信息，而不仅仅是传统的二维（2D）图像和视频

优惠多模态大语言模型EMOVA：使大语言模型具备端到端的语音能力，同时保持领先的视觉-语言性能。

优惠可学习剪枝方法MaskLLM：通过在大语言模型中建立半结构化（或“N:M”）稀疏性来减少推理过程中的计算开销

优惠新型多模态方法MonoFormer：核心思想是使用单一的Transformer来处理两种不同的生成任务

优惠 TIME-MOE：用于时间序列预测的大规模基础模型

优惠新型框架TalkinNeRF：能够从单目视频学习动态的NeRF，以此来创建能够进行全身动作和说话的三维人物动画。

优惠新型3D框架DreamWaltz-G：根据文本描述生成具有表现力的3D高斯化身（即3D头像），并且这些头像可以进行动画化处理