优惠新模型MaskVAT：根据无声视频生成与之匹配的音频

AI

推荐人：暴走AI 标签：MaskVAT AI

2年前 (2024-07-17)AI

杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT（Masked Generative Video-to-Audio Transformers），它能够根据无声视频生成与之匹配的音频。简单来说，就是让计算机“看”一段没有声音的视频，然后“想 ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠 Make-An-Agent：能够生成通用策略网络的系统

AI

推荐人：暴走AI 标签：Make-An-Agent AI

2年前 (2024-07-17)AI

马里兰大学帕克分校、清华大学、加州大学圣地亚哥分校的研究人员推出创新方法Make-An-Agent，它是一个能够生成通用策略网络的系统。简单来说，就是通过观察一个智能体（比如机器人）的行为，这个系统能够自动生成控 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠虚拟仿真平台GRUtopia：推动和评估高级具身智能（Embodied AI）研究而设计

AI

推荐人：暴走AI 标签：GRUtopia AI

2年前 (2024-07-17)AI

上海人工智能实验室OpenRobotLab、浙江大学、上海交通大学、清华大学、南京大学、香港中文大学和西安电子科技大学的研究人员推出虚拟仿真平台GRUtopia，它是为了推动和评估高级具身智能（Embodied AI）研究而设计的 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 GoodBadGreedy：大语言模型在生成文本时的非确定性问题

AI

推荐人：暴走AI 标签：大语言模型 AI

2年前 (2024-07-17)AI

北京大学和艾伦人工智能研究所的研究人员发布论文，论文的主题是探讨大语言模型（LLMs）在生成文本时的非确定性问题。非确定性是指同样的输入在不同的生成配置下可能会产生显著不同的输出。论文的核心观点是，目前对 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源工具包VLMEvalKit：用于评估大型多模态模型

AI

推荐人：暴走AI 标签：VLMEvalKit AI

2年前 (2024-07-17)AI

开源工具包VLMEvalKit，它用于评估大型多模态模型。这些模型能够处理并理解多种类型的数据，比如图像、文本、音频等。VLMEvalKit基于PyTorch框架，旨在为研究人员和开发者提供一个友好、全面的框架，以便他们评估现 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态联合表示模型OmniBind：能够处理包括3D、音频、图像和语言输入在内的多种数据类型

AI

推荐人：暴走AI 标签：OmniBind AI

2年前 (2024-07-17)AI

浙江大学和香港大学的研究人员推出OmniBind，这是一种大规模的多模态联合表示模型，能够处理包括3D、音频、图像和语言输入在内的多种数据类型。简单来说，OmniBind就像一个多语言的超级翻译器，但它不仅仅是翻译语 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Click-Gaussian：用于实时3D场景操作的交互式分割方法

AI

推荐人：暴走AI 标签：Click-Gaussian AI

2年前 (2024-07-17)AI

LG电子和首尔国立大学的研究人员推出Click-Gaussian，这是一种用于实时3D场景操作的交互式分割方法。简单来说，Click-Gaussian能够让用户通过单次点击就能在三维空间中选择和分割出他们想要的对象，无论是粗略的大致 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌推出大规模、开放式的多语种手语平行语料库YouTube-SL-25

AI

推荐人：暴走AI 标签：YouTube-SL-25 谷歌 AI

2年前 (2024-07-17)AI

谷歌推出YouTube-SL-25，这是一个大规模、开放式的多语种手语平行语料库。简单来说，它包含了超过25种不同手语的视频，这些视频从YouTube上收集而来，并且配有相应的字幕。这个项目的目标是改善手语与文本之间的翻译 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Omnigrasp：让虚拟的仿人机器人能够抓住各种不同的物体，并让这些物体沿着复杂的轨迹移动

AI

推荐人：暴走AI 标签：Omnigrasp 仿人机器人 AI

2年前 (2024-07-17)AI

卡内基梅隆大学、Meta和苏黎世联邦理工学院的研究人员推出Omnigrasp，它可以让虚拟的仿人机器人（humanoids）能够抓住各种不同的物体，并让这些物体沿着复杂的轨迹移动。想象一下，就像是一个电子游戏里的角色，不仅 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 3D编辑技术DreamCatalyst：基于SDS（分数蒸馏采样）的编辑解释为扩散模型的逆过程

AI

推荐人：暴走AI 标签：3D编辑技术 DreamCatalyst AI

2年前 (2024-07-17)AI

韩国科学技术研究院人工智能研究生院推出3D编辑技术DreamCatalyst，它将基于SDS（分数蒸馏采样）的编辑解释为扩散模型的逆过程。我们的目标函数考虑了采样动力学，从而使DreamCatalyst的优化过程成为了编辑任务中扩 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 WeLore（权重低秩投影）：以一种与数据无关且一次性的方式，统一了权重压缩和内存高效微调

AI

推荐人：暴走AI 标签：WeLore 权重低秩投影 AI

2年前 (2024-07-17)AI

德克萨斯大学奥斯汀分校、萨里大学、牛津大学、加州理工学院和Meta AI的研究人员推出“权重低秩投影”（Weight Low-Rank Projection，简称WeLore），它以一种与数据无关且一次性的方式，统一了权重压缩和内存高效微调 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Animate3D：通过一种特殊的方法，让静态的3D模型变得生动活泼，就像赋予了它们生命一样

AI

推荐人：暴走AI 标签：Animate3D AI

2年前 (2024-07-17)AI

中国科学院自动化研究所和阿里巴巴集团达摩院的研究人员推出一种让3D模型动起来的技术Animate3D，它可以通过一种特殊的方法，让静态的3D模型变得生动活泼，就像赋予了它们生命一样。例如，你是一名游戏开发者，需要 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

优惠新模型MaskVAT：根据无声视频生成与之匹配的音频

优惠 Make-An-Agent：能够生成通用策略网络的系统

优惠虚拟仿真平台GRUtopia：推动和评估高级具身智能（Embodied AI）研究而设计

优惠 GoodBadGreedy：大语言模型在生成文本时的非确定性问题

优惠开源工具包VLMEvalKit：用于评估大型多模态模型

优惠多模态联合表示模型OmniBind：能够处理包括3D、音频、图像和语言输入在内的多种数据类型

优惠 Click-Gaussian：用于实时3D场景操作的交互式分割方法

优惠谷歌推出大规模、开放式的多语种手语平行语料库YouTube-SL-25

优惠 Omnigrasp：让虚拟的仿人机器人能够抓住各种不同的物体，并让这些物体沿着复杂的轨迹移动

优惠 3D编辑技术DreamCatalyst：基于SDS（分数蒸馏采样）的编辑解释为扩散模型的逆过程

优惠 WeLore（权重低秩投影）：以一种与数据无关且一次性的方式，统一了权重压缩和内存高效微调

优惠 Animate3D：通过一种特殊的方法，让静态的3D模型变得生动活泼，就像赋予了它们生命一样