优惠 FiT3D：一种提升2D图像特征表示的方法，特别强调了通过3D意识的微调来增强这些特征

AI

推荐人：暴走AI 标签：FiT3D AI

2年前 (2024-08-04)AI

苏黎世联邦理工学院、马克斯普朗克信息学研究所和谷歌的研究人员推出一种提升2D图像特征表示的方法，特别强调了通过3D意识的微调（3D-aware fine-tuning）来增强这些特征。这种方法的核心思想是，通过在3D空间中对2D ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 ExAvatar：可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身

AI

推荐人：暴走AI 标签：ExAvatar AI

2年前 (2024-08-04)AI

DGIST 和Meta的研究人员推出ExAvatar，它可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身（3D avatar）。ExAvatar不仅能够模拟人体的运动，还能模拟面部表情和手部动作，这些都是人们表达情感和与世界互 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

AI

推荐人：暴走AI 标签：OV-AVSS AI

2年前 (2024-08-04)AI

新型视听语义分割任务，称为开放词汇的视听语义分割（Open-Vocabulary Audio-Visual Semantic Segmentation，简称OV-AVSS）。这项技术的目标是在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从 ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠谷歌推出内容审核系统ShieldGemma：基于大语言模型构建的，专门用于检测和过滤不安全内容

AI

推荐人：暴走AI 标签：ShieldGemma 谷歌 AI

2年前 (2024-08-04)AI

谷歌推出内容审核系统ShieldGemma，它是基于大语言模型（LLMs）构建的，专门用于检测和过滤不安全内容。这个系统就像是网络世界的保安，能够辨别出不当的言语或行为，保护用户免受有害信息的影响。例如，有一个在线 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠高质量、类人同声传译系统CLASI：在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容

AI

推荐人：暴走AI 标签：CLASI AI

2年前 (2024-08-04)AI

字节跳动研究院跨语言代理团队推出高质量、类人同声传译系统CLASI， CLASI的主要功能是同声传译，即在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容。例如，你正在观看一个英文的科技产品发布 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Reenact Anything：实现一种语义视频运动转移的功能，可以让一张静态图片中的对象动起来，模仿另一个视频中的运动

AI

推荐人：暴走AI 标签：Reenact Anything AI

2年前 (2024-08-04)AI

瑞士苏黎世联邦理工学院和迪士尼研究工作室的研究人员推出Reenact Anything，它能够实现一种语义视频运动转移的功能。简单来说，这项技术可以让一张静态图片中的对象动起来，模仿另一个视频中的运动。这不是简单的模 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠通过对比性微调（contrastive fine-tuning）来提升小型语言模型的文本嵌入（text embeddings）质量

AI

推荐人：暴走AI 标签：文本嵌入 AI

2年前 (2024-08-04)AI

清华大学计算机科学与技术系的研究人员发布论文，论文的主题是探讨如何通过对比性微调（contrastive fine-tuning）来提升小型语言模型的文本嵌入（text embeddings）质量。文本嵌入是一种将文本转换为向量表示的技术 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型音乐理解模型FUTGA：通过时间增强的生成增强技术，提升了对音乐细节的理解和描述能力

AI

推荐人：暴走AI 标签：FUTGA AI

2年前 (2024-07-31)AI

加州大学圣地亚哥分校和加州大学洛杉矶分校的研究人员推出新型音乐理解模型FUTGA，它通过时间增强的生成增强技术，提升了对音乐细节的理解和描述能力。这项技术对于音乐行业来说非常重要，因为它可以帮助自动生成音 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 DAAG：结合了大语言模型、视觉语言模型和扩散模型，以提高强化学习中具身代理的样本效率和迁移学习能力

AI

推荐人：暴走AI 标签：DAAG AI

2年前 (2024-07-31)AI

伦敦帝国理工学院和谷歌 DeepMind的研究人员推出新框架Diffusion Augmented Agents（简称DAAG），它结合了大语言模型、视觉语言模型和扩散模型，以提高强化学习中具身代理（embodied agents）的样本效率和迁移学习能 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠物体与地面重建模型ORG：能够从单目图像中同时重建3D物体、估计相机参数，并模拟物体与地面的关系

AI

推荐人：暴走AI 标签：ORG AI

2年前 (2024-07-30)AI

伊利诺伊大学厄巴纳-香槟分校、普渡大学和Adobe的研究人员推出ORG（Object Reconstruction with Ground，物体与地面重建）的模型，它能够从单目图像中同时重建3D物体、估计相机参数，并模拟物体与地面的关系。这项 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠计算机视觉模型VSSD：通过改进状态空间模型（SSMs）来提高处理长序列数据的能力，同时保持了对全局信息的接收能力

AI

推荐人：暴走AI 标签：VSSD AI

2年前 (2024-07-30)AI

香港城市大学、天津大学和悉尼大学的研究人员推出新型的计算机视觉模型VSSD，它通过改进状态空间模型（SSMs）来提高处理长序列数据的能力，同时保持了对全局信息的接收能力。这项技术为计算机视觉领域提供了一种新的 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠自动化的视频字幕生成框架Wolf

AI

推荐人：暴走AI 标签：Wolf AI

2年前 (2024-07-30)AI

英伟达、加州大学伯克利分校、麻省理工学院、德州奥斯汀分校、多伦多大学和斯坦福大学的研究人员推出一个用于视频字幕生成的世界摘要框架Wolf，Wolf是一个自动化的视频字幕生成框架，它采用了一种专家混合的方法，利 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

人工智能

优惠 FiT3D：一种提升2D图像特征表示的方法，特别强调了通过3D意识的微调来增强这些特征

优惠 ExAvatar：可以从一段简单的单眼视频创建出一个全身3D高表达性人类化身

优惠开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

优惠谷歌推出内容审核系统ShieldGemma：基于大语言模型构建的，专门用于检测和过滤不安全内容

优惠高质量、类人同声传译系统CLASI：在演讲者讲话的同时，系统能够即时地提供翻译，让听众能够理解演讲内容

优惠 Reenact Anything：实现一种语义视频运动转移的功能，可以让一张静态图片中的对象动起来，模仿另一个视频中的运动

优惠通过对比性微调（contrastive fine-tuning）来提升小型语言模型的文本嵌入（text embeddings）质量

优惠新型音乐理解模型FUTGA：通过时间增强的生成增强技术，提升了对音乐细节的理解和描述能力

优惠 DAAG：结合了大语言模型、视觉语言模型和扩散模型，以提高强化学习中具身代理的样本效率和迁移学习能力

优惠物体与地面重建模型ORG：能够从单目图像中同时重建3D物体、估计相机参数，并模拟物体与地面的关系

优惠计算机视觉模型VSSD：通过改进状态空间模型（SSMs）来提高处理长序列数据的能力，同时保持了对全局信息的接收能力

优惠自动化的视频字幕生成框架Wolf