优惠新型数据集和对比学习合成方法Img-Diff：专注于为多模态大语言模型提升细粒度图像识别能力

AI

推荐人：暴走AI 标签：Img-Diff AI

2年前 (2024-08-10)AI

阿里巴巴和中山大学的研究人员推出新型数据集和对比学习合成方法Img-Diff，它专注于为多模态大语言模型（MLLMs）提升细粒度图像识别能力。这个方法通过分析相似图像之间的物体差异，挑战模型去识别匹配和不同的组成 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠创新系统Sketch2Scene：根据用户的简单草图和文本提示，自动生成交互式的3D游戏场景

AI

推荐人：暴走AI 标签：Sketch2Scene AI

2年前 (2024-08-10)AI

腾讯XR视觉实验室和澳大利亚国立大学的研究人员推出创新系统Sketch2Scene，它能够根据用户的简单草图和文本提示，自动生成交互式的3D游戏场景。这就像是给一个会魔法的画家，只需要随手画几笔和简单描述，就能创造出 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠交互式可视化工具TRANSFORMER EXPLAINER：帮助非专业人士通过GPT-2模型来学习理解Transformer这一文本生成模型

AI

推荐人：暴走AI 标签：TRANSFORMER EXPLAINER AI

2年前 (2024-08-10)AI

TRANSFORMER EXPLAINER是一个交互式可视化工具，它旨在帮助非专业人士通过GPT-2模型来学习理解Transformer这一文本生成模型。Transformer是一种在机器学习领域非常流行的神经网络架构，广泛应用于从文本到视觉的多种 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里发布新一代数学模型Qwen2-Math

$阿里发布新一代数学模型Qwen2-Math$

AI

推荐人：暴走AI 标签：Qwen2-Math 阿里 AI

2年前 (2024-08-09)AI

阿里通义千问 Qwen2 家族的新成员 Qwen2-Math，以其强大的数学解题能力，为开源语言模型领域带来了新的突破。以下是对 Qwen2-Math 的简介和性能概述，以及其多语言模型开发计划的介绍。项目主页：https://qwenlm.gi ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型高效Transformer模型AVESFormer：专为实时音视频分割任务而设计

AI

推荐人：暴走AI 标签：AVESFormer AI

2年前 (2024-08-07)AI

中国科学院大学人工智能学院、中国科学院自动化研究所和中国铁塔股份有限公司的研究人员推出新型高效Transformer模型AVESFormer，它专为实时音视频（Audio-Visual, AV）分割任务而设计。音视频分割是一种多模态任务 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新技术框架ReSyncer：用于创建统一的音频-视觉同步的面部表演者的系统

AI

推荐人：暴走AI 标签：ReSyncer AI

2年前 (2024-08-07)AI

清华大学、百度公司、中关村实验室和南洋理工大学的研究人员推出新技术框架ReSyncer，它是一个用于创建统一的音频-视觉同步的面部表演者的系统。简单来说，ReSyncer能够根据给定的音频生成口型同步的视频，并且能够 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型大型多模态模型LLaVA-OneVision：提高计算机视觉任务的性能，特别是在处理单图像、多图像和视频场景时的能力

AI

推荐人：暴走AI 标签：LLaVA-OneVision AI

2年前 (2024-08-07)AI

这篇论文介绍了一个名为LLaVA-OneVision的新型大型多模态模型（LMMs），它是由多个机构共同开发的，包括字节跳动、南洋理工大学、香港中文大学和香港科技大学。这个模型的核心目标是提高计算机视觉任务的性能，特别 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠评估基准测试MMIU：专门用于测试和评估大型视觉-语言模型在处理多图像任务时的性能

AI

推荐人：暴走AI 标签：MMIU AI

2年前 (2024-08-07)AI

上海人工智能实验室、上海交通大学、香港大学、商汤科技研究部和清华大学的研究人员推出评估基准测试MMIU（Multimodal Multi-image Understanding），它专门用于测试和评估大型视觉-语言模型（LVLMs）在处理多图像任 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 ExoViP系统：用于组合视觉推理的验证和探索工具

AI

推荐人：暴走AI 标签：ExoViP AI

2年前 (2024-08-07)AI

北京国家通用人工智能重点实验室和约翰霍普金斯大学的研究人员推出ExoViP系统，它是一个用于组合视觉推理的验证和探索工具。ExoViP的核心思想是提高复杂视觉任务中人工智能的推理能力，特别是当这些任务需要将复杂的 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠大规模文本到视频生成数据集VIDGEN-1M：为了提升文本到视频模型的训练效果而特别设计的，它通过精细的筛选和标注过程，提供了高质量的视频和详细的文本描述

AI

推荐人：暴走AI 标签：VIDGEN-1M AI

2年前 (2024-08-07)AI

复旦大学和上海人工智能科学研究院的研究人员推出大规模文本到视频生成数据集VIDGEN-1M，这个数据集是为了提升文本到视频模型的训练效果而特别设计的，它通过精细的筛选和标注过程，提供了高质量的视频和详细的文本 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源框架RAG Foundry：专门用于增强大语言模型，特别是针对检索增强型生成（RAG）的应用场景

AI

推荐人：暴走AI 标签：RAG Foundry AI

2年前 (2024-08-07)AI

英特尔实验室推出开源框架RAG Foundry，它专门用于增强大语言模型（LLMs），特别是针对检索增强型生成（Retrieval-Augmented Generation，简称RAG）的应用场景。简单来说，RAG Foundry是一个多功能工具箱，它可以帮 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MeshAnything V2系统：能够自动生成与给定形状对齐的艺术家创造的网格的模型

AI

推荐人：暴走AI 标签：MeshAnything V2 AI

2年前 (2024-08-07)AI

洋理工大学、清华大学、伦敦帝国理工学院和西湖大学的研究人员推出MeshAnything V2系统，它是一个能够自动生成与给定形状对齐的艺术家创造的网格（Artist-Created Meshes，简称AM）的模型。简单来说，MeshAnything V ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

AI

优惠新型数据集和对比学习合成方法Img-Diff：专注于为多模态大语言模型提升细粒度图像识别能力

优惠创新系统Sketch2Scene：根据用户的简单草图和文本提示，自动生成交互式的3D游戏场景

优惠交互式可视化工具TRANSFORMER EXPLAINER：帮助非专业人士通过GPT-2模型来学习理解Transformer这一文本生成模型

优惠阿里发布新一代数学模型Qwen2-Math

优惠新型高效Transformer模型AVESFormer：专为实时音视频分割任务而设计

优惠新技术框架ReSyncer：用于创建统一的音频-视觉同步的面部表演者的系统

优惠新型大型多模态模型LLaVA-OneVision：提高计算机视觉任务的性能，特别是在处理单图像、多图像和视频场景时的能力

优惠评估基准测试MMIU：专门用于测试和评估大型视觉-语言模型在处理多图像任务时的性能

优惠 ExoViP系统：用于组合视觉推理的验证和探索工具

优惠大规模文本到视频生成数据集VIDGEN-1M：为了提升文本到视频模型的训练效果而特别设计的，它通过精细的筛选和标注过程，提供了高质量的视频和详细的文本描述

优惠开源框架RAG Foundry：专门用于增强大语言模型，特别是针对检索增强型生成（RAG）的应用场景

优惠 MeshAnything V2系统：能够自动生成与给定形状对齐的艺术家创造的网格的模型