优惠多模态模型LongVA:更好地理解和处理非常长的视频序列

AI

推荐人：暴走AI 标签：LongVA 多模态模型 AI

2年前 (2024-06-25)AI

LMMs 实验室团队、新加坡南洋理工大学和新加坡科技大学的研究人员推出Long Video Assistant（LongVA）模型，让大型多模态模型（LMMs）更好地理解和处理非常长的视频序列。这里的“长视频”指的是视频帧数很多，可能达 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型大型多模态模型SliME：能够处理和理解高分辨率的图像和文本信息

AI

推荐人：暴走AI 标签：SliME 多模态模型 AI

2年前 (2024-06-17)AI

中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院、松鼠AI、阿里巴巴集团和Meta AI的研究人员推出新型大型多模态模型SliME，这些模型能够处理和理解高分辨率的图像和文本信息。 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠轻量级大型多模态模型Imp：为移动设备等资源受限的场景提供强大的AI能力

AI

推荐人：暴走AI 标签：Imp 多模态模型 AI

2年前 (2024-05-22)AI

杭州电子科技大学推出轻量级大型多模态模型Imp，它旨在为移动设备等资源受限的场景提供强大的人工智能能力。Imp模型利用了大语言模型（LLMs）的能力，通过系统的研究和优化，在保持模型规模较小（例如2B到4B参数）的 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MA-LMM：更有效地理解长期视频内容而设计的记忆增强型大型多模态模型

AI

推荐人：暴走AI 标签：MA-LMM 多模态模型 AI

2年前 (2024-04-10)AI

Meta推出MA-LMM，它是一个为了更有效地理解长期视频内容而设计的记忆增强型大型多模态模型。与传统的视频理解模型不同，MA-LMM采用了一种在线处理视频帧的方式，并使用一个记忆库来存储过去的视频信息。这样，即使视 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态模型OmniFusion：结合了大语言模型和视觉模态的适配器，以提高人工智能系统处理和理解文本和图像数据的能力

AI

推荐人：暴走AI 标签：OmniFusion 多模态模型 AI

2年前 (2024-04-10)AI

这篇论文介绍了一个名为OmniFusion的多模态模型，它结合了大型语言模型（LLM）和视觉模态的适配器，以提高人工智能系统处理和理解文本和图像数据的能力。OmniFusion模型在多个视觉-语言基准测试中表现出色，尤其是在 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 DPO：提升多模态模型（LMMs）在处理视频指令跟随任务时的表现

AI

推荐人：暴走AI 标签：DPO 多模态模型 AI

2年前 (2024-04-02)AI

这篇论文介绍了一个名为Direct Preference Optimization (DPO) 的新技术，它旨在提升大型多模态模型（LMMs）在处理视频指令跟随任务时的表现。想象一下，你正在观看一个教学视频，而一个AI模型需要根据视频内容回答 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠大型多模态模型LLaVA-UHD：能够高效地处理任意宽高比和高分辨率的图像

AI

推荐人：暴走AI 标签：LLaVA-UHD 多模态模型 AI

2年前 (2024-03-20)AI

来自清华大学、新加坡国立大学和中国科学院大学推出大型多模态模型LLaVA-UHD，它能够高效地处理任意宽高比和高分辨率的图像。在现实世界中，图像的宽高比和分辨率多种多样，这对于大型多模态模型（LMMs）在理解和处 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 SuperAGI推出新型多模态模型Veagle：如何将语言和视觉信息结合起来，以便更好地理解和处理包含文本的图像

AI

推荐人：暴走AI 标签：Veagle 多模态模型 AI

2年前 (2024-03-15)

SuperAGI推出新型多模态模型Veagle，它专注于如何将语言和视觉信息结合起来，以便更好地理解和处理包含文本的图像。在现实世界中，我们经常遇到包含文本的图像，比如路标、菜单或者商品包装，理解和解释这些图像中的 ...... 阅读全文

好 0 不好 0 已关闭评论

优惠小型的多模态模型TinyLLaVA：型结合了视觉和语言处理能力，以更好地理解和生成与图像相关的文本

AI

推荐人：暴走AI 标签：TinyLLaVA 多模态模型 AI

2年前 (2024-02-24)AI

这篇论文介绍了一个名为TinyLLaVA的框架，它旨在设计和分析小型的大型多模态模型（LMMs）。这些模型结合了视觉和语言处理能力，以更好地理解和生成与图像相关的文本。TinyLLaVA框架通过实验研究了不同视觉编码器、连 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

多模态模型

优惠多模态模型LongVA:更好地理解和处理非常长的视频序列

优惠新型大型多模态模型SliME：能够处理和理解高分辨率的图像和文本信息

优惠轻量级大型多模态模型Imp：为移动设备等资源受限的场景提供强大的AI能力

优惠 MA-LMM：更有效地理解长期视频内容而设计的记忆增强型大型多模态模型

优惠多模态模型OmniFusion：结合了大语言模型和视觉模态的适配器，以提高人工智能系统处理和理解文本和图像数据的能力

优惠 DPO：提升多模态模型（LMMs）在处理视频指令跟随任务时的表现

优惠大型多模态模型LLaVA-UHD：能够高效地处理任意宽高比和高分辨率的图像

优惠 SuperAGI推出新型多模态模型Veagle：如何将语言和视觉信息结合起来，以便更好地理解和处理包含文本的图像

优惠小型的多模态模型TinyLLaVA：型结合了视觉和语言处理能力，以更好地理解和生成与图像相关的文本