当前位置：首页 > 优惠 >大语言模型>文章详情

SoM-LLaVA：提高多模态大语言模型视觉理解能力的新方法，它通过在图像上添加带标签的标记（tags）来增强模型将视觉对象与文本标记关联的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-27)| 分类：大语言模型 | 热度：212 ℃

已关闭评论

SoM-LLaVA：提高多模态大语言模型视觉理解能力的新方法，它通过在图像上添加带标签的标记（tags）来增强模型将视觉对象与文本标记关联的能力

AI

加州大学圣地亚哥分校、微软公司、加州大学圣巴巴拉分校的研究人员推出list items one by one，这是一种提高多模态大语言模型视觉理解能力的新方法，它通过在图像上添加带标签的标记（tags）来增强模型将视觉对象与文本标记关联的能力。例如，我们有一张包含笔记本电脑、椅子、显示器和台灯的办公室照片。使用SoM提示，我们可以在这些物品上放置标记，并让MLLM模型按照标记的数字顺序列举出这些物品。模型可能会生成这样的文本：“1. 笔记本电脑，2. 椅子，3. 显示器，4. 台灯。”这样，模型不仅学会了识别图像中的物体，还学会了将这些物体与特定的文本标记关联起来，从而提高了其多模态理解能力。

主要功能：

提升视觉理解：使模型能够更好地理解和描述图像中的视觉对象。
减少幻觉（hallucinations）：在没有视觉标记的情况下，模型仍能保持高性能，表明训练过程中视觉标记的有效性。

主要特点：

SoM（Set-of-Mark）提示：使用带数字或字母的标记来增强图像与文本之间的联系。
逐个列出项目的学习范式：要求模型按标记的顺序列举并描述图像上所有的视觉标记。
数据集的创建：通过Semantic-SAM生成标记，并利用GPT-4V生成对应的文本描述。

工作原理：

图像和视觉提示的准备：使用MS-COCO等开源图像数据集，并在图像上放置带有数字的标记。
文本数据生成：利用GPT-4V根据图像上的标记自动生成描述性文本。
模型训练：在预训练的MLLMs（如LLaVA-1.5）上继续训练，加入新创建的数据集，以学习SoM提示。

具体应用场景：

GUI导航：在图形用户界面中，通过视觉标记指导模型进行更准确的导航。
机器人交互：在机器人视觉系统中，使用视觉标记来提高机器人对环境的理解。
视觉问答：在视觉问答任务中，通过视觉标记提高模型对问题的理解能力。

list items one by one SoM-LLaVA

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：免费空间服务Easyupload.io：匿名分享文件最大 10 GB、保存 30 天

下一篇：英伟达推出NeRF-XL：利用多个GPU来扩展神经辐射场（NeRFs）的规模，从而使得训练和渲染具有更大容量的NeRFs成为可能

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录