当前位置：首页 > 优惠 >大语言模型>文章详情

CLoVe：提高现有的视觉-语言模型（VLMs）在处理组合语言时的能力

推荐人：暴走AI| 商城: AI | 2年前 (2024-02-26)| 分类：大语言模型 | 热度：713 ℃

已关闭评论

密歇根大学安娜堡分校、Netflix的研究人员发布论文介绍了一个名为CLoVe（Contrastive Language-Image Vision Models）的框架，旨在提高现有的视觉-语言模型（VLMs）在处理组合语言时的能力。VLMs，如CLIP模型，通常在识别图像中的对象方面表现出色，但在理解文本中单词顺序变化带来的意义变化方面存在不足。例如，CLIP在ImageNet这样的图像识别任务上表现很好，但在需要理解复杂场景的组合性任务上却表现不佳。

论文地址：https://arxiv.org/abs/2402.15021

GitHub：https://github.com/netflix/clove

主要功能和特点包括：

组合语言编码能力提升：CLoVe框架能够在保持或提高标准对象识别和检索任务性能的同时，显著提高模型在组合性语言任务上的表现，例如在SugarCrepe组合性基准测试中实现了超过10%的绝对提升。
数据策划和硬负例训练：CLoVe通过使用合成的图像描述数据集（如LAION-COCO）和在训练中加入硬负例文本，来增强模型的组合语言处理能力。
模型修补技术：CLoVe采用模型修补技术，结合预训练模型和经过特定任务微调的模型，以保持在原有任务上的性能。

工作原理：