当前位置：首页 > 优惠 >大语言模型>文章详情

用于视觉指令调优（Visual Instruction Tuning）的数据集VISION-FLAN

推荐人：暴走AI| 商城: AI | 2年前 (2024-02-21)| 分类：大语言模型 | 热度：869 ℃

已关闭评论

来自弗吉尼亚理工大学、华盛顿大学、密歇根大学、亚马逊、微软、Meta AI的研究人员推出用于视觉指令调优（Visual Instruction Tuning）的数据集VISION-FLAN。这个系统旨在提高视觉语言模型（VLMs）在理解和执行视觉任务方面的能力，特别是在处理多样化任务和遵循人类偏好方面。

论文地址：https://arxiv.org/abs/2402.11690

主要功能：

VISION-FLAN的核心功能是提供一个多样化的视觉指令调优数据集，这个数据集包含了187个不同的任务，涵盖了从物体检测、光学字符识别（OCR）到图像质量分类等多种视觉任务。每个任务都配有专家编写的指令，帮助模型更好地理解任务需求。

主要特点：

多样性：VISION-FLAN包含了大量的多样化任务，这有助于提高模型的泛化能力，使其能够处理各种不同的视觉问题。
专家指令：每个任务都配有专家编写的指令，确保了任务描述的准确性和清晰性。
两阶段调优框架：VISION-FLAN提出了一个两阶段的调优框架，首先在VISION-FLAN数据集上对模型进行微调，然后在GPT-4合成数据上进一步微调，以更好地符合人类偏好。

工作原理： VISION-FLAN的工作原理分为两个阶段。首先，使用预训练的大型语言模型（LLM）和图像编码器（如CLIP-ViT）作为初始模型，然后在VISION-FLAN数据集上进行微调，以获得多样化的能力。接着，为了使模型的输出更符合人类偏好，使用少量的GPT-4合成数据进行第二阶段的微调。这个过程中，模型学会了如何理解和回应视觉指令，同时避免了过度依赖GPT-4合成数据可能导致的幻觉和灾难性遗忘问题。

具体应用场景： VISION-FLAN可以应用于多种场景，包括但不限于：