当前位置：首页 > 优惠 >大语言模型>文章详情

英特尔推出多模态基础模型（MMFM）套件LLaVA-Gemma

推荐人：暴走AI| 商城: AI | 2年前 (2024-04-03)| 分类：大语言模型 | 热度：651 ℃

已关闭评论

英特尔推出多模态基础模型（MMFM）套件LLaVA-Gemma，它利用了最近发布的Gemma系列大语言模型（LLMs）。特别是2B参数的Gemma模型，为构建能力强大的小型多模态基础模型提供了机会。LLaVA-Gemma模型在多种评估中表现中等，但未能超越当前类似规模的最先进模型。研究者们对三个设计特征进行了测试：预训练连接器、使用更强大的图像骨干网络，以及增加语言骨干网络的规模。这些模型的分析显示了混合的效果；跳过预训练倾向于降低性能，更大的视觉模型有时能提高性能，而增加语言模型的规模效果不一致。

例如，如果用户想要了解一张图片中的内容，比如“图片里的鸭子是在游泳还是在漂浮？”LLaVA-Gemma可以分析图像并结合语言理解来回答这个问题。在教育领域，这样的模型可以帮助创建互动式学习材料，让学生通过图像和文字更直观地理解复杂概念。在自动图像标注应用中，LLaVA-Gemma可以为视觉内容生成准确的描述，提高搜索引擎的准确性和效率。

llava-gemma-2b ：https://huggingface.co/Intel/llava-gemma-2b/tree/main

llava-gemma-7b：https://huggingface.co/Intel/llava-gemma-7b/tree/main

主要功能和特点：

多模态交互： LLaVA-Gemma模型能够处理视觉和语言信息，进行有效的多模态交互。
不同规模的模型： 提供了两种不同参数规模的模型（Gemma-2B和Gemma-7B），以探索计算效率与视觉和语言理解丰富性之间的权衡。
独特的令牌集： Gemma模型使用了比其它大型语言模型更多的独特令牌（256k），这提供了研究大量增加的令牌集如何影响多模态性能的机会。

工作原理：

LLaVA框架： LLaVA-Gemma遵循LLaVA框架，结合了预训练的视觉编码器（如CLIP）和预训练的语言模型（如Gemma），通过MLP连接器和两阶段训练过程构建多模态模型。
训练过程： 第一阶段预训练MLP连接器，冻结视觉和语言模型，并在自定义数据集上进行训练。第二阶段联合微调语言模型和连接器，使用自定义的多模态指令调整示例混合物。
设计选择的影响： 研究者们通过实验分析了不同设计选择对模型性能的影响，包括预训练步骤的跳过、视觉编码器的选择，以及语言模型规模的增加。

具体应用场景：