当前位置：首页 > 优惠 >大语言模型>文章详情

开源多模态大语言模型InternVL 1.5，旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-27)| 分类：大语言模型 | 热度：237 ℃

已关闭评论

来自上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学和香港中文大学的研究人员推出开源多模态大语言模型InternVL 1.5，旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距。多模态大语言模型结合了视觉和语言处理的能力，可以处理包含文本和图像的任务，比如解释图片内容、理解文档中的文本等。

GitHub：https://github.com/OpenGVLab/InternVL
模型：https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
Demo：https://internvl.opengvlab.com

例如，你有一个包含图表和文本的文档，需要提取其中的信息并回答有关文档内容的问题。InternVL 1.5可以阅读和理解文档的视觉和语言内容，然后以自然语言的形式回答问题。例如，如果图表展示了不同年份的云服务市场规模，InternVL 1.5可以计算并告诉你最高和最低收入年份之间的市场规模差异。

开源多模态大语言模型InternVL 1.5，旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距

主要功能和特点：

强大的视觉编码器：通过连续学习策略提升了大规模视觉基础模型InternViT-6B的视觉理解能力，使其能够在不同的大型语言模型中迁移和重用。
动态高分辨率处理：模型能够根据输入图像的宽高比和分辨率动态地将图像分割成448×448像素的小块，支持高达4K分辨率的输入。
高质量双语数据集：精心收集并标注了涵盖常见场景、文档图像的高质量双语（英语和中文）数据集，显著提升了模型在光学字符识别（OCR）和中文相关任务中的性能。
竞争性能：在18个代表性的多模态基准测试中，InternVL 1.5在8个测试中实现了最先进的结果，与商业模型相比显示出竞争性能。

工作原理：

InternVL 1.5采用了类似于其他流行的开源MLLMs的架构，结合了预训练的InternViT-6B和InternLM2-20B模型。在训练过程中，模型采用了动态分辨率策略，将图像分割成不同数量的448×448像素小块。此外，为了捕获全局上下文，还额外包含了整个图像的缩略图。模型通过这种设计能够在不同的视觉领域中灵活适应，同时保持对输入图像细节的敏感性。