开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距

分类:大语言模型 | 热度:7 ℃

来自上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学和香港中文大学的研究人员推出开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距。多模态大语言模型结合了视觉和语言处理的能力,可以处理包含文本和图像的任务,比如解释图片内容、理解文档中的文本等。

  • GitHub:https://github.com/OpenGVLab/InternVL
  • 模型:https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
  • Demo:https://internvl.opengvlab.com

例如,你有一个包含图表和文本的文档,需要提取其中的信息并回答有关文档内容的问题。InternVL 1.5可以阅读和理解文档的视觉和语言内容,然后以自然语言的形式回答问题。例如,如果图表展示了不同年份的云服务市场规模,InternVL 1.5可以计算并告诉你最高和最低收入年份之间的市场规模差异。

开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距

主要功能和特点:

  1. 强大的视觉编码器:通过连续学习策略提升了大规模视觉基础模型InternViT-6B的视觉理解能力,使其能够在不同的大型语言模型中迁移和重用。
  2. 动态高分辨率处理:模型能够根据输入图像的宽高比和分辨率动态地将图像分割成448×448像素的小块,支持高达4K分辨率的输入。
  3. 高质量双语数据集:精心收集并标注了涵盖常见场景、文档图像的高质量双语(英语和中文)数据集,显著提升了模型在光学字符识别(OCR)和中文相关任务中的性能。
  4. 竞争性能:在18个代表性的多模态基准测试中,InternVL 1.5在8个测试中实现了最先进的结果,与商业模型相比显示出竞争性能。

工作原理:

InternVL 1.5采用了类似于其他流行的开源MLLMs的架构,结合了预训练的InternViT-6B和InternLM2-20B模型。在训练过程中,模型采用了动态分辨率策略,将图像分割成不同数量的448×448像素小块。此外,为了捕获全局上下文,还额外包含了整个图像的缩略图。模型通过这种设计能够在不同的视觉领域中灵活适应,同时保持对输入图像细节的敏感性。

具体应用场景:

  1. 文档理解:可以用于理解和解释文档中的文本内容,包括OCR任务。
  2. 图像问答:能够回答有关图像内容的问题,如识别图像中的对象或场景。
  3. 多模态对话:在对话系统中,可以结合视觉和语言信息,提供更加丰富和准确的交互体验。
  4. 科学图像理解:能够解读和分析科学图表和图像,支持科学研究和教育。
  5. 跨语言理解:得益于双语数据集,模型能够处理和理解中英文本,适用于多语言环境。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论