阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型

分类:大语言模型 | 热度:69 ℃

来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型,它是一种用于理解文档图像的多模态大语言模型(MLLM)。DocOwl 1.5特别强调了结构信息在理解文本丰富图像(如文档、表格、图表等)中的重要性,并提出了一种统一结构学习方法来提升MLLM的性能。

GitHub地址:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

论文地址:https://arxiv.org/abs/2403.12895

Demo:https://huggingface.co/spaces/mPLUG/DocOwl

主要功能和特点:

  • 统一结构学习: DocOwl 1.5通过结构感知的解析任务和多粒度文本定位任务,跨五个领域(文档、网页、表格、图表和自然图像)进行学习。
  • 高效的视觉到文本模块: 设计了一个名为H-Reducer的模块,通过合并水平相邻的补丁来减少视觉特征的长度,同时保持布局信息,使模型更高效地理解高分辨率的文档图像。
  • 全面的训练数据集: 构建了一个名为DocStruct4M的综合训练集,用于支持结构学习。
  • 推理调优数据集: 为了激发模型在文档领域的详细解释能力,构建了一个高质量的指令调优数据集DocReason25K。

工作原理: DocOwl 1.5遵循典型的MLLM架构,包括视觉编码器、视觉到文本模块和大型语言模型作为解码器。它首先通过形状自适应裁剪模块处理高分辨率图像,然后使用H-Reducer将图像特征转换为序列,最后通过大型语言模型进行解码以生成输出。

具体应用场景:

  • 文档理解: 可以用于解析和理解各种文档图像,如合同、报告、论文等。
  • 信息提取: 从表格和图表中提取关键信息,如财务报表、统计数据等。
  • 视觉问答: 回答与文档图像内容相关的问题,如用户询问文档中的特定信息。
  • 图像字幕: 为包含文本的自然图像生成描述性字幕。

总的来说,DocOwl 1.5是一个强大的工具,它通过结合视觉和语言模型的优势,提高了对文本丰富图像的理解和解释能力,特别适用于需要从文档图像中提取和理解结构化信息的场景。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论