多模态大语言模型

优惠 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能

  • 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能
    AI
  • 腾讯发布基准测试工具SEED-Bench-2-Plus,它专门用于评估多模态大语言模型(MLLMs)在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍,例如图表、地图和网页等,它们都包含了大量的文本信息嵌入在图像中。 主要功能和特点: 针对性的评估:SEED-Bench-2-Plus包含2.3K个多项选择... 阅读全文

    优惠 如何提高多模态大语言模型(MLLMs)推理(inference)效率

  • 如何提高多模态大语言模型(MLLMs)推理(inference)效率
    AI
  • 高通发布论文探讨了如何提高多模态大语言模型(MLLMs)推理(inference)效率的问题。MLLMs是一类能够处理包括文本和图像在内的多种模态数据的模型,它们在现实世界中非常有用,因为我们的数据通常包含多种形式,如文本、图片等。然而,这些模型在处理数据时往往速度较慢,因为它们需要逐个生成令牌(tokens),并且受... 阅读全文

    优惠 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力

  • 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力
    AI
  • 苹果推出一个升级版的多模态大语言模型Ferret-v2,专门设计用于提升图像理解和自然语言处理的能力。例如,你有一个智能助手,它不仅能理解你说的话,还能看懂图片里的内容,并根据图片和你的问题给出精确的回答。Ferret-v2就是这样一个系统,它能够识别和描述图片中的物体,理解图片中的细节,并根据这些信息回答有关图片的问... 阅读全文

    优惠 专门设计用于视频理解!多模态大语言模型MiniGPT4-Video

  • 专门设计用于视频理解!多模态大语言模型MiniGPT4-Video
    AI
  • 来自阿卜杜拉国王科技大学和哈佛大学推出多模态大语言模型MiniGPT4-Video,它专门设计用于视频理解,它通过结合视觉和文本数据,能够有效地理解和回应视频中的信息,为视频内容的智能分析和交互提供了新的可能性。想象一下,你在看一个视频,想要一个智能系统不仅能理解视频中的图像内容,还能理解视频中的文字对话。MiniGP... 阅读全文

    优惠 HyperLLaVA:用于增强多模态大语言模型(MLLMs)性能的技术

  • HyperLLaVA:用于增强多模态大语言模型(MLLMs)性能的技术
    AI
  • 来自浙江大学、上海科技大学、 重庆大学、 阿里巴巴集团和哈尔滨工业大学的研究团队推出HyperLLaVA,它是一种用于增强多模态大型语言模型(MLLMs)性能的技术。HyperLLaVA的目标是改进现有的MLLMs,如LLaVA,通过动态调整模型的视觉和语言处理部分,使其能够更好地理解和生成与视觉内容相关的文本。总的来... 阅读全文

    优惠 阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型

  • 阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型
    AI
  • 来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型,它是一种用于理解文档图像的多模态大语言模型(MLLM)。DocOwl 1.5特别强调了结构信息在理解文本丰富图像(如文档、表格、图表等)中的重要性,并提出了一种统一结构学习方法来提升MLLM的性能。 GitHub地址:https://github.com... 阅读全文

    优惠 苹果推出多模态大语言模型MM1

  • 苹果推出多模态大语言模型MM1
    AI
  • 苹果推出多模态大语言模型MM1,这是一个结合了图像和文本处理能力的AI模型。MM1通过在大规模的图像-文本数据上进行预训练,学会了理解和生成与图像相关的文本,例如图像描述、回答关于图像的问题等。 主要功能和特点: 多模态理解与生成: MM1能够处理和理解图像和文本数据,生成与图像内容相关的文本。 大规模预训练: 通过在... 阅读全文

    优惠 经过改进的多模态大语言模型LLaVA-HR:专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能

  • 经过改进的多模态大语言模型LLaVA-HR:专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能
    AI
  • LLaVA-HR(LLaVA High-Resolution)是一个经过改进的多模态大语言模型(MLLM),它专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能。这个模型是基于LLaVA-1.5的架构,通过引入Mixture-of-Resolution Adaptation (MRA) 技术,使得模型能够更有效... 阅读全文

    优惠 基准测试MAD-Bench:系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力

  • 基准测试MAD-Bench:系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力
    AI
  • 关于评估多模态大语言模型(MLLMs)在处理欺骗性提示(deceptive prompts)时的脆弱性,来自苹果的研究人员创建了一个名为MAD-Bench的基准测试,它包含了850个测试样本,分为六个类别,如不存在的对象、对象数量、空间关系和视觉混淆等,用以系统地检验MLLMs在面对文本提示和图像不一致时的冲突解决能力... 阅读全文