多模态大语言模型

优惠 新型基准测试工具MUIRBENCH:用来评估多模态大语言模型在理解多图像方面的能力

  • 新型基准测试工具MUIRBENCH:用来评估多模态大语言模型在理解多图像方面的能力
    AI
  • 南加州大学、宾大、明尼苏达大学、加州大学戴维斯分校、威斯康星大学麦迪逊分校、加州大学洛杉矶分校、俄亥俄州立大学、字节跳动和微软研究院的研究人员推出新型基准测试工具MUIRBENCH,它专门用来评估多模态大型语 ...... 阅读全文

    优惠 全新评估基准Video-MME:用来测试多模态大语言模型在视频分析方面的表现

  • 全新评估基准Video-MME:用来测试多模态大语言模型在视频分析方面的表现
    AI
  • Video-MME Team推出全新评估基准Video-MME,它专门用来测试多模态大语言模型(MLLMs)在视频分析方面的表现。多模态意味着模型能够同时处理和理解视频、音频、文本等多种类型的数据。 项目主页:https://video-mme.g ...... 阅读全文

    优惠 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解

  • 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解
    AI
  • 南京大学研究人员推出新型多模态大语言模型AlignGPT,它特别关注于提升模型对视觉和语言信息之间对齐能力的理解。简单来说,AlignGPT就像是一个超级学霸,它不仅能看懂图片,还能理解文字,并且能把这两者关联起来, ...... 阅读全文

    优惠 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能

  • 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能
    AI
  • 腾讯发布基准测试工具SEED-Bench-2-Plus,它专门用于评估多模态大语言模型(MLLMs)在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍,例如图表、地图和网页等,它们都包含了大量的文本信息嵌入在 ...... 阅读全文

    优惠 如何提高多模态大语言模型(MLLMs)推理(inference)效率

  • 如何提高多模态大语言模型(MLLMs)推理(inference)效率
    AI
  • 高通发布论文探讨了如何提高多模态大语言模型(MLLMs)推理(inference)效率的问题。MLLMs是一类能够处理包括文本和图像在内的多种模态数据的模型,它们在现实世界中非常有用,因为我们的数据通常包含多种形式,如 ...... 阅读全文

    优惠 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力

  • 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力
    AI
  • 苹果推出一个升级版的多模态大语言模型Ferret-v2,专门设计用于提升图像理解和自然语言处理的能力。例如,你有一个智能助手,它不仅能理解你说的话,还能看懂图片里的内容,并根据图片和你的问题给出精确的回答。Fer ...... 阅读全文

    优惠 专门设计用于视频理解!多模态大语言模型MiniGPT4-Video

  • 专门设计用于视频理解!多模态大语言模型MiniGPT4-Video
    AI
  • 来自阿卜杜拉国王科技大学和哈佛大学推出多模态大语言模型MiniGPT4-Video,它专门设计用于视频理解,它通过结合视觉和文本数据,能够有效地理解和回应视频中的信息,为视频内容的智能分析和交互提供了新的可能性。想 ...... 阅读全文

    优惠 HyperLLaVA:用于增强多模态大语言模型(MLLMs)性能的技术

  • HyperLLaVA:用于增强多模态大语言模型(MLLMs)性能的技术
    AI
  • 来自浙江大学、上海科技大学、 重庆大学、 阿里巴巴集团和哈尔滨工业大学的研究团队推出HyperLLaVA,它是一种用于增强多模态大型语言模型(MLLMs)性能的技术。HyperLLaVA的目标是改进现有的MLLMs,如LLaVA,通过动 ...... 阅读全文

    优惠 阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型

  • 阿里推出DocOwl 1.5模型:用于理解文档图像的多模态大语言模型
    AI
  • 来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型,它是一种用于理解文档图像的多模态大语言模型(MLLM)。DocOwl 1.5特别强调了结构信息在理解文本丰富图像(如文档、表格、图表等)中的重要性,并提出了一 ...... 阅读全文

    优惠 苹果推出多模态大语言模型MM1

  • 苹果推出多模态大语言模型MM1
    AI
  • 苹果推出多模态大语言模型MM1,这是一个结合了图像和文本处理能力的AI模型。MM1通过在大规模的图像-文本数据上进行预训练,学会了理解和生成与图像相关的文本,例如图像描述、回答关于图像的问题等。 主要功能和特点 ...... 阅读全文

    优惠 经过改进的多模态大语言模型LLaVA-HR:专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能

  • 经过改进的多模态大语言模型LLaVA-HR:专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能
    AI
  • LLaVA-HR(LLaVA High-Resolution)是一个经过改进的多模态大语言模型(MLLM),它专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能。这个模型是基于LLaVA-1.5的架构,通过引入Mixture-of-Resolution Ad ...... 阅读全文

    优惠 基准测试MAD-Bench:系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力

  • 基准测试MAD-Bench:系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力
    AI
  • 关于评估多模态大语言模型(MLLMs)在处理欺骗性提示(deceptive prompts)时的脆弱性,来自苹果的研究人员创建了一个名为MAD-Bench的基准测试,它包含了850个测试样本,分为六个类别,如不存在的对象、对象数量、空 ...... 阅读全文