基准测试MAD-Bench:系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力

分类:大语言模型 | 热度:41 ℃

关于评估多模态大语言模型(MLLMs)在处理欺骗性提示(deceptive prompts)时的脆弱性,来自苹果的研究人员创建了一个名为MAD-Bench的基准测试,它包含了850个测试样本,分为六个类别,如不存在的对象、对象数量、空间关系和视觉混淆等,用以系统地检验MLLMs在面对文本提示和图像不一致时的冲突解决能力。

论文地址:https://arxiv.org/abs/2402.13220

主要功能:

  • 提供一个评估MLLMs在面对欺骗性信息时表现的基准测试。
  • 分析流行的MLLMs,如GPT-4V、Gemini-Pro等,以及开源模型如LLaVA-1.5和CogVLM。

主要特点:

  • MAD-Bench基准测试涵盖了多种类型的欺骗性场景,旨在全面评估MLLMs。
  • 实证研究显示,GPT-4V在处理欺骗性信息方面表现优于其他模型,但所有模型的性能仍有待提高。
  • 提出了一种简单的补救方法,通过在欺骗性提示前添加额外的段落来提高模型的准确性。

工作原理:

  • 使用GPT-4自动生成欺骗性提示,这些提示基于COCO数据集的真实描述。
  • 对生成的欺骗性问题进行严格的手动筛选,确保每个问题符合其欺骗性类别的标准并保持与相关图像的相关性。
  • 使用GPT-4评估10个模型的生成响应,主要关注响应是否被误导,不考虑其他质量方面如有帮助性。

具体应用场景:

  • 在需要高度准确性的AI应用中,如医疗成像、安全监控或自动驾驶车辆的视觉理解,MLLMs的准确性至关重要。
  • 在开发和部署AI系统时,确保模型能够抵抗欺骗性信息,提高其在现实世界应用中的可靠性和可信度。
  • 为研究人员提供一个资源,以刺激进一步研究,增强模型对欺骗性提示的抵抗力
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论