当前位置：首页 > 优惠 >大语言模型>文章详情

腾讯发布基准测试工具SEED-Bench-2-Plus：专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-27)| 分类：大语言模型 | 热度：327 ℃

已关闭评论

腾讯发布基准测试工具SEED-Bench-2-Plus，它专门用于评估多模态大语言模型（MLLMs）在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍，例如图表、地图和网页等，它们都包含了大量的文本信息嵌入在图像中。

针对性的评估：SEED-Bench-2-Plus包含2.3K个多项选择题，这些问题覆盖了现实世界中广泛的富含文本的场景，并且都有精确的人类标注答案。
三大类别：测试基准分为三个主要类别——图表（Charts）、地图（Maps）和网页（Webs），每个类别下又细分为63种具体的数据类型，以更细致地评估模型面临的挑战。
全面评估：报告中对34个著名的MLLMs（包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus）进行了评估，揭示了这些模型在文本丰富视觉理解方面的当前局限性。
公开可用：为了促进该领域的进一步研究，SEED-Bench-2-Plus的数据集和评估代码已经公开提供。