资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

识别高分低能，综合性视觉语言理解新基准，五项挑战评估多模态模型的推理能力

创作时间:

作者:

@小白创作中心

识别高分低能，综合性视觉语言理解新基准，五项挑战评估多模态模型的推理能力

引用

来源

https://hub.baai.ac.cn/view/43738

多模态模型在学术基准测试中获得高分，到了真实世界应用时却表现不及预期，该如何分辨？新的综合性视觉语言理解基准JourneyBench，利用基于diffusion模型提示生成的图像，并采用一种新颖的人机闭环框架，通过五项具有挑战性的任务来评估多模态模型的推理能力。

研究背景

JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出，是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。

团队认为尽管现有的视觉语言理解的评价基准推动了显著进展，但它们通常包含有限的视觉多样性，并且场景的复杂性低于日常生活中遇到的情况：

许多基准因互联网图片的版权限制，将其图像分布限制在像COCO或Flickr这样的平台和资源中。
这些基准往往限制于日常常见的物体和场景，而非罕见甚至微抽象的场景。
这些基准的过分同质化的数据在模型的预训练中也多有出现，模型很容易通过学习到的偏见在测试中表现优异，但不一定真正理解图像内容。

这种偏见、偏差可能会在学术基准测试中提高分数，但在过渡到真实复杂的世界应用时却会带来显著挑战。

此外，用于评估多模态链式数学推理的基准常常包含冗余的视觉内容（即视觉信息并不需要，模型就可以回答问题的内容）。当前的多模态链式数学推理基准也未能充分解决其他的关键问题，例如幻觉现象和预测一致性。在检索任务的基准测试中，模型的性能接近人类水平，难以区分不同模型。这种性能饱和部分是由于现有检索基准缺乏细粒度的细节，对当今强大的模型缺乏足够的挑战性。

基于diffusion模型的提示生成的图像近些年兴起，这为创造更具挑战性和全面的多模态基准提供了独特的机会。与真实图像不同，这些生成的图像避免了版权问题，并提供了多样化的视觉内容，从而能够设计更具挑战性和注重细微差别的测试场景。

生成图像可以结合罕见的概念，例如“马卡龙上的大象”，这在传统数据集中极为罕见，但对于评估模型对视觉概念的真实理解至关重要。COCO中包含的对象关系在常识数据库ConceptNet中占68%，而我们收集的生成图像中仅占6%。
此外，随着生成图像变得越来越逼真，并在网上大量涌现，将其纳入基准以评估模型理解和解释多样化视觉场景的能力将变得日益重要。
通过利用基于提示生成的图像，可以克服现有基准的局限性，提供更好的可控性和视觉内容多样性。这种方法能够严格测试模型的幻觉倾向、一致性，以及在各种不可预测环境中有效运行的能力。

数据介绍

JourneyBench用五项多模态理解任务测试模型在罕见场景中的推理应用能力：

非常见图像的描述(Unusual Image Captioning)

图像描述是VLU基准测试中的标准任务，JourneyBench旨在测试模型理解和描述虚构图像的能力。为了利用基于提示生成的图像进一步推动 VLU 评估的边界，并测试现有模型在之前评估工作中被忽略的能力，JourneyBench特别关注虚构图像。被测试模型需要生成一句话的图像描述，突出使其成为虚构图像的元素。

细粒度跨模态检索(Fine-grained Cross-modal Retrieval)

跨模态检索是许多基准中包含的一项基础性多模态理解的任务。给定一张图像，其目标是检索匹配的文本，反之亦然。然而现在有的扩模态检索缺乏样本为中心的干扰选项，致使模型只需关注图像之间的整体不同而非object-level的细粒度的不同。

多模态链式数学推理(Multimodal Chain-of-Thought)

在多模态链式数学推理任务中，输入由一张图像和一个问题组成，两个模态的信息绝不重合并且强制互补，要求模型整合来自两种模态的信息来进行链式的数学推理。JourneyBench不单单检测最终答案的准确性，也会评审答题思路的准确性。

多图像视觉问答(Multi-image VQA)

该任务要求模型在视觉问答中对多张图像进行推理。然而，由于真实图像资源有限，现有数据集主要测试模型的基本能力，例如颜色匹配、图文匹配和物体计数。相比之下，JourneyBench 评估三个特定的能力且延伸到更有挑战性的推理类别，比如：第一次提出多图片的多模态算术推理、将外部知识应用于视觉推理以及识别多模态因果关系。这是目前最大的多图片视觉问答数据资源。

包含幻觉触发的开放式视觉问答(VQA with Hallucination Triggers)

基于之前HaloQuest的工作，JourneyBench也包含了容易从三种模态(文字，图片和外部知识)来触发模型进行幻觉的问题。这些问题都围绕着基于diffusion模型提示生成的各种非常见图像。该任务包含三个类别的问题，对应着三种触发模态，旨在触发模型的幻觉：带有错误前提的问题(幻觉触发存在于语言模态)、询问挑战性视觉细节的问题(幻觉触发存在于视觉模态)和最后缺乏足够上下文以进行准确解释的问题(幻觉触发存在于外部知识)。

实验与分析

研究选取了共21个多模态模型用以不同任务的实验分析，其中包括：

跨模态检索模型：ALBEF、CLIP
开源通用模型：MiniGPT4、mPLUG
开源多图像模型：VILA、Idefics2、Mantis
闭源模型：GPT-4V、GPT-4o

研究发现：

模型在区分细粒度视觉细节方面存在困难。在JourneyBench中的检索分数低于MS-COCO和Flickr30k，表明模型在从我们数据集中检索文本和图像时面临更大的挑战。
模型对非常见以及虚构的视觉场景并不适应。大多数模型在JourneyBench上的表现远逊于在其他图像描述数据集上的表现，其中大部分模型的CIDEr得分低于30。
跨模态算术推理中具有挑战性。除GPT和LLaVA外，大多数其他模型得分低于10%。值得注意的是，GPT-4V和GPT-4o在包含众多物体的视觉环境中，在一致性、幻觉和跨模态方面表现不佳。
多张图像的跨模态问答极具挑战性。总体来看，各种模型在JourneyBench中跨多张图像问答时遇到了极大的困难，特别实在多图像的夸模态数学推理，外部知识的推理问答和因果关系的判别。

现有的VLMs视觉和语言的多模态模型在幻觉问题上表现不佳，显示出较高的幻觉率。这一结果表明模型能力存在显著不足，并突出了需要有效的幻觉缓解方法。此外，模型规模的增加并不一定代表能提高其对幻觉的抵抗能力。

结论

JourneyBench是一种全新的多模态理解和推理的基准，用于测试模型在各种任务中对不寻常或虚构图像的理解能力，包括多模态链式数学推理、多图像VQA视觉问答、非常见和虚幻图像的描述、侧重幻觉的视觉问答以及细粒度的跨模态检索。JourneyBench的任务使之前所有测试过的高评分模型在评估中得分持续较低，突显出其不寻常或虚构图像的主题、策略性设计的干扰项、引发幻觉的问题以及需要跨模态共指的问题所带来的挑战。这使得JourneyBench成为评估先进多模态视觉和语言模型MM-LLMs能力的理想工具，推动这些模型在理解和解释能力上的极限。

项目链接：https://journeybench.github.io/