陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

创作时间:

作者:

@小白创作中心

陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

引用

澎湃

https://m.thepaper.cn/newsDetail_forward_27896358

在AI大模型的图表理解能力评测领域，普林斯顿大学陈丹琦团队最新发布的CharXiv数据集带来了突破性进展。该数据集包含2323张arXiv论文中的真实图表，相比以往的评测基准，CharXiv在任务类型和难度上都有显著提升。评测结果显示，Claude 3.5 Sonnet在推理能力上表现最好但仅及格，开源模型中微软的Phi-3表现突出。

CharXiv数据集的特点

CharXiv数据集由人类专家从arXiv论文中精心选择了2323个真实图表。相比此前的FigureQA等测试基准，CharXiv涵盖的任务类型更加广泛，而且不按套路出牌，难度大幅增加。

为了宣传这套新Benchmark，研究团队还写出了一首洗脑神曲，并制作了视频宣传片。这段魔性的宣传片，让有些网友表示已经被成功“洗脑”，脑海中充满了（歌词中的）“2323张图表”。

评测方法与分类

根据重点考察能力的不同，作者将测试题目分成了两类——描述性问题和推理性问题。两类问题的比例为4:1，即每张图表配有4个描述性问题和1个推理性问题。

描述性问题

描述性问题包括信息提取（Information extraction）、列举（Enumeration）、计数（Counting）、模式识别（Pattern recognition）等等。这当中，模式识别指的是要求模型识别图表中数据的趋势和分布模式，如线条是否相交、数据是递增还是递减等。

另外还有较难的组合型（Compositionality）任务，模型需要综合多个视觉元素的信息回答问题，体现图表信息的组合理解。

比如这道题目就是一道组合型的描述类问题，它需要在识别清楚坐标轴的同时，完成计数的任务：

在当前的图表中，所有坐标轴中一共有多少明确标记的刻度？（这里问的是标记的数量，不是求和）

推理性问题

推理性问题则根据答案出现的方式又分为了四个子类：

Text-in-chart：问题的答案是图表中出现的文本，如图例标签、离散刻度标签等。
Text-in-general：问题的答案是一个易于验证的文本短语，但不一定显式出现在图表中。
Number-in-chart：问题的答案是图表中给出的一个数值，如坐标轴刻度值。
Number-in-general：问题的答案是一个精确到特定小数位数的数值，但可能需要通过阅读和推理才能得出，而不一定直接出现在图表中。

举个例子，下面的问题要求模型对表格中各列的数值进行求和，然后比较后给出和最小的一列对应的标签，这就是一项推理型任务。

评测结果与发现

在推理类问题上，作者发现所有模型的表现都不是很理想。表现最好的是真人，模型当中则是Claude 3.5 Sonnet，不过也仅仅及格，和人相比还是差了四分之一，成绩超过40的模型一共也只有三个。紧随其后的是GPT-4o、Gemini 1.5 Pro和Claude 3家族，有意思的是，Claude 3的“超大杯”Opus，表现还不如小一些的Sonnet和Haiku。

开源模型中，表现最好的是微软的“小”模型Phi-3，参数量一共只有4B，成绩却跻身到了Claude 3家族的中间。