问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大语言模型的组合关系推理基准测试与解析

创作时间:
作者:
@小白创作中心

大语言模型的组合关系推理基准测试与解析

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_30102697

组合关系推理(CRR)是人类智能的重要特征,但目前我们对大语言模型(LLMs)在CRR任务中的表现和内部机制尚缺乏清晰的理解。近期,一篇发表在AAAI 2024的高分论文提出了一种新的合成基准——广义关联回忆(GAR),用于系统评估LLMs的CRR能力。通过该基准的测试,研究首次明确指出了大语言模型在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。

研究背景

组合关系推理(Compositional Relational Reasoning, CRR)是人类智能的标志性特征,但我们对现有 Transformer 架构的大语言模型(LLMs)是否以及如何解决 CRR 任务仍缺乏清晰的理解。为了系统性地探索 LLMs 在 CRR 方面的能力,研究者提出了一个新的合成基准测试——广义关联回忆(Generalized Associative Recall, GAR)。该基准通过整合和推广机制可解释性(Mechanistic Interpretability, MI)研究中的多个核心任务,将其统一到一个框架中。

研究方法

此前用于测试大型语言模型的基准,要么过于简单。比如,在测试大型语言模型时,常出现的是句子“完形填空”任务。这种任务无需理解字词之间的逻辑关系,仅依靠其预训练数据中的记忆就能作答,无法准确评估模型在复杂关系推理任务时的真实回路。为此,研究者首先设计了GAR基准,整合了多个经典任务,并通过不同的任务形式,如判别式任务和生成式任务,并根据难度进行分类,系统考察主流LLMs在CRR任务中的表现。

进一步,研究者采用归因修补技术,分析Vicuna-33B模型在不同任务中所用的核心回路机制和关键的注意力头。通过干预实验,研究者发现这些注意力头的正确运作对任务表现具有显著影响,尤其是在GAR任务中,激活代表真假概念的两类注意力头发挥了基础作用。


图 1. 广义联想回忆(GAR)的总体框架。

研究结果

实验结果表明,GAR基准尽管看似简单,但对于现有的LLMs,如开源的Llama-2/3 7B-70B和封闭源的GPT 3.5/4而言仍具有挑战性。随着模型规模的扩大,组合性差距反而增加,即能回答子问题,但难以有效整合得出最终结论,揭示出LLMs在CRR上的基本缺陷。研究者识别出两类注意力头,其激活分别表示GAR任务中的抽象真假概念。进一步的实验表明,这些头在各种模型和任务中均扮演了重要角色。


图 2. 已有大语言模型在GAR任务上的表现。

核心发现

研究揭示了Vicuna-33B在解决GAR任务时所利用的核心回路。通过归因修补,研究者发现了模型中重用的注意力头集,尤其是在分类任务中,识别出对真假判断至关重要的高阶关系头。在生成任务中,高阶局部头和高阶归纳头通过桥接不同上下文中的类关系头和预测头,促进了模型的上下文学习能力。


图 3. Vicuna-33B解决GAR问题时的回路机制。


图 4.Vicuna-33B部分重要注意力头的分析及干预效果。在图(a)中,(A)表示肯定生成任务,(N)为负生成任务。

重要性与应用

此研究首次识别并分析了真实LLMs中对CRR任务表现有重大影响的注意力头,并提供了可以在系统性MI研究中复用的核心回路。通过对这些注意力头的干预研究,验证了其在任务执行中的关键作用。这一发现为进一步改进LLMs的CRR能力提供了新的视角,也为复杂任务的MI研究提供了有力工具。总的来说,该研究不仅提升了我们对LLMs在组合关系推理方面的理解,还为未来在此领域的深入研究奠定了基础。

本文原文来自集智俱乐部,原文标题为《大语言模型的组合关系推理基准测试与解析》。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号