标签词作为锚点:从信息流视角理解上下文学习
标签词作为锚点:从信息流视角理解上下文学习
大型语言模型(LLMs)如何通过上下文学习(In-context Learning,ICL)机制从提供的上下文中学习?一篇发表在2023年EMNLP会议上的论文从信息流的角度,为我们揭示了这一过程的关键机制。研究者发现,标签词在演示例子中起到了信息锚点的作用,通过标签词,模型可以有效地聚合和分发任务相关的信息流。这一发现不仅加深了我们对LLMs工作机制的理解,还为提高ICL的有效性、效率和可解释性提供了新的思路。
本文探讨了大型语言模型(LLMs)如何通过上下文学习(ICL)机制从提供的上下文中学习。首先,研究者提出了一个假设,即标签词在演示例子中起到锚定的作用。研究者认为语义信息在浅层计算层处理过程中聚集到标签词的表示中,这些整合的信息被用作LLMs最终预测的参考。然后,为了验证假设,进行了一系列实验:首先,研究者观察了标签词在处理过程中的语义信息聚合情况;其次,分析了这些整合信息如何影响LLMs的最终预测;最后,使用这些发现来改进ICL性能、加速推理并诊断ICL错误。通过信息流的角度,研究者揭示了LLMs如何从上下文中学习的机制。基于这些发现,该工作中提出了三种应用方式:
(1)一种锚点重新加权方法来提高ICL性能;
(2)一种示范压缩技术来加速推理;
(3)一个分析框架来诊断GPT2-XL中的ICL错误
这些应用进一步证实了研究者揭示的ICL工作机制,并为未来的研究铺平了道路。
1 提出假设
研究者们通过信息流的视角分析了LLMs在ICL过程中的行为,并提出了一个假设,即标签词在ICL中充当信息流的锚点。具体来说:
(1)在浅层计算层,标签词聚集了来自示范示例的语义信息,形成了深层计算层所需的语义表示。
(2)在深层计算层,模型从标签词中提取信息以形成最终预测。
图1:假设说明。在浅层,标签词从演示中收集信息以形成语义表示以进行更深入的处理,而深层从标签词中提取并利用这些信息来制定最终预测。
1.1 基于显着性分数的假设
该部分工作旨在发现GPT模型中令牌间注意力交互的内在模式。显著性技术是一种常用的解释工具,用于突出关键的标记交互。按照通常的做法,使用泰勒展开式来计算注意力矩阵中每个元素的显著性得分:
这里,
是第
层中第
个注意力头的注意力矩阵的值,x 是输入,L (x) 是任务的损失函数,例如,分类问题的交叉熵目标。研究者们对所有的注意力头进行平均,得到第
层的显著性矩阵
。
表示从第 j 个词到第 i 个词的信息流对于ICL的重要性。通过观察
,可以得到一个直观的印象,随着图层的加深,示范标签词对于预测会变得更加占优势。
为了对这一现象有更清晰的认识,研究者在
的基础上提出了三个定量指标。该工作的重点在于三个部分:
(1)标签词,如图1中的“Negative”和“Positive”,记为
,其中 C 表示标签词的总数;
(2)目标位置,模型生成预测标签(即,输入中的最终标记),记为q;
(3)文本部分,即演示文稿中标注词前的标记。
3个定量指标的定义如下:
,从文本部分到标签单词的信息流的平均意义:
,从标签词到目标位置信息流的平均显著性:
,为所有词之间信息流的平均显著性,不包括以
和
表示的影响:
、
和
有助于评估模型中不同的信息流。
表示对标签词的信息聚合强度。高的
表明从标签词中提取的信息对最终决策有很强的作用。
衡量了词与词之间的平均信息流,作为衡量
和
所识别的模式强度的基准。
1.2 实验设置
该工作从GPT系列中选择了GPT2-XL作为主要研究对象,因为它具有适合该工作硬件资源的适中的模型大小 (1.5B参数) 和良好的ICL性能。对于数据集,该工作使用Stanford Sentiment树库Binary ( SST-2 ) 进行情感分析,Text REtrieval Conference Question Classification ( TREC ) 进行问题类型分类,AG的新闻主题分类数据集 ( AGNews ) 进行主题分类,EmoContext ( EmoC ) 进行情感分类。研究者从测试集中抽取1000个示例进行评估,从训练集中每类抽取一个示例。更多的演示实验也得到了类似的结果。结果反映了5个随机种子的平均值。
1.3 结果和分析
图2显示:(1)在浅层,从标签词到目标位置的信息流
的显著性较低,而从文本部分到标签词的信息流
的显著性较高;(2)在深层
中,从标签词到目标位置的信息流的重要性成为主导。值得注意的是,
和
通常超过
,这表明涉及标签词的互动比其他互动更重要。
图2:SST-2 和 AGNews 上不同层的Swp、Spq和Sww的相对大小。其他数据集的结果在原文 Apendix B 中。
最初,Swp占很大比例,但它逐渐在层上衰减,而Spq成为主导层。
1.4 提出假设
基于此,研究者提出标签词在ICL信息流中起锚定作用的假设。在浅层,标签词从示范实例中收集信息,形成深层的语义表示;在深层,模型从标签词中提取信息,形成最终的预测。图1为假设提供了一个说明。
2 验证假设
2.1 浅层:信息聚合
在这一部分中,验证了假设的第一个组件。上文介绍的假设 ICL 中的信息聚合依赖于从文本部分到标签标记的信息流,这是由 Transformer 的注意力机制推动的。通过操纵模型中的注意力层来阻止这种信息流,并检查模型行为的变化,验证了信息聚合过程的存在及其对最终预测的贡献。
2.1.1 实验设置
保留了与1.1节相同的 1000 个输入的测试样本大小。研究者对单个随机种子使用相同的演示。为了进一步验证我们在更大模型上的结果,研究者在实验中结合了 GPT-J (6B) ,在模型大小和容量上超过了 GPT2-XL。
2.1.2 实现细节
为了阻止信息流标记单词,该工作通过操纵注意力矩阵 A 来隔离标签单词。具体来说,在第 层的注意矩阵
中将
设置为 0,其中
表示标签词,
表示前面的词。因此,在第
层,标签词无法访问来自先前示范文本的信息。
2.1.3 指标
该工作中使用以下指标来评估阻止信息流从文本部分到标签标记标记的影响:
(1)标签忠诚度:测量有和没有隔离的输出标签的一致性。
(2)词忠诚度:使用 Jaccard 相似度来比较有和没有隔离的前5个预测词,捕获更微妙的模型输出更改。
低忠诚度表明隔离对模型预测产生了深远的影响。
2.1.4 结果和分析
图3 说明了在前5层内隔离标签词时对模型行为有显着影响。然而,这种影响在最后5层内变得无关紧要,或者当使用随机非标签词时。这一观察结果强调了通过 ICL 中的标签词聚合浅层信息的基本重要性。它还强调了标签词相对于非标签词的优越性。对可变数量的层的进一步测试重申这些发现。此外,在测试具有语义不相关标签的 ICL 时获得了类似的结果。
图3:隔离标签词与在前5层或最后5层内随机隔离非标签词的影响。在前5层中分离出标签词会产生最显着的影响,突出了浅层信息通过标签词聚合的重要性。
2.2 深层:信息提取
本节继续验证假设的后半部分,即模型从标签词中提取信息以形成最终预测。将第
层的注意力矩阵之和表示为
在更深的层中,发现目标位置的标签词上的注意力分布之间存在很强的相关性,表示为
和模型最终预测,证实了第1节的假设。
2.2.1 实验设置
研究者利用 AUC-ROC 分数来量化
和模型预测之间的相关性,该工作中将其表示为第
层的 AUCROCl。由于两个主要原因,我们更喜欢 AUC-ROC 度量:
(1)
可能与模型输出标签 i 的概率相差一个常数因子。正如Kobayashi等人所指出的,注意力应该乘以关键向量的范数,以产生“更可解释的注意力”。AUC-ROC 指标可以隐含地解释这些因素,从而允许研究者们更有效地发现相关性。
(2)模型输出的不同标签的比例可能不平衡。使用 AUC-ROC 指标可以帮助缓解这个问题,减少类不平衡引起的干扰。考虑到变压器的残差机制,可以将每一层的隐藏状态视为所有先前层计算的累积效应。为了量化前
层对模型预测的累积贡献,该工作中引入了
:
该度量跟踪基线 AUC-ROC 阈值 0.5 以上的积极贡献。
的值表示前
层对模型预测的比例贡献。
2.2.2 结果和分析
图4a和4b描述了 GPT2-XL 和 GPT-J 的相关指标,在四个数据集上取平均值。深层的 AUCROCl 接近 0.8,说明了目标位置标签词的注意力分布与模型最终预测之间的强相关性。此外,浅层显示出可忽略的累积贡献
,中间层和深层显着增加。这些结果表明深层对最终预测的关键作用,验证了模型从深层的标签词中提取信息以形成最终预测。
图4:GPT 模型中每一层的 AUCROCl 和 R_l。结果在 SST-2、TREC、AGNews 和 Emoc 上取平均值。AUCROCl 在深层达到 0.8,主要在中间层和后面的层中增加。
3 讨论假设
基于上述实验结果,研究者们提出了标签词在ICL信息流中充当锚点的假设,并在浅层和深层网络中验证了这一假设。
通过两个实验,研究者们证实了假设,即标签词在ICL中起着关键的锚点作用,不仅在浅层网络中收集信息,还在深层网络中用于最终预测。这一发现为提高ICL的有效性、效率和可解释性提供了新的视角。
4 应用
基于这些发现,研究者们提出了三个应用:
(1)锚点重新加权方法:通过引入可学习向量来调整示范中不同标签词的重要性,平均提高了16.7%的准确率。
(2)示范压缩技术:通过压缩输入,将完整的示范减少到仅包含标签词的隐藏状态,以加速ICL推理过程,实现了1.8倍的速度提升。
(3)错误分析框架:通过分析GPT2-XL模型在ICL中的错误,研究者们发现标签混淆矩阵与锚点关键向量的距离分布紧密相关,这表明错误可能源于相似的锚点表示。
5 结论
本文提出了一个假设,即标签词在语境学习中充当锚点,用于聚集和分配与任务相关的信息流。注意操纵和预测相关性分析的实验结果证实了该假设在GPT2XL和GPT-J模型中的有效性。
在新的理解视角的启发下,本文提出了三个实际应用。首先,提出了一种锚点重新加权方法来提高ICL精度。其次,探索了一种演示压缩技术来加速ICL推断。最后,展示了一个在真实数据集上诊断ICL错误的分析框架。这些有前途的应用再次验证了假设,并为未来ICL的研究开辟了新的方向。