问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

论文解读 | TTA:大模型回答置信度评估新方法

创作时间:
作者:
@小白创作中心

论文解读 | TTA:大模型回答置信度评估新方法

引用
1
来源
1.
https://geyuyao.com/post/think-twice-before-assure/

大型语言模型(LLM)在生成答案时往往表现出过度自信的问题,这使得其输出的可信度评估变得困难。最近,来自新加坡国立大学、中国科学技术大学和Meta AI的研究团队提出了一种新的置信度评估方法——TTA(Think Twice Before Assure),通过让模型反思多个候选答案来改进置信度评估。这种方法在多个数据集上都取得了优于基线方法的表现。

研究背景

对于大型语言模型(LLM),尤其是黑盒模型,评估输出的可信度是一项关键工作。由于LLM对生成的错误答案过于自信,导致现有的LLM可信度评估通常不够准确。现有的方法解决过度自信问题存在明显的限制,这些方法仅考虑LLM生成的一个答案的可信度。为了解决这个限制,本文提出了一种新的方法,全面评估多个候选答案的可信度,以减轻对于错误答案的过度自信。

置信度评估的核心是实现校准,确保置信水平与实际答案的准确性相一致。黑盒LLM实现校准的关键在于解决过度自信的问题。LLM在信任自己生成的回答方面存在固有偏见,这使得大模型很难真正辨别出自己的回答是否正确,并且往往倾向于给自己的回答分配很高的置信分数。

目前有两种研究范式:

  • 第一种范式(self-consistency)认为过度自信部分由问题(prompt)和答案之间的上下文偏差引起。为了解决这个问题,研究者尝试通过构建各种prompt模板和多样化的问题重述来进行prompt集成。

  • 第二种范式(verbalized methods)集中于LLM的自我评估,设计了诸如询问LLM关于答案真实性的指令或思维链(Chain-of-Thought, CoT)推理的方法。

然而上述研究的局限性在于:这些研究方法通常只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。为了解决这一局限性,本文引入了一种新的多答案评估范例,让大模型考虑多个候选答案,以增强置信度校准。

问题定义

给定由问题 $q$ 和prompt $p$ 组成的输入,其中包括一条指令和可选的上下文示例,LLM可以生成答案 $a$。随后,置信度估计旨在获得LLM对 $a$ 的置信水平,以置信分数 $c \in R$ 的形式表示。将置信度评估策略表示为 $CE(·)$ ,这个过程可被形式化表述为: $$ a = LLM(p(q)), \ c = CE(LLM(·), p(q), a). $$

前人方法

如今,问题聚焦于如何设计置信度评估函数$CE(·)$。一个显而易见的方法是利用LLM的输出概率来估计置信度分数,形式化表述为 $c = Pr(LLM(·), p(q), a)$。然而,本文设定在黑盒状态下,因此模型内部状态不可见,故此方法不可用。

对于黑盒状态,目前已有的两种方法为:

  • 自一致性(self-consistency),如上图子图1
  • 口述方法(verbalized methods),如上图子图2

对于自一致性(self-consistency)方法,其实就是同一个问题用多种表述方法多问几遍,看正确答案的比例。形式上可表示为: $$ \begin{aligned}&c=\frac{\sum_{i=1}^D \mathbb1(a_i=a)}D,&\mathrm{where~}a_i=LLM(p(q)).\end{aligned} $$ 其中,$D>1$。

对于口述方法(verbalized methods),就是让大模型自己说几个候选回答及其对应的概率。 $$ [{a_1,c_1},…{a_K,c_K}]=LLM(p^b(q)). $$

然而上述方法只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。

本文方法

作者认为,如果LLM能够彻底比较更多候选答案的可信度,当LLM对其他答案具有强烈正确倾向的情况下,对 $a$ 的高置信度可能会减弱,从而降低过度自信的风险。

因此,作者团队提出了一种多答案评估范式TTA。其过程包含两个步骤:

第一步:反思和证明

首先让LLM反思每个答案 $a^q_i$ 的可信度,并要求LLM找到证据 $e_i$ 来证明 $a^q_i$ 作为 $q$ 的正确答案的合理性。 $$ e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N} $$ 此步骤的合理性在于,$p^e$ 指导LLM从 $q$ 和 $a^q_i$ 中推导出理由,避免了LLM在从 $p(q)$ 到 $a$ 的生成上存在的偏见。

第二步:联合置信度估计

在对每个 $a^q_i$ 获得了相应的证据 $e_i$ 之后,我们采用 Top-$K$ 口头化方法,将这些 $e_i$ 整合起来,以获得答案 $a$ 的概率。 $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a) $$ 此处选择 Top-$K$ 口头化方法是因为它能够在一次回应中,生成一组 $K$ 个潜在答案以及其各自的概率。

其中 $K$ 被设置为答案的数量 $N$ 。

整个过程可被形式化表述为: $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a), \ \notag \text{where } e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N}. $$ 流程如上图子图3。

实验

Datasets & Models

本文在三个任务上使用六个数据集进行实验。情感分析(SA)使用了IMDB和Flipkart,自然语言推理(NLI)使用了 SNLI 和 HANS,常识问题回答(CQA)使用了CommonsenseQA 和PIQA。

对于大模型,本文使用了OpenAI的GPT-3.5、GPT-4和ZhipuAI的GLM-4。

Baseline

Self-cons、CoT-cons、Top-K Verb、Hybrid、Self-detect、CAPE、P(True)。

Evaluation

AUROC和PRAUC,取值范围都是从0到1。

Result

GPT-3.5上比较方法的结果

  • TTA方法能够更好地区分答案的准确性,实现更好的校准效果。
  • TTA在选择性预测场景中具有很强的应用潜力。
  • 不同的目标答案,LLMs的参数敏感性也是不同的。
  • TTA在校准性能方面取得了比其他方法更好的表现。

总结

这项研究提出了一种创新的LLM置信度评估方法——TTA,通过让模型反思多个候选答案来改进置信度评估。这种方法在多个数据集上都取得了优于基线方法的表现,为解决LLM过度自信的问题提供了一个新的思路。

论文链接:https://arxiv.org/abs/2403.09972

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号