大语言模型的‘自信’之道:如何在推理时选择沉默?
大语言模型的‘自信’之道:如何在推理时选择沉默?
大语言模型(LLM)在推理时总是“硬着头皮”给出答案,即使它们对自己的答案并不自信。如何让模型更“聪明”地选择是否回答一个问题,而不是盲目地给出答案?
论文:Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering
链接:https://arxiv.org/pdf/2502.13962
作者们发现,通过增加推理时的计算预算(compute budget),模型不仅能回答更多问题,还能提高对正确答案的自信。于是,他们提出了一种新的评估方法,允许模型在某些情况下选择“不回答”,从而避免给出错误的答案。这种方法特别适用于那些错误答案会带来实际代价的场景,比如高风险的决策或游戏节目中的竞答。
方法:如何让模型更“自信”?
为了让模型在推理时更“自信”,作者们提出了两个关键因素:计算预算和置信度阈值。
计算预算:简单来说,就是模型在推理时可以“思考”多久。作者通过控制模型生成的token数量来限制计算预算。如果模型在预算用尽之前就“想”出了答案,系统会强制它继续思考,直到预算用完。
置信度阈值:这是模型对自己答案的自信程度。作者使用模型生成的答案token的对数概率之和来衡量置信度。如果模型的置信度低于某个阈值,它就会选择“不回答”。
通过这两个因素,模型可以在推理时动态调整自己的回答策略:如果自信满满,就大胆回答;如果心里没底,就选择沉默。这种方法不仅提高了回答的准确性,还减少了错误答案的风险。
DeepSeek R1-32B在计算预算和自信度阈值的准确率
实验
为了验证这个方法的效果,作者们在AIME24数据集上进行了实验,测试了DeepSeek-R1-32B和s1-32B两个模型在不同计算预算和置信度阈值下的表现。
- 实验结果:当置信度阈值为0时,模型会回答所有问题,随着计算预算的增加,回答的准确性也逐渐提高。然而,当置信度阈值提高时,模型会选择性地回答那些它更有把握的问题,从而在更高的预算下获得更高的准确性。有趣的是,过高的计算预算有时反而会降低回答的准确性,因为模型可能会“想太多”,放弃原本正确的答案。
- 自信心的变化:作者还绘制了模型在不同计算预算下对答案的置信度变化图。结果显示,随着计算预算的增加,模型对正确答案的置信度也在提高,这表明更多的思考时间确实能让模型更自信。
结论:模型如何“聪明”地选择回答?
这篇论文的核心贡献在于,它提出了一种新的评估方法,允许模型在推理时选择是否回答一个问题。通过增加计算预算和设置置信度阈值,模型可以在高风险场景中更“聪明”地做出决策:当它自信时,大胆回答;当它不确定时,选择沉默。
实验结果表明,这种方法不仅提高了回答的准确性,还减少了错误答案的风险。特别是在那些错误答案代价高昂的场景中(如“Jeopardy”竞答),这种选择性回答的策略表现得尤为出色。
本文原文来自CSDN