大模型能推理吗?
大模型能推理吗?
大型语言模型(LLMs)是否真正具备推理能力?这个问题引发了广泛的讨论。虽然LLMs在某些推理任务上表现出色,但研究发现它们可能更多依赖于记忆和模式匹配,而不是真正的抽象推理。本文将深入探讨这一争议性话题。
什么是“推理”?
“推理”是一个涵盖演绎、归纳、外推、类比、常识等多种理性思维能力的总称。推理通常涉及多个步骤的组合过程,并且需要具备一定的抽象能力。例如,如果一个人掌握了加法原理,他不仅能解决23+37这样的具体问题,还能解决任何加法问题,甚至能够快速掌握不同进制下的加法运算。
LLMs中的“思维链”推理
近年来,大量研究表明LLMs展现出一定的推理能力。其中最具影响力的研究之一来自Google Research的Wei等人,他们发现所谓的“思维链”(Chain of Thought,简称CoT)提示能够显著提升LLMs的推理表现。CoT提示通过给出问题解决的推理步骤示例,引导模型输出类似的推理过程。
Wei等人的研究显示,CoT提示在多个推理基准测试中都取得了显著效果。然而,这种方法也存在两个主要缺点:一是需要人工构建示例,二是通常要求提示者已经知道问题的解法。
后续研究发现,即使不提供具体示例,只需在提示中加入“让我们一步一步思考”这样的指令,也能取得类似效果。这种被称为“零样本CoT提示”的方法同样能显著提升模型的推理性能。
CoT生成的推理步骤是否反映真实推理过程?
尽管CoT提示能引导模型生成看似合理的推理过程,但这些过程是否真正反映了模型的内部推理机制仍是一个开放问题。有研究表明,CoT解释有时会系统性地偏离模型实际的预测原因,而且随着模型规模的增大,其生成的可靠推理反而减少。
原始CoT提示论文的作者也指出,虽然CoT模拟了人类的思维过程,但这并不能证明神经网络确实是在“推理”,这是一个开放性问题。
如果LLMs没有推理,它们在做什么?
研究表明,LLMs在处理训练数据中频繁出现的术语或概念时表现更好,这表明它们可能更多依赖于记忆和模式匹配,而不是真正的抽象推理。例如,Razeghi等人的研究发现,基于GPT的LLMs在涉及常见数字的算术问题上表现更好,而在罕见数字的问题上则表现较差。
康奈尔大学的研究员Horace He发现,GPT-4在2021年前的编程挑战中表现出色,但在2021年后的问题上却完全无法解答,这进一步印证了LLMs依赖记忆的特性。
“记忆”与推理的实证研究
Wu等人通过“反事实任务”对LLMs的推理能力进行了深入研究。他们设计了与训练数据分布不同的任务变体,以检验模型的泛化能力。例如,在Python代码执行任务中,他们创建了一个使用一索引而非零索引的变体。实验结果显示,GPT-4在原始版本上的准确率远高于反事实版本,这表明模型在处理与训练数据相似的任务时表现更好。
另一个例子是国际象棋任务,其中骑士与主教的位置互换。GPT-4在原始版本上的表现远优于变体版本,这进一步证明了模型在处理与训练数据相似的任务时具有优势。
评估LLMs推理能力的挑战
评估LLMs的一般推理能力面临诸多挑战。数据污染和“捷径学习”是两个主要问题。数据污染指的是在训练数据中已经包含类似测试项目的情况,而捷径学习则是指模型通过虚假的统计关联或模式匹配来产生正确答案,而不是真正理解问题。
虽然人类在推理时也可能依赖记忆和模式匹配,但人类具备抽象推理的能力,能够将知识迁移到全新情境中。目前尚不清楚LLMs是否具备这种能力,这需要进一步的系统性研究来证实。
结论
LLMs在某些推理任务上的出色表现可能更多源于记忆和模式匹配,而不是真正的抽象推理。这种能力的局限性意味着LLMs在处理与训练数据差异较大的任务时可能表现不佳,这对其在现实世界中的应用提出了挑战。未来的研究需要更深入地探讨LLMs的推理机制,以更好地理解其能力和局限性。