机械鹦鹉与真正的智能:大语言模型推理能力的迷思
机械鹦鹉与真正的智能:大语言模型推理能力的迷思
大语言模型真的具备推理能力吗?我们是否误解了"智能"的本质,将模式匹配误认为是真正的推理?本文深入探讨了大语言模型(LLMs)是否真正具备推理能力这一前沿科学问题,作者的核心观点是:LLMs 本质上是高级的模式识别机器,而非真正具备逻辑推理能力。
01 何谓推理(reasoning)?
推理是根据现有信息、逻辑和分析内容得出结论或做出决定的基本认知过程。根据亚里士多德的观点,推理可分为两种类型:
- 演绎推理(Deductive reasoning):从普遍原理中得出具体结论。
- 归纳推理(Inductive reasoning):通过观察现象来形成一般性结论。
传统观念认为,推理是人类独有的能力。但现在我们发现,灵长类、章鱼甚至鸟类也展现出了一定的推理能力,它们能够进行决策和解决问题。
一般来说,推理被视为解决复杂问题或做出明智选择的过程。这要求识别问题、将其拆分为小问题、发现其中的规律,然后选择最佳解决方案。决策过程也相似,需要识别问题、寻找规律,并在做出选择前对备选方案进行评估。
然而,这些定义存在不明确之处。按照这些标准,LLM 也可以被视为具有推理能力。
02 LLM 能够推理吗?
在一系列评估推理能力的基准测试中(如 GLUE、SuperGLUE 和 Hellaswag),大语言模型(LLMs)的表现甚至超越了人类。有人据此认为,LLMs 可以进行推理并得出合乎逻辑的结论。
LLMs 推理能力的提升主要得益于两个方面:
- LLMs 在所有针对推理能力评估设计的基准测试中都表现出了推理能力。
- 随着模型参数、token 数量和计算资源的增加,模型的新特性不断涌现。
采用思维链(CoT)等技巧,可以让模型发挥其潜力。如果我们认为 LLMs 不具备推理能力,那么我们就需要对上述观点提出质疑。
2.1 LLMs 在推理能力基准测试中的惊艳表现
当有人声称 LLM 不会推理时,AGI 的支持者会回应说:“看看推理能力基准测试的结果。”这就像是“鸭子测试”:如果它能像人一样解决问题,做出决策,甚至在推理能力基准测试中胜出,那么它很可能就具有人类拥有的推理能力。
然而,也有学者对此表示怀疑。模型看似能够进行复杂的推理,但实际上它们依赖的是概率模式匹配,而非严谨的形式推理。模型对特定 tokens 的过度依赖表明,它更多的是在利用输入数据的表面特征,而非深入理解背后推理任务的本质。
这种现象被称为“提示词敏感性”(即模型对于语义上等价的不同提示词会有不同的反应)。这意味着模型对于与训练文本更为贴近的提示词会有更好的响应。
大语言模型(Large Language Models,LLM)同样对噪声敏感。实际上,这些模型很容易受到无关上下文的影响,导致其在进行推理时的表现大打折扣。此外,即便是那些专门用于提升推理能力的提示词技巧,也无法完全消除噪声的影响。这表明,噪声对模型记忆中模式识别能力的干扰是显著的。
图论中经典的‘二十五匹马’问题。上面两幅子图由 GPT-4o 生成,仅供参考,通过将‘马’改为‘兔子’来演示这一概念,这与问题的基本逻辑无关。下面两幅子图显示的是 GPT-4 和 Claude 的实验结果,其中动物名称和数量的扰动导致性能显著下降”。图片来源:https://arxiv.org/pdf/2406.11050
2.2 智力被视为一种“涌现属性”
许多人认为,智力是随着生物系统自然趋向于复杂化和能力提升而逐渐涌现的。如果生物不能适应这种变化,就会在进化压力下被淘汰。因此,进化过程会导致生物变得越来越聪明或越来越特化。智力就是在这样的压力下逐步进化而来的。智力的发展显然需要资源,因此大脑发展到了支持智力发展的水平。有些人认为,在模式训练(pattern training function)中的损失函数就如同一种进化压力。因此,一旦模型拥有了足够的“神经元”,它们就能够发展出推理能力(用专业术语来说,就是随着模型规模的扩大,推理能力逐渐显现)。
如前所述,这种推理能力的增强被认为是模型规模增加的结果(无论是参数的数量还是训练 tokens 的数量)。但是,在一些学者看来,推理能力是一种需要达到一定参数阈值才能显现的涌现属性。然而,后续的研究表明,大语言模型(Large Language Models,LLMs)中的涌现属性可能是一种测量误差,因此,整个理论就与推理能力的突然出现有关了。
2.3 CoT is not all you need
其他学者认为,大语言模型(Large Language Models,LLMs)本身具备推理能力,但这种能力需要通过特定方式来激活。思维链(Chain-of-thought,CoT)提示词就是这样一种方法,它通过中间推理过程帮助模型释放其潜力,进而引导模型在解决算术问题时得出正确答案。然而,几周前的一篇文章对 CoT 的实际效用提出了质疑:
在 MMLU 基准测试中,CoT 带来的性能提升,多达 95% 是因为问题或生成的输出中包含了“=”符号。对于非数学问题,我们并未发现任何迹象表明 CoT 在什么情况下会有帮助。
由此可见,CoT 在解决数学问题上的确有所帮助,但它并不能真正激活 LLM 的推理潜力。尽管如此,CoT 仍被吹嘘为灵丹妙药,并被认为是最新一代 LLMs 推理能力的基础。
通过对思维链(Chain-of-thought,CoT)相关文献的元分析发现,无论是在数学领域还是其他类型的符号推理领域,CoT 都能带来显著的性能提升(红色虚线所示为不同实验中 CoT 带来的平均改进效果)。图片来源:https://arxiv.org/pdf/2409.12183
这些发现似乎表明,LLMs 并不具备常识推理能力,但这并不意味着它们完全不具备其他类型的推理能力。
LLMs 真的能够进行数学推理吗?
尽管数学推理似乎是 LLMs 在推理方面的优势,但有研究表明,LLMs 可能只是在识别模式(patterns)。也就是说,它们在寻找模式(patterns)时,并不真正理解这些数学符号的含义。
一些研究者指出,LLMs 在数学上无法进行形式推理(formal reasoning),因为它们不能制定出行动计划(这里所说的计划是指一系列行动策略,通过执行这些策略,可以从初始状态达到期望的最终状态)。没有这样的计划,模型就只能简单复现训练中遇到的模式(patterns),而无法真正解决问题。在某些情况下,甚至可能是用户无意中引导 LLM 找到了答案:
这就是所谓的“聪明的汉斯效应”,LLM 只是在进行猜测,而真正引导它的是处于环路中的人类,他们凭借对正确与错误解决方案的了解,无意中操控了 LLM 的输出 —— 即便他们并非有意为之。因此,确保准确性(如果有的话)的功过都应该归咎于这个环路中的人类。
LLMs 所声称的推理能力,有时实际上是由于参与其中的人类在不自觉中提供了有益的、连续的提示词。
2.4 发现一名学生在抄袭
无疑,看到有人声称大语言模型(LLM)的表现堪比博士生,这让人感到不悦:
o1-preview 模型的设计初衷是处理具有挑战性的任务,它通过像人一样花更多时间思考和优化回答来应对复杂问题。在测试中,这种方法使得模型在物理、化学和生物等领域的表现接近博士生水平。
暂且不提这种不快,问题在于我们如何衡量这些模型的能力。我们可能并没有用正确的方法来测试它们的推理能力,是时候采用新的评测体系了。
这些模型都在 GSM8K(Grade School Math 8K)数据集上进行测试,这个数据集提供了复杂的算术问题,但由于训练 LLM 时使用了数十亿个数据 tokens,存在答案泄露的风险。此外,这个数据集只提供了一个固定问题集上的单一度量标准,对我们了解 LLM 的推理能力帮助有限(有趣的是,LLM 可能在推理完全错误的情况下仍然给出正确答案)。而且,这个数据集是静态的,不允许我们改变测试条件。
在这项研究中,研究者提出了一个新的基准测试数据集 GSM-Symbolic,它通过使用符号模板生成不同的问题。通过该数据集,我们可以调整问题的难度,并在测试时提供更精确的控制。这个数据集实际上与之前用于推理测试的数据集相同,只是对问题进行了修改,使得简单的统计模式匹配变得困难。如果 LLM 真的具备推理能力,它应该能够轻松解决这些问题;但如果它无法进行泛化,那么它将无法完成任务。
GSM-Symbolic 模板创建过程示意图。图片来源:https://arxiv.org/pdf/2410.05229
在对最先进的 LLMs 进行测试时,研究者并未发现模型具备形式推理的能力。这些模型并不稳健,当数值发生变化时,性能就会下降,且在问题复杂性提升时,其处理能力会迅速衰退。
如果向问题中插入看似相关却实际上对推理和结论无影响的语句,模型便容易被误导。模型会将这些语句考虑在内,从而诱发错误。研究指出,模型并没有真正理解数学概念,而是试图将这些语句转化为数学操作。作者们推测,这可能是由于训练数据集中包含了类似需要转化为数学操作的例子。
比如,我们观察到的一种常见情况是,无论上下文如何,模型会将涉及“折扣”的语句理解为“乘法”。这不禁让人质疑,这些模型是否真正掌握了数学概念。
这再次证明,模型甚至在模式仅仅是背景噪声的情况下,也会试图寻找这些模式。当噪声增强,寻找模式的难度加大(或者难以一致性地将这些模式映射到解决方案上),模型的性能就会大幅下滑。这一点同样适用于那些经过 CoT 训练的 LLMs(比如 ChatGPT4-O1)。这进一步说明,CoT 并未真正提升模型的推理能力。
图片来源:https://www.arxiv.org/pdf/2409.13373
03 结束语
本文探讨了一个热门话题:LLMs 是否具备推理能力?或者至少是某种形式的推理能力?
我们所展示的研究成果给出了不同的观点,认为 LLMs 实质上是高级的模式匹配机器。总结来说,这些研究指出:
- LLMs 通过海量 tokens 进行训练,因此存在主要基准测试数据集发生数据污染的风险。即便模型未曾直接见过某个数学问题,它也可能接触过众多类似的案例。
- 凭借其庞大的知识库和与生俱来的模式识别能力(归功于注意力机制和上下文学习),它们能够解决大部分问题。
- 它们在应对问题变化、tokens 偏差以及噪声影响方面的脆弱性,强烈表明 LLMs 并不具备形式推理的能力。最新研究结果显示,即便采用先进的提示词技术,模型仍然容易受到噪声和不相关(甚至可能误导)信息的影响。
- 这些模型能够进行模式匹配,但似乎并不理解解决问题所依据的任何数学概念。
这些发现并未否定 LLMs 的实用性,而是对 LLMs 具备推理能力的观点提出了质疑。这些结果表明,可以将 LLM 视为拥有非凡记忆力的机器,却无法进行推理(或者可以说是迄今为止最精巧的“机械鹦鹉”)。这并非贬低创造它们所需的卓越技术,而是对人类智慧结晶的赞叹。为了更深入地理解 LLMs 的能力,以及开发能够进行推理的新模型架构,可能还需要进一步的研究。
Reference
- Jiang, 2024, A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners, https://arxiv.org/abs/2406.11050
- Shi, 2023, Large Language Models Can Be Easily Distracted by Irrelevant Context, https://proceedings.mlr.press/v202/shi23a.html
- Schaeffer, 2023, Are emergent abilities of large language models a mirage? https://arxiv.org/pdf/2304.15004
- Wei, 2022, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, https://arxiv.org/abs/2201.11903
- Sprague, 2024, To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, https://arxiv.org/abs/2409.12183
- Valmeekam, 2023, PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change
- Kambhampati, 2024, Can Large Language Models Reason and Plan? https://arxiv.org/abs/2403.04121
- Razeghi, 2022, Impact of Pretraining Term Frequencies on Few-Shot Reasoning, https://arxiv.org/abs/2202.07206
- Mirzadeh, 2024, GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, https://arxiv.org/abs/2410.05229
- Valmeekam, 2024, LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench, https://www.arxiv.org/abs/2409.13373
- Lu, 2022, Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, https://aclanthology.org/2022.acl-long.556/
- Zhao, 2021, Calibrate Before Use: Improving Few-shot Performance of Language Models, https://proceedings.mlr.press/v139/zhao21c.html
- Rogers, 2024, Position: Key Claims in LLM Research Have a Long Tail of Footnotes, https://openreview.net/forum?id=M2cwkGleRL