问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

增强大模型的推理能力:从思维链到连续思维链(上)

创作时间:
作者:
@小白创作中心

增强大模型的推理能力:从思维链到连续思维链(上)

引用
1
来源
1.
https://www.53ai.com/news/finetuning/2025010612596.html

增强大模型的推理能力一直是AI工程师们追求的重要目标。从最初的思维链(CoT)到自动思维链(Auto-CoT),这项技术经历了多个阶段的发展。本文将从技术发展史的角度,详细剖析增强大模型推理能力的技术演变过程。

为什么要研究大模型推理能力?

增强大模型的推理能力,一直是工程师们孜孜以求的方向。强大准确的推理能力,不仅是迈向通用人工智能的关键,也是工程应用落地成功的关键。今年9月,OpenAI推出新款AI大模型o1,大大地增强了ChatGPT推理能力,解决复杂问题能力远超GPT-4o。12月初,OpenAI在发布会上又展示了一种叫“强化微调”的算法,开发者只需提供最低「几十个」高质量的任务数据,就能实现领域专家模型的定制,震撼全场。

大模型推理能力的局限性

ChatGPT自诞生时,以其流畅的对话能力吸引人们的目光。然而,人们很快就发现,在一些需要推理的场合,大模型开始一本正经地胡说八道。一个经典的例子是:

:单词 "strawberry" 中有几个字母r?
模型回答:单词 "strawberry" 中有两个字母 "r"。

人们衡量大模型推理能力一般包括以下几个方面:算术推理、常识推理、逻辑推理和符号推理等等。算术推理的例子如:罗杰有5个网球。他买了2罐网球,每罐有3个网球。他现在有多少个网球?常识推理的例子如:萨米想去人多的地方。他可能会去哪里?选项:(a) 赛道 (b) 人口密集的地区 (c) 沙漠 (d) 公寓 (e) 路障。逻辑推理的例子如: 一枚硬币正面朝上。梅贝尔翻转了硬币。莎隆达没有翻转硬币。硬币还是正面朝上吗?

推理能力是迈向高级智能的基础。增强大模型推理能力的道路在哪里呢?

思维链(CoT)的提出

在探索增进大模型的推理能力的方面,首先登场的是2022年的一位本科毕业的年轻人Jason Wei。在其论文里首次提出大模型“思维链”(Chain-of-Thought,CoT)的概念。

他发现:对于一个较为复杂的推理问题,在提示词中,通过向大语言模型展示一些少量的样例,在样例中分解求解的过程步骤,大模型在回答这个复杂的推理问题时,也会遵循类似的求解的过程步骤,并且较为准确地得到最终答案。

在他之前,人们也发现了大模型具有少量样本(few-shot)学习的能力。即提示词中展示少量样本,大模型能够依照样本的示例执行任务。思维链(CoT)提示与少量样本(few-shot)提示的区别在于少量样本(few-shot)提示只展示了最终结果,而思维链(CoT)提示既展示了最终结果,也展示了中间步骤。少量样本只展示最终结果不展示中间步骤,在面对复杂推理问题时,不足以引导到大模型得出正确的最终答案。

很显然,这种“思维链”提示技术有个明显的局限,那就是写提示词的人,需要知道如何分解解题步骤。一方面,人工编写的思维链提示词质量参差不齐,难以稳定地保证效果。另一方面,一些复杂的任务,需要复杂的思维链(如一些数学证明题),普通人不一定写得出来。如果写得出这种提示词,人工已经基本上把问题解决了,再来让大模型生成答案,似乎有点鸡肋,意义不大了(相当于人工已经把解题步骤一步一步详细地都拆解告诉了模型,只差最终答案没写了)。

零样本思维链(Zero-Shot CoT)

当人们发现“思维链”可以提高大模型的推理能力后,许多人转向了这方面的研究。Kojima等人(2022)首先发现并提出了“零样本思维链(Zero-Shot CoT)”。与Jason Wei的思维链提示不同,因为它不需要少样本示例,只需要在提示词中添加“让我们一步一步地思考”,或类似的文本。大模型就会自动生成解题步骤(尽管这些步骤有时是错误的)。这也是大模型一个很重要的现象。这意味着,大模型具有一定的分解任务步骤的能力。

至于为何大模型具有此种能力,直到目前为止大家都还未达成共识。一般认为这是大模型“涌现”所带来的能力。

通过提示词“让我们一步一步地思考”,存在的局限是,自动生成的解题步骤,存在着一些错误,尤其是在参数量较小的模型中。

自动思维链(Auto-CoT)

现在我们了解大模型有两个特性了:一是:通过思维链提示的方式,可以引导大模型完成需要复杂推理的任务;二是:通过提示词“让我们一步一步地思考”,大模型就会自动生成解题步骤。这两个特性都各自存在着局限性。

在这种情况下,结合了大模型上述两种特性,Zhang et al. (2022)提出了一种叫做自动思维链(Auto-CoT)的技术。

Auto-CoT提出自动构建带有问题和推理链的样本演示,由两个部分组成:先是问题聚类。将给定问题划分成几个聚类,从每个聚类中选择一个有代表性的问题,利用零样本思维链(Zero-Shot CoT)为每个问题生成推理链。例如:一共有K个聚类,会抽取K个问题,用提示词“让我们一步一步地思考”,生成K套思维链步骤。当向大模型提出一个新问题后,系统将K套思维链步骤作为提示词和新问题一并输入大模型,并完成作答。

自动思维链(Auto-CoT)就像一位经验丰富的高考辅导培训老师,先分析历年高考试卷,归纳出知识点和题型,针对每个知识点和题型再归纳出一套解题步骤和方法(即每个知识点和题型一套思维链)。作为考生的大模型,带着这K套解题步骤和方法,来解答每一道题。

很显然,自动思维链(Auto-CoCT)的优势在于,不需要手工分解解题步骤,不需要编写思维链提示词。这是一个很大的进步。但是,这种技术的也有一个明显的局限:需要对问题集划分成几个聚类,对每个聚类都要生成一组思维链提示词,并且这些提示词还要一并输入到大模型里。聚类太少,思维链的多样性不够;聚类太多,提示词太长,效率太低。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号