资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

思维链：ChatGPT如何通过逐步推理提升准确性？

创作时间:

作者:

@小白创作中心

思维链：ChatGPT如何通过逐步推理提升准确性？

引用

知乎

等

来源

https://zhuanlan.zhihu.com/p/629087587

https://www.woshipm.com/share/6139728.html

https://blog.csdn.net/qq_37261357/article/details/137346042

https://blog.csdn.net/sinat_16020825/article/details/145512935

https://zhuanlan.zhihu.com/p/670907685

https://blog.csdn.net/weixin_56175042/article/details/144766450

https://www.zhihu.com/tardis/zm/art/629087587

https://www.zhihu.com/tardis/zm/art/670907685

https://www.cnblogs.com/bonelee/p/17406692.html

10.

https://www.appendata.com/blogs/chain-of-thoughts

11.

https://www.yicaiai.com/news/article/672879fd4ddd79f11a000847

12.

https://53ai.com/news/LargeLanguageModel/2024111646023.html

思维链技术的诞生

在人工智能领域，大语言模型（LLM）的推理能力一直是一个重要研究方向。2022年1月，谷歌研究员Jason Wei等人在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出了思维链（Chain-of-Thought，CoT）的概念。这一技术的出现，为提升大语言模型的推理能力开辟了新的路径。

什么是思维链？

思维链是一种Prompt提示技术，用于指导大型语言模型在复杂推理任务中表现出更好的性能。它通过在问题和答案之间插入中间推理步骤，模拟人类解决问题时的逐步思考过程。这种技术的核心在于将复杂问题分解为多个子问题，通过逐步推理得出最终答案。

思维链的工作原理

思维链的工作原理可以概括为以下几个步骤：

指令解析：模型首先分析用户输入的问题，理解问题的类型和要求。
逻辑推理：模型生成中间推理步骤，这些步骤通常以自然语言形式呈现，类似于人类的思考过程。
答案生成：基于推理过程，模型生成最终答案。

这种技术的关键在于通过示例引导模型学习推理过程。例如，在解决数学问题时，模型不仅输出最终答案，还会展示解题步骤，如下所示：

问题：求解二次方程 x^2 - 5x + 6 = 0

模型输出：
让我们使用求根公式来解这个二次方程。对于一般形式 ax^2 + bx + c = 0，求根公式为：
x = (-b ± sqrt(b^2 - 4ac)) / (2a)

在这个问题中，a = 1，b = -5，c = 6。将这些值代入求根公式：

x = (5 ± sqrt((-5)^2 - 4*1*6)) / (2*1)
x = (5 ± sqrt(25 - 24)) / 2
x = (5 ± sqrt(1)) / 2

因此，我们得到两个解：
x1 = (5 + 1) / 2 = 6 / 2 = 3
x2 = (5 - 1) / 2 = 4 / 2 = 2

所以，方程 x^2 - 5x + 6 = 0 的解是 x = 3 和 x = 2。

思维链的主要应用场景

思维链技术在多个领域展现出显著优势，主要包括：

数学问题解决：通过逐步推理解决算术应用题、方程求解等问题。
常识推理：在涉及日常知识和逻辑判断的任务中，如理解身体互动、运动规则等。
符号推理：处理字符串操作、模式识别等任务。
逻辑谜题：解决需要多步推理的逻辑问题，如推理题、谜语等。
语言理解：在成语解释、语境分析等语言相关任务中提供更准确的输出。

思维链的效果

研究表明，思维链技术显著提升了大语言模型在多个基准测试中的表现。特别是在数学推理和常识推理方面，效果尤为明显。例如，在GSM8K数据集上，使用思维链的GPT-3 175B模型性能提升了300%。在常识推理任务中，采用思维链提示的大语言模型在Bench Hard(BBH)评测基准的23个任务中，有17个任务的表现都优于人类基线。