问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大语言模型推理最新综述：从快思考到慢思考

创作时间:

作者:

@小白创作中心

大语言模型推理最新综述：从快思考到慢思考

引用

腾讯

1.

https://view.inews.qq.com/a/20250227A09ZGF00

大语言模型（LLMs）是人工智能领域的重要里程碑，已经在文本生成、语言翻译和各种感知任务方面展现出优异的表现。然而，基础LLMs的运作方式类似于快速、启发式决策的System 1推理，对于需要深入、逻辑分析和精确分析的复杂推理任务来说，基础LLMs的能力还远远不够。因此，从快速思考（System 1）到慢速思考（System 2）的转变，成为了大语言模型发展的重要方向。

摘要

要实现人类水平的智能，大模型需要从快速、直观的System 1到更慢、更深度的System 2推理过渡。基础大型语言模型(LLMs)擅长快速决策，但缺乏复杂推理的深度，因为尚未完全接受System 2思维的逐步分析特征。最近，OpenAI的o1/o3和DeepSeek的R1等推理LLMs在数学和编码等领域展示了专家级的性能，与System 2刻意推理非常相似，实现类似人类的认知能力。

基础概念

双系统理论

人类认知通过两种模式运作：

System 1：快速、自动和直观，以最小代价快速做出决策
System 2：较慢、更深思熟虑。System 1对于常规任务，容易出现认知偏差，尤其是复杂或不确定情形, 导致判断错误。System 2依赖于逻辑推理和系统思考，从而做出更准确和理性的决策。通过减轻System 1的偏差，System 2提供了一种更精细的问题解决方法。

推理定义

"推理"指回答涉及复杂、多步骤过程和中间步骤的问题。

基础LLMs：具有基本推理能力，处理简单或单步任务。
推理LLMs：擅长编码、数学证明、多模态推理等复杂任务，结合"思考"过程, 让基本LLMs努力完成任务

传统LLMs（基础LLMs）与推理LLMs对比：

推理LLMs在训练方法、适应性和学习能力、解决问题的策略以及通用性和可扩展性等方面具有显著优势

蓝色表示sota结果。

大型语言模型是人工智能（AI）重要里程碑。GPT-4o和DeepSeekv3等模型在文本生成、语言翻译和各种感知任务方面表现优异。然而，基础LLMs运作方式类似于System 1推理，依赖于快速、启发式决策。复杂推理任务需要深入、逻辑分析和精确分析，基础LLMs达不到要求。

大模型推理发展史

推理LLMs是语言模型进化的重大进步。推理LLMs时间表：6个路线上进化过程

推理LLMs分析

推理LLMs特性分析

在输出行为上

探索与规划：依赖CoT的DeepSeekMath、Quiet-STaR
验证和检查：OpenAI的 o1和o3
推理长度、时间增大：简单问题没必要
过度谨慎、简单问题陷阱

训练过程中

数据效率惊人：针对难样本构建慢思考CoT的数据集，模型在医疗、数学场景下的泛化能力显著提升
稀疏训练：不需要大量样本、密集奖励反馈，通常只需1/100的样本量。
参数特性：与普通LLMs相比，LongCoT训练出来的参数相对均匀。

推理LLMs实现

推理LLMs的主要方法

如何实现推理？多个路线：

①结构搜索 Structure Search：遍历空间里各个路径，跳出次优解，找到更好的解法，源自AlphaGo下棋决策思路，如蒙特卡洛树搜索 MCTS——重要路线
②奖励建模 Reward Modeling：奖励反馈机制
③自我提升 Self Improvements：对每步行动进行反思、校验，逐步优化，如各种 Star系列
④宏观行动 Macro Action：把上一代符号逻辑系统以模版/规则形式植入到LLMs，提升推理能力，分为结果奖励模型（ORM）和过程奖励模型（PRM）
⑤强化学习微调 Reinforcement Fine-Tuning：传统强化学习（Q-Learning/DQN/PPO等）引入到语言模型训练，迈出重要一步。示例：DeepSeek R1
细节略，详见论文

推理LLMs评测

不同任务对应数据集、技术方案

数据集具体有：

热门推荐

心理学家：为什么很多50多岁的男人，都开始远离自己的老婆了

心理学家：为什么很多50多岁的男人，都开始远离自己的老婆了

柯洁退赛引热议：卞相壹零胜夺冠

柯洁退赛引热议：卞相壹零胜夺冠

当围棋遇上AI：传统智慧与现代科技的完美融合

当围棋遇上AI：传统智慧与现代科技的完美融合

工作文档如何归类管理

工作文档如何归类管理

砥洎城：铜墙铁壁里的“廉洁密码”

砥洎城：铜墙铁壁里的“廉洁密码”

新电瓶首次充电攻略：让电池更耐用！

新电瓶首次充电攻略：让电池更耐用！

家庭期待与学业重压：青少年心理健康的双重挑战

家庭期待与学业重压：青少年心理健康的双重挑战

邓石如教你写好“疏”字：从“疏可走马，密不透风”到书法实践

邓石如教你写好“疏”字：从“疏可走马，密不透风”到书法实践

四年级上册数学：高效教学资源大放送！

四年级上册数学：高效教学资源大放送！

四年级上册数学：期末必考解题技巧大揭秘！

四年级上册数学：期末必考解题技巧大揭秘！

深圳高级中学：打造“身心境合一”文化

深圳高级中学：打造“身心境合一”文化

四年级数学满赠题专项练习：三类题型全解析

四年级数学满赠题专项练习：三类题型全解析

深高集团化办学：严师出高徒？

深高集团化办学：严师出高徒？

冬日打卡：新仓山浅间公园&忍野八海

冬日打卡：新仓山浅间公园&忍野八海

富士山一日游打卡攻略：河口湖、忍野八海、山中湖

富士山一日游打卡攻略：河口湖、忍野八海、山中湖

富士山摄影指南：如何拍出专业级照片？

富士山摄影指南：如何拍出专业级照片？

葛饰北斋笔下的富士山传奇：《富岳三十六景》的艺术世界

葛饰北斋笔下的富士山传奇：《富岳三十六景》的艺术世界

冬季赏富士山攻略：12月和1月是最佳观赏期

冬季赏富士山攻略：12月和1月是最佳观赏期

歇后语的寓意内涵解读：贾宝玉看《西厢记》——戏中有戏

歇后语的寓意内涵解读：贾宝玉看《西厢记》——戏中有戏

米诺地尔与非那雄胺：双剑合璧，防脱更有效？

米诺地尔与非那雄胺：双剑合璧，防脱更有效？

95% vs 75%酒精：哪个消毒效果最好？

95% vs 75%酒精：哪个消毒效果最好？

真菌怕什么消毒液

真菌怕什么消毒液

从客观角度分析：火器的出现，对中国古代军队的影响有多大？

从客观角度分析：火器的出现，对中国古代军队的影响有多大？

八部超燃的奇幻超能电影，神秘的超能力直接拉满，很多都想不到

八部超燃的奇幻超能电影，神秘的超能力直接拉满，很多都想不到

浅谈主流处理器架构

浅谈主流处理器架构

【数据存储】大端存储||小端存储（超详细解析，小白一看就懂！！！）

【数据存储】大端存储||小端存储（超详细解析，小白一看就懂！！！）

新材料让汽车变速箱更智能高效

新材料让汽车变速箱更智能高效

智能控制策略如何优化汽车变速箱？

智能控制策略如何优化汽车变速箱？

JACS：光催化羧酸盐生成亚磺酰胺/磺酰胺/磺酰亚胺酰胺

JACS：光催化羧酸盐生成亚磺酰胺/磺酰胺/磺酰亚胺酰胺

1920年宁夏海原大地震：历史上最严重的自然灾害之一

1920年宁夏海原大地震：历史上最严重的自然灾害之一

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号