大语言模型推理最新综述:从快思考到慢思考
创作时间:
2025-03-20 11:54:05
作者:
@小白创作中心
大语言模型推理最新综述:从快思考到慢思考
引用
腾讯
1.
https://view.inews.qq.com/a/20250227A09ZGF00
大语言模型(LLMs)是人工智能领域的重要里程碑,已经在文本生成、语言翻译和各种感知任务方面展现出优异的表现。然而,基础LLMs的运作方式类似于快速、启发式决策的System 1推理,对于需要深入、逻辑分析和精确分析的复杂推理任务来说,基础LLMs的能力还远远不够。因此,从快速思考(System 1)到慢速思考(System 2)的转变,成为了大语言模型发展的重要方向。
摘要
要实现人类水平的智能,大模型需要从快速、直观的System 1到更慢、更深度的System 2推理过渡。基础大型语言模型(LLMs)擅长快速决策,但缺乏复杂推理的深度,因为尚未完全接受System 2思维的逐步分析特征。最近,OpenAI的o1/o3和DeepSeek的R1等推理LLMs在数学和编码等领域展示了专家级的性能,与System 2刻意推理非常相似,实现类似人类的认知能力。
基础概念
双系统理论
人类认知通过两种模式运作:
- System 1:快速、自动和直观,以最小代价快速做出决策
- System 2:较慢、更深思熟虑。System 1对于常规任务,容易出现认知偏差,尤其是复杂或不确定情形, 导致判断错误。System 2依赖于逻辑推理和系统思考,从而做出更准确和理性的决策。通过减轻System 1的偏差,System 2提供了一种更精细的问题解决方法。
推理定义
"推理"指回答涉及复杂、多步骤过程和中间步骤的问题。
- 基础LLMs:具有基本推理能力,处理简单或单步任务。
- 推理LLMs:擅长编码、数学证明、多模态推理等复杂任务,结合"思考"过程, 让基本LLMs努力完成任务
传统LLMs(基础LLMs)与推理LLMs对比:
推理LLMs在训练方法、适应性和学习能力、解决问题的策略以及通用性和可扩展性等方面具有显著优势
蓝色表示sota结果。
大型语言模型是人工智能(AI)重要里程碑。GPT-4o和DeepSeekv3等模型在文本生成、语言翻译和各种感知任务方面表现优异。然而,基础LLMs运作方式类似于System 1推理,依赖于快速、启发式决策。复杂推理任务需要深入、逻辑分析和精确分析,基础LLMs达不到要求。
大模型推理发展史
推理LLMs是语言模型进化的重大进步。推理LLMs时间表:6个路线上进化过程
推理LLMs分析
推理LLMs特性分析
在输出行为上
- 探索与规划:依赖CoT的DeepSeekMath、Quiet-STaR
- 验证和检查:OpenAI的 o1和o3
- 推理长度、时间增大:简单问题没必要
- 过度谨慎、简单问题陷阱
训练过程中
- 数据效率惊人:针对难样本构建慢思考CoT的数据集,模型在医疗、数学场景下的泛化能力显著提升
- 稀疏训练:不需要大量样本、密集奖励反馈,通常只需1/100的样本量。
- 参数特性:与普通LLMs相比,LongCoT训练出来的参数相对均匀。
推理LLMs实现
推理LLMs的主要方法
如何实现推理?多个路线:
- ①结构搜索 Structure Search:遍历空间里各个路径,跳出次优解,找到更好的解法,源自AlphaGo下棋决策思路,如蒙特卡洛树搜索 MCTS——重要路线
- ②奖励建模 Reward Modeling:奖励反馈机制
- ③自我提升 Self Improvements:对每步行动进行反思、校验,逐步优化,如 各种 Star系列
- ④宏观行动 Macro Action:把上一代符号逻辑系统以模版/规则形式植入到LLMs,提升推理能力,分为结果奖励模型(ORM)和过程奖励模型(PRM)
- ⑤强化学习微调 Reinforcement Fine-Tuning:传统强化学习(Q-Learning/DQN/PPO等)引入到语言模型训练,迈出重要一步。示例:DeepSeek R1
细节略,详见论文
推理LLMs评测
不同任务对应数据集、技术方案
数据集具体有:
热门推荐
亮剑精神:李云龙教你如何在职场中披荆斩棘
常脸肿脚肿?营养师推荐8种高钾食物去水肿,吃开心果也有效?
轻松击退水肿:三款食物来帮忙
是水肿还是胖?快看10大利尿食物 助您消除水肿型肥胖
程佳明的爱情困境:家境差异到底有多重要?
大乐透开出千万大奖,但买彩票真的能实现财富自由吗?
避开非法平台,教你合法查询彩票
双色球1.48亿大奖引爆全网:一位老彩民的幸运故事
排列五和七星彩开奖号码揭秘:从心理学到统计学的全方位解析
排列五开奖号码查询神器上线啦!
体彩排列五最新开奖号码揭晓!
武侠小说的前世今生:江湖萧萧班马鸣
中国武侠文化的形成与发展
黄瓜、西红柿、胡萝卜:降尿酸界的“三剑客”
黄瓜:痛风患者的理想食材
商务英语感谢表达,助你职场加分
中西文化差异下的商务感谢表达
辽宁“助残暖冬” 让非遗走进特殊教育学校
我国传统工艺"景泰蓝":铜胎掐丝珐琅,璀璨的非遗瑰宝
春节习俗:过年贴窗花的时间、寓意与讲究
空气能热水器:环保界的“新宠”
纯恨战士:以“恨”之名,打个共鸣的响指吧
澳大利亚热带雨林里的甜蜜诱惑:蚂蚁的最爱
蚂蚁竟然也挑食?揭秘它们的盐糖大战
蚂蚁觅食行为的生态智慧:从信息素通讯到生态系统影响
网络安全转账如何保障
美国公司账户转个人账户:合规操作与税务申报全解析
草莓园里的逐梦人生:“草莓男”的励志故事
更换智能门锁密码的步骤是什么,智能门锁更换密码注意事项有哪些
锦绣中国年丨这个春节,“龙龙”的年味里是浓浓文化味