问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek新模型R1:纯深度学习如何让AI自发涌现出推理能力?

创作时间:
作者:
@小白创作中心

DeepSeek新模型R1:纯深度学习如何让AI自发涌现出推理能力?

引用
36氪
1.
https://www.36kr.com/p/3135022841879040

时隔不到一个月,DeepSeek又一次震动全球AI圈。去年12月,DeepSeek推出的DeepSeek-V3以极低的训练成本实现了与GPT-4和Claude Sonnet 3.5等顶尖模型相媲美的性能,震惊业界。而这次推出的新模型DeepSeek-R1不仅延续了低成本优势,更在技术上实现重大突破——它首次证明了纯深度学习方法可以让AI自发涌现出推理能力。

用最简单的配方,回归最纯粹的强化学习

在DeepSeek-R1推出之前,业界普遍采用在监督微调(SFT)中加入大量思维链(COT)范例,以及使用复杂神经网络奖励模型(如过程奖励模型PRM)来提升模型推理能力。甚至还会引入蒙特卡洛树搜索(MCTS)来优化决策过程。

传统的模型训练路径

而DeepSeek团队在R1的训练过程中,直接实验了三种截然不同的技术路径:直接强化学习训练(R1-Zero)、多阶段渐进训练(R1)和模型蒸馏,全部取得了成功。其中最引人注目的是直接强化学习路径,因为DeepSeek-R1是首个证明这一方法有效的模型。

DeepSeek-R1-Zero选择了一条前所未有的"纯"强化学习路径,完全抛开了预设的思维链模板和监督式微调,仅依靠简单的奖惩信号来优化模型行为。这就像让一个天才儿童在没有任何范例和指导的情况下,纯粹通过不断尝试和获得反馈来学习解题。

R1 Zero的系统提示词设计也非常巧妙,仅包含以下两条规则:

  1. 准确性奖励:模型需要以指定格式(如间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。
  2. 格式奖励:强制要求模型将其思考过程置于标签之间。

这种简单规则让AI在GRPO(Group Relative Policy Optimization)的规则下自我采样+比较,自我提升。GRPO通过组内样本的相对比较来计算策略梯度,有效降低了训练的不稳定性,同时提高了学习效率。

在"顿悟"中学习

DeepSeek的研究团队发现,模型的进步并非均匀渐进的。在强化学习过程中,响应长度会出现突然的显著增长,这些"跳跃点"往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟,暗示着某种深层的认知突破。

在处理一个涉及复杂数学表达式 √a - √(a + x) = x 的问题时,模型突然停下来说"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、这是个值得标记的啊哈时刻),随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的,而不是预先设定的。

这种伴随着顿悟的能力提升下,R1-Zero在数学界享有盛誉的AIME竞赛中从最初的15.6%正确率一路攀升至71.0%的准确率。而让模型对同一问题进行多次尝试时,准确率甚至达到了86.7%。这不是简单的看过了就会做了——因为AIME的题目需要深度的数学直觉和创造性思维,而不是机械性的公式应用。模型基本必须能推理,才可能有这样的提升。

另一个模型确实通过这种方法学会了推理的另一个核心证据,是模型响应长度会根据问题的复杂度自然调节。这种自适应行为表明,它不是在简单地套用模板,而是真正理解了问题的难度,并相应地投入更多的"思考时间"。

最有说服力的或许是模型展现出的迁移学习能力。在完全不同的编程竞赛平台Codeforces上,R1-Zero达到了超过96.3%人类选手的水平。这种跨域表现表明,模型不是在死记硬背特定领域的解题技巧,而是掌握了某种普适的推理能力。

一个聪明,但口齿不清的天才

尽管R1-Zero展现出了惊人的推理能力,但研究者们很快发现了一个严重的问题:它的思维过程往往难以被人类理解。这个现象其实很好理解:R1-Zero完全通过奖惩信号来优化其行为,没有任何人类示范的"标准答案"作为参考。就像一个天才儿童自创了一套解题方法,虽然屡试不爽,但向别人解释时却语无伦次。

为了解决这个问题,研究团队开发了改进版本DeepSeek-R1。通过引入更传统的"cold-start data"(冷启动数据)和多阶段训练流程,R1不仅保持了强大的推理能力,还学会了用人类易懂的方式表达思维过程。

在这一调教下之后,DeepSeek-R1展现出了与OpenAI o1相当甚至在某些方面更优的性能。在MATH基准测试上,R1达到了77.5%的准确率,与o1的77.3%相近;在更具挑战性的AIME 2024上,R1的准确率达到71.3%,超过了o1的71.0%。在代码领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者。

然而,DeepSeek-R1 Zero的潜力似乎更大。它在AIME 2024测试中使用多数投票机制时达到的86.7%准确率——这个成绩甚至超过了OpenAI的o1-0912。这种"多次尝试会变得更准确"的特征,暗示R1-Zero可能掌握了某种基础的推理框架,而不是简单地记忆解题模式。

纯粹强化学习,也许才是通向AGI的意外捷径

DeepSeek-R1的发布让圈内人的焦点都投向了纯强化学习方法,因为它完全可以说得上是打开了AI 进化的一条新路径。R1-Zero——这个完全通过强化学习训练出来的AI模型,展现出了令人惊讶的通用推理能力。它不仅在数学竞赛中取得了惊人成绩。

更重要的是,R1-Zero不仅是在模仿思考,而是真正发展出了某种形式的推理能力。因为在过往的训练方法中,尤其在监督微调中使用训练好的神经网络来评估质量的话,模型可能学会触发奖励模型的特定模式,生成对奖励模型"口味"的内容,而不是真正提升推理能力。换句话说,AI系统找到了获得高奖励但实际上违背训练目标的投机取巧方式。这就是我们常说的奖励欺骗(reward hacking)。但R1-Zero用极简的奖励规则基本避免了奖励欺骗的可能性——规则太简单了,没有什么“口味”可以去模仿。模型在这个情况下发展出的推理能力更可信,也更自然。

这个发现可能会改变我们对机器学习的认识:传统的AI训练方法可能一直在重复一个根本性的错误,我们太专注于让AI模仿人类的思维方式了,业界需要重新思考监督学习在AI发展中的角色。通过纯粹的强化学习,AI系统似乎能够发展出更原生的问题解决能力,而不是被限制在预设的解决方案框架内。

虽然R1-Zero在输出可读性上存在明显缺陷,但这个"缺陷"本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法,却难以用常规语言解释一样。这提示我们:真正的通用人工智能可能需要完全不同于人类的认知方式。

这才是真正的强化学习。就像著名教育家皮亚杰的理论:真正的理解来自于主动建构,而不是被动接受。

本文原文来自微信公众号“腾讯科技”,作者:郝博阳。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号