问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-R1 技术深度解析:强化学习驱动的推理能力提升

创作时间:
作者:
@小白创作中心

DeepSeek-R1 技术深度解析:强化学习驱动的推理能力提升

引用
1
来源
1.
https://www.bilibili.com/read/mobile?id=40635823

DeepSeek-R1是DeepSeek团队开发的第一代推理模型,通过强化学习驱动的训练方式,展现了强大的推理能力。DeepSeek-R1-Zero通过大规模强化学习训练,无需监督微调即可展现强大的推理能力。为解决其语言混乱等问题,DeepSeek-R1结合了冷启动数据微调和多阶段训练流程,进一步提升了模型性能,与OpenAI-o1-1217相当。此外,还开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个从 DeepSeek-R1 蒸馏出来的密集模型(1.5B、7B、8B、14B、32B、70B),这些模型是基于 Qwen 和 Llama。

一、研究背景与动机

在当前的人工智能研究中,大型语言模型(LLMs)在推理任务上已经取得了显著的进展,但仍然面临诸多挑战。尽管强化学习(RL)被认为是一种有潜力提升模型推理能力的方法,其在不依赖监督数据的情况下对 LLMs 的优化潜力尚未被充分挖掘。DeepSeek 团队通过开发 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,探索了强化学习在提升推理能力方面的应用,并成功展示了其在无需大量监督数据的情况下实现强大性能的可能性。

二、DeepSeek-R1-Zero:纯强化学习的突破

DeepSeek-R1-Zero 是该研究的起点,它基于 DeepSeek-V3-Base 模型,采用 Group Relative Policy Optimization(GRPO)算法进行强化学习训练。GRPO 算法通过组内分数估计基线,避免了对 critic 模型的依赖,从而降低了训练成本。该模型通过基于规则的奖励系统进行训练,奖励系统包括准确性奖励和格式奖励,引导模型在输出答案前先展示思考过程。DeepSeek-R1-Zero 在训练过程中展现了自进化特性,能够自主学习复杂的推理策略,例如反思和探索多种问题解决路径。这一过程被称为“aha moment”,即模型通过重新评估初始方法为问题分配更多思考时间,从而实现推理能力的显著提升。

三、DeepSeek-R1:多阶段训练与优化

为了进一步提升模型的推理能力并解决 DeepSeek-R1-Zero 在可读性和语言混合方面的问题,DeepSeek 团队开发了 DeepSeek-R1。该模型的训练流程包括多个阶段:

(一)冷启动(Cold Start)

通过收集少量高质量的长链推理(Long CoT)数据对 DeepSeek-V3-Base 模型进行微调,作为强化学习的初始 actor。这些数据经过精心挑选,包含总结标记,并过滤掉不友好的回复,以优化模型的可读性和用户友好性。

(二)面向推理的强化学习(Reasoning-oriented RL)

在冷启动的基础上,DeepSeek-R1 应用了与 DeepSeek-R1-Zero 类似的强化学习过程,但更加注重提升模型在编码、数学、科学和逻辑推理等任务上的能力。此外,引入了语言一致性奖励,以减轻多语言混合问题。

(三)拒绝采样与监督微调(Rejection Sampling and SFT)

当推理导向的强化学习收敛后,利用得到的 checkpoint 通过拒绝采样生成新的监督微调(SFT)数据。这些数据不仅涵盖了推理任务,还扩展到写作、角色扮演和通用任务,进一步扩展了模型的能力。

(四)面向所有场景的强化学习(Reinforcement Learning for all Scenarios)

在最终阶段,实施了第二阶段强化学习,旨在提高模型的有用性和无害性。这一阶段的训练不仅关注推理任务,还通过 reward 模型对复杂场景提供偏好信息,确保模型的输出符合人类偏好。

四、模型蒸馏与小型化

为了提高推理模型的效率,DeepSeek 团队将 DeepSeek-R1 的推理能力通过知识蒸馏技术转移到 Qwen 和 Llama 系列的开源模型中。通过精心策划的 800k 个样本进行微调,成功将大型模型的推理能力小型化,显著提升了小型模型在推理任务上的性能。

五、研究结论与局限性

(一)研究结论

  1. 纯强化学习的有效性:DeepSeek-R1-Zero 成功展示了纯强化学习在激励 LLMs 推理能力方面的潜力,无需依赖大量监督数据即可实现强大的性能。
  2. 多阶段训练的优势:DeepSeek-R1 通过结合冷启动、多阶段强化学习和知识蒸馏等技术,有效提升了模型的推理能力、用户友好性和效率,并在多个基准测试中取得了与 OpenAI 模型相媲美的性能。
  3. 自进化现象的启示:研究揭示了强化学习在驱动模型自主学习复杂推理策略方面的潜力,为未来开发更智能、更自主的模型提供了新的思路。
  4. 开源贡献:DeepSeek 团队开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及多个基于 Qwen 和 Llama 的小型密集模型,为研究社区提供了宝贵的资源。

(二)局限性与未来方向

尽管 DeepSeek-R1 在推理能力上取得了显著进展,但仍存在一些局限性:

  • 通用能力不足:在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上,DeepSeek-R1 的表现仍不及 DeepSeek-V3。
  • 语言混合问题:在处理非中英文查询时,模型可能会出现语言混合问题。
  • 提示敏感性:模型对提示词较为敏感,少样本提示会降低其性能。
  • 软件工程任务的应用受限:由于评估时间较长,大规模强化学习在软件工程任务上的应用尚不充分。

针对这些局限性,未来的研究方向包括提升模型的通用能力、解决语言混合问题、优化提示工程以及探索在软件工程任务上的应用。

六、原文链接

https://arxiv.org/abs/2501.12948

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号