问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-R1:通过强化学习激励LLM中的推理能力

创作时间:
作者:
@小白创作中心

DeepSeek-R1:通过强化学习激励LLM中的推理能力

引用
CSDN
1.
https://m.blog.csdn.net/lovechris00/article/details/145653433

DeepSeek-R1研究论文通过强化学习(RL)成功提升了大型语言模型(LLMs)的推理能力。该研究首次展示了纯RL训练模型的强大推理能力,并通过知识蒸馏技术将推理能力迁移到更小的模型中,部分小型模型甚至超越了GPT-4o和Claude-3.5-Sonnet。

1. 研究背景与动机

近年来,大型语言模型(LLMs)在推理任务中的表现逐渐提升,但如何通过后训练(post-training)进一步增强模型的推理能力仍然是一个开放问题。OpenAI的o1系列模型通过增加思维链推理的长度在推理任务中取得了显著进展,但如何有效测试时间缩放仍然是一个挑战。

本文提出了一种通过强化学习(RL)来提升LLMs推理能力的方法,探索了在不依赖监督微调(SFT)的情况下,模型如何通过纯RL自我进化。

2. 主要贡献

  • DeepSeek-R1-Zero:首次通过纯强化学习(不依赖SFT)训练的模型,展示了强大的推理能力,能够自主发展出复杂的推理行为,如自我验证和反思。
  • DeepSeek-R1:在RL之前引入了多阶段训练和冷启动数据,解决了DeepSeek-R1-Zero的可读性和语言混合问题,进一步提升了推理性能。
  • 知识蒸馏:将DeepSeek-R1的推理能力蒸馏到更小的密集模型中,显著提升了小模型的推理能力,部分小模型甚至超越了GPT-4o和Claude-3.5-Sonnet。

3. 方法概述

  • DeepSeek-R1-Zero:直接在基础模型上应用强化学习,使用组相对策略优化(GRPO)作为RL框架,通过基于规则的奖励系统(准确度和格式奖励)进行训练。
  • DeepSeek-R1:在RL之前引入冷启动数据和多阶段训练,结合推理导向的RL和拒绝采样,进一步提升模型的推理能力和可读性。
  • 知识蒸馏:使用DeepSeek-R1生成的推理数据对小型模型进行微调,显著提升了小模型的推理能力。

4. 实验结果

  • DeepSeek-R1在多个推理基准测试中表现优异,与OpenAI-o1-1217相当,尤其在数学、编码和科学推理任务中表现出色。
  • DeepSeek-R1-Zero通过纯RL训练,展示了强大的自我进化能力,能够自主发展出复杂的推理行为。
  • 蒸馏模型(如DeepSeek-R1-Distill-Qwen-7B)在多个基准测试中超越了GPT-4o和Claude-3.5-Sonnet,展示了蒸馏的强大潜力。

5. 讨论与未来工作

  • 蒸馏 vs. 强化学习:蒸馏方法在小型模型上表现优异,而大规模RL训练则需要巨大的计算资源,且效果可能不如蒸馏。
  • 失败的尝试:过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)等方法在扩展性和训练复杂度上存在挑战,未能取得显著效果。
  • 未来方向:计划进一步提升DeepSeek-R1在函数调用、多轮对话、复杂角色扮演等任务中的能力,并解决语言混合问题。

6. 结论

本文通过强化学习和知识蒸馏,成功提升了大型语言模型的推理能力。DeepSeek-R1在多个推理任务中表现优异,且通过蒸馏方法,小型模型也能获得强大的推理能力。未来的工作将进一步提升模型的通用能力和多语言处理能力。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号