DeepSeek-R1：通过强化学习激励LLM中的推理能力

创作时间:

作者:

@小白创作中心

引用

CSDN

https://m.blog.csdn.net/lovechris00/article/details/145653433

DeepSeek-R1研究论文通过强化学习（RL）成功提升了大型语言模型（LLMs）的推理能力。该研究首次展示了纯RL训练模型的强大推理能力，并通过知识蒸馏技术将推理能力迁移到更小的模型中，部分小型模型甚至超越了GPT-4o和Claude-3.5-Sonnet。

近年来，大型语言模型（LLMs）在推理任务中的表现逐渐提升，但如何通过后训练（post-training）进一步增强模型的推理能力仍然是一个开放问题。OpenAI的o1系列模型通过增加思维链推理的长度在推理任务中取得了显著进展，但如何有效测试时间缩放仍然是一个挑战。

本文提出了一种通过强化学习（RL）来提升LLMs推理能力的方法，探索了在不依赖监督微调（SFT）的情况下，模型如何通过纯RL自我进化。

DeepSeek-R1-Zero：首次通过纯强化学习（不依赖SFT）训练的模型，展示了强大的推理能力，能够自主发展出复杂的推理行为，如自我验证和反思。
DeepSeek-R1：在RL之前引入了多阶段训练和冷启动数据，解决了DeepSeek-R1-Zero的可读性和语言混合问题，进一步提升了推理性能。
知识蒸馏：将DeepSeek-R1的推理能力蒸馏到更小的密集模型中，显著提升了小模型的推理能力，部分小模型甚至超越了GPT-4o和Claude-3.5-Sonnet。

DeepSeek-R1-Zero：直接在基础模型上应用强化学习，使用组相对策略优化（GRPO）作为RL框架，通过基于规则的奖励系统（准确度和格式奖励）进行训练。
DeepSeek-R1：在RL之前引入冷启动数据和多阶段训练，结合推理导向的RL和拒绝采样，进一步提升模型的推理能力和可读性。
知识蒸馏：使用DeepSeek-R1生成的推理数据对小型模型进行微调，显著提升了小模型的推理能力。

DeepSeek-R1在多个推理基准测试中表现优异，与OpenAI-o1-1217相当，尤其在数学、编码和科学推理任务中表现出色。
DeepSeek-R1-Zero通过纯RL训练，展示了强大的自我进化能力，能够自主发展出复杂的推理行为。
蒸馏模型（如DeepSeek-R1-Distill-Qwen-7B）在多个基准测试中超越了GPT-4o和Claude-3.5-Sonnet，展示了蒸馏的强大潜力。