一文搞懂DeepSeek - 结合冷启动的强化学习
一文搞懂DeepSeek - 结合冷启动的强化学习
DeepSeek-R1模型通过结合冷启动的强化学习方法,成功解决了两个关键问题:如何通过少量高质量数据提升推理性能,以及如何训练出既能产生清晰思维链又能展现强大通用能力的用户友好型模型。本文将详细介绍DeepSeek-R1的四阶段训练方法,包括冷启动、面向推理的强化学习、拒绝采样与监督微调、全场景强化学习。
一、冷启动
冷启动(Cold Start)是指在模型或系统初始运行阶段,由于缺乏足够的历史数据或用户行为信息,而面临难以做出智能决策或提供个性化服务的问题。
在DeepSeek-R1的研发过程中,为了避免强化学习训练初期的这种不稳定冷启动阶段,通过构建长思维链数据和采用特定的数据收集与处理方法,有效地缓解了这一挑战。这些数据通过带有详细反思和验证步骤的提示生成,并用于微调模型。同时,DeepSeek还收集了DeepSeek-R1-Zero的输出,并由人类标注者进行精炼和优化。
- 长思维链数据:这是一种特殊的数据集,用于帮助模型在强化学习初期更好地理解和处理复杂的任务。它包含了详细的步骤和逻辑链条,可以引导模型进行深入的反思和验证。
- 微调模型:使用这些长思维链数据对模型进行微调,可以使其更好地适应强化学习的环境,并在后续的训练中表现出更出色的性能。
- DeepSeek-R1-Zero的输出:这是另一个数据源,它提供了模型在处理某些任务时的输出。这些输出被收集起来,并由人类标注者进行进一步的精炼和优化,以确保数据的质量和准确性。
- 人类标注者的作用:人类标注者在这里扮演了重要的角色。他们不仅需要对收集到的数据进行清理和整理,还需要对数据进行进一步的优化和精炼,以确保模型在训练过程中能够充分利用这些数据。
二、面向推理的强化学习
面向推理的强化学习(Reasoning-oriented RL)是一种将强化学习应用于推理任务的学习范式。它通过智能体与环境的交互、奖励机制的设计以及策略的优化来不断提升模型的推理能力。
在利用冷启动数据微调DeepSeek-V3-Base后,DeepSeek采用了与DeepSeek-R1-Zero相同的强化学习训练,以提升模型在编码、数学、科学和逻辑推理等推理密集型任务上的能力。
训练过程中,DeepSeek观察到思维链(CoT)存在语言混合现象,尤其在涉及多种语言时。为此,DS引入了语言一致性奖励,根据目标语言单词比例计算,以缓解该问题。尽管这可能导致模型性能略有下降,但提高了输出的可读性。最终,DeepSeek将推理任务准确性和语言一致性奖励相加,形成最终奖励,直至模型在推理任务上收敛。
三、拒绝采样与监督微调
拒绝采样(Rejection Sampling)与监督微调(SFT)是解决不同问题的两种技术。拒绝采样主要用于从复杂分布中生成样本,而监督微调则用于在预训练模型的基础上快速适应新的监督学习任务。
当面向推理的强化学习收敛后,DeepSeek-R1利用所得检查点收集后续轮次所需的监督微调(SFT)数据。与主要关注推理的初始冷启动数据不同,这一阶段纳入了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务方面的能力。
四、全场景强化学习
全场景强化学习(RL for all Scenarios)旨在通过整合多源奖励信号和多样化数据分布,训练出能在各种场景下提供有用、无害且具备强大推理能力的模型。
为进一步使模型符合人类偏好,DeepSeek- R1实施了第二阶段强化学习,旨在提升模型的帮助性、无害性及推理能力。R1采用组合奖励信号和多样提示分布进行训练。对于推理数据,遵循DeepSeek-R1-Zero的方法论,利用基于规则的奖励指导学习。对于通用数据,依靠奖励模型捕捉人类偏好。
基于DeepSeek-V3管道,采用类似偏好对分布和训练提示。在帮助性方面,专注于最终摘要的实用性和相关性。在无害性方面,评估整个响应以识别和缓解潜在风险。整合奖励信号和多样数据分布,训练出推理出色且优先考虑帮助性和无害性的模型。