DeepSeek 模型的训练方法（初）

创作时间:

作者:

@小白创作中心

DeepSeek 模型的训练方法（初）

引用

搜狐

https://www.sohu.com/a/858840354_121502789

DeepSeekV2、V3 和 R1 模型的训练方法各有特点，下面将详细介绍它们各自的训练过程和技术细节。

DeepSeek V2

训练方法

预训练：DeepSeek V2 在一个包含 8.1 万亿 tokens 的多样化和高质量语料库上进行了预训练。这确保了模型能够学习到丰富的语言结构和模式。
监督微调（SFT）：在全面预训练之后，DeepSeek V2 进行了监督式微调，使用标注数据来调整模型参数，以更好地适应特定任务。
强化学习（RL）：为了进一步提升性能，DeepSeek V2 采用了强化学习技术进行优化。

架构优化

MLA 注意力机制：通过多头潜在注意力（Multi-head Latent Attention, MLA），减少了推理时的 KV Cache 需求，提高了推理效率。
MoE 网络：采用高性能 MoE 架构，使得训练更加经济高效。

DeepSeek V3

训练方法

预训练：DeepSeek V3 同样基于大规模的数据集进行预训练，但其规模更大，参数量达到了 6710 亿。
并行策略：利用 HAI-LLM 框架支持的 16 路流水线并行（PP）、跨越 8 个节点的 64 路专家并行（EP）以及 ZeRO-1 技术来实现高效的分布式训练。
GRPO 算法：在某些版本中，如 R1，使用了 GRPO（Group Relative Policy Optimization）算法来进行强化学习阶段的训练。

架构优化

选择性激活：仅激活与当前输入相关的“专家”，从而降低了计算成本，同时保持了高性能。
无辅助损失的负载均衡策略：用于 DeepSeekMoE 中，减轻因需要保证 Expert 负载均衡而导致的性能下降。

DeepSeek R1

训练方法

冷启动微调：R1 最初基于少量高质量的人工标注数据进行微调，为后续的强化学习提供了一个良好的起点。
强化学习（RL）：R1 使用了强化学习来增强其推理能力，特别是在数学、编程等复杂任务上的表现。
蒸馏技术：通过将大模型的能力蒸馏到较小的模型中，使得小型模型也能获得类似的推理能力。

训练流程

R1-Zero：首先尝试了纯 RL 训练，证明了即使没有 SFT 数据，仅通过 RL 大模型也具备强大的推理能力。
逐步升级：随后，R1 通过引入更多的数据和多次 RL 循环，逐步提升了其推理能力和稳定性。

总结

DeepSeek V2、V3 和 R1 的训练方法不仅依赖于传统的预训练和监督微调，还融入了先进的并行训练策略、创新的架构设计以及强化学习技术。这些方法共同作用，使得这些模型能够在处理各种任务时表现出色，并且在计算资源的有效利用方面具有显著优势。每个模型都有其独特之处，针对不同的应用场景进行了优化。例如，R1 更侧重于逻辑推理和编程任务，而 V3 则是一个通用的大规模语言模型，适用于广泛的应用场景。

热门推荐

娃尔刘畅：从搭档到朋友，这对荧幕CP的现实关系解读