问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek 模型的训练方法(初)

创作时间:
作者:
@小白创作中心

DeepSeek 模型的训练方法(初)

引用
搜狐
1.
https://www.sohu.com/a/858840354_121502789

DeepSeekV2、V3 和 R1 模型的训练方法各有特点,下面将详细介绍它们各自的训练过程和技术细节。

DeepSeek V2

训练方法

  • 预训练:DeepSeek V2 在一个包含 8.1 万亿 tokens 的多样化和高质量语料库上进行了预训练 。这确保了模型能够学习到丰富的语言结构和模式。

  • 监督微调(SFT):在全面预训练之后,DeepSeek V2 进行了监督式微调,使用标注数据来调整模型参数,以更好地适应特定任务 。

  • 强化学习(RL):为了进一步提升性能,DeepSeek V2 采用了强化学习技术进行优化 。

架构优化

  • MLA 注意力机制:通过多头潜在注意力(Multi-head Latent Attention, MLA),减少了推理时的 KV Cache 需求,提高了推理效率 。

  • MoE 网络:采用高性能 MoE 架构,使得训练更加经济高效 。

DeepSeek V3

训练方法

  • 预训练:DeepSeek V3 同样基于大规模的数据集进行预训练,但其规模更大,参数量达到了 6710 亿 。

  • 并行策略:利用 HAI-LLM 框架支持的 16 路流水线并行(PP)、跨越 8 个节点的 64 路专家并行(EP)以及 ZeRO-1 技术来实现高效的分布式训练 。

  • GRPO 算法:在某些版本中,如 R1,使用了 GRPO(Group Relative Policy Optimization)算法来进行强化学习阶段的训练 。

架构优化

  • 选择性激活:仅激活与当前输入相关的“专家”,从而降低了计算成本,同时保持了高性能 。

  • 无辅助损失的负载均衡策略:用于 DeepSeekMoE 中,减轻因需要保证 Expert 负载均衡而导致的性能下降 。

DeepSeek R1

训练方法

  • 冷启动微调:R1 最初基于少量高质量的人工标注数据进行微调,为后续的强化学习提供了一个良好的起点 。

  • 强化学习(RL):R1 使用了强化学习来增强其推理能力,特别是在数学、编程等复杂任务上的表现 。

  • 蒸馏技术:通过将大模型的能力蒸馏到较小的模型中,使得小型模型也能获得类似的推理能力 。

训练流程

  • R1-Zero:首先尝试了纯 RL 训练,证明了即使没有 SFT 数据,仅通过 RL 大模型也具备强大的推理能力 。

  • 逐步升级:随后,R1 通过引入更多的数据和多次 RL 循环,逐步提升了其推理能力和稳定性 。

总结

DeepSeek V2、V3 和 R1 的训练方法不仅依赖于传统的预训练和监督微调,还融入了先进的并行训练策略、创新的架构设计以及强化学习技术。这些方法共同作用,使得这些模型能够在处理各种任务时表现出色,并且在计算资源的有效利用方面具有显著优势。每个模型都有其独特之处,针对不同的应用场景进行了优化。例如,R1 更侧重于逻辑推理和编程任务,而 V3 则是一个通用的大规模语言模型,适用于广泛的应用场景。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号