资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeek-V3模型深度解析：架构、训练方法与MiniMax-01对比

创作时间:

作者:

@小白创作中心

DeepSeek-V3模型深度解析：架构、训练方法与MiniMax-01对比

引用

CSDN

https://blog.csdn.net/qq_35812205/article/details/144918818

DeepSeek-V3是一个混合专家（MoE）语言模型，整体参数规模达到671B，其中每个token激活的参数量为37B。评估结果表明，DeepSeek-V3在性能上超越了其他开源模型，并能够与主流闭源模型相媲美。

DeepSeek-V3模型概述

DeepSeek-V3基于提升性能和降低成本的双重目标，在架构设计方面，采用了MLA来确保推理效率，并使用DeepSeekMoE来实现经济高效的训练。这两种架构在DeepSeek-V2中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。

基本架构

模型架构

DeepSeek-V3的基础架构建立在Transformer框架之上。为实现高效推理和降低训练成本，该模型采用了经DeepSeek-V2验证的MLA和DeepSeekMoE技术。相比DeepSeek-V2，本研究在DeepSeekMoE中创新性地引入了无辅助损失负载均衡策略，有效降低了负载均衡过程对模型性能的影响。

MTP提升响应速度

（1）什么是投机解码？

简单来说，这就像是“小助手先写，老板批量审核”。让小模型先快速生成多个token(令牌/字)，然后让大模型一次性并行验证这些令牌。由于小模型参数少，写草稿速度快，可以在大模型验证一次的时间内写好几个字(令牌)。而大模型可以并行的去验证小模型写好的几个字，从而降低反应时间。

（2）MTP + 投机解码 = 极速 AI 体验！

训练阶段（图三）：仍然保持自回归的生成方式，确保生成序列的正确性。同时采用Teacher-Forcing进行学习，增强模型对多token预测的能力。

DeepSeek V3在主模型的最后一层增加了一个MTP模块，仅由一个Transformer Block组成。

（3）推理阶段（下图）：采用了Self-Speculative Decoding的思路，让一个模型，两种用途。首先，使用DeepSeek V3 + MTP作为Draft Model生成多个token。由于MTP模块仅由一个Transformer Block组成，比主模型轻量级，因此生成速度远超直接调用主模型🔥。然后，将生成的token传入主模型进行验证，确保文本质量。

Infra架构

计算集群架构

DeepSeek-V3的训练环境是一个配备2048个NVIDIA H800 GPU的大规模计算集群。该集群中的每个计算节点包含8个GPU，这些GPU通过节点内的NVLink和NVSwitch实现高速互连。节点之间则采用InfiniBand (IB)技术进行高效通信。

训练框架设计

模型训练基于自主研发的HAI-LLM框架，这是一个经过优化的高效轻量级训练系统。DeepSeek-V3的并行策略包含三个层面：16路流水线并行(Pipeline Parallelism, PP)、跨8个节点的64路专家并行(Expert Parallelism, EP)，以及ZeRO-1数据并行(Data Parallelism, DP)。

为实现高效训练，该框架进行了多方面的工程优化：

1.开发了DualPipe流水线并行算法，相比现有PP方法，该算法显著减少了流水线停滞现象。更重要的是，它实现了前向和后向过程中计算与通信阶段的重叠，有效解决了跨节点专家并行带来的通信负载问题。

2.优化了跨节点全对全通信内核，充分利用IB和NVLink带宽，同时减少了通信所需的流式多处理器(SMs)资源占用。

3.通过精细的内存管理优化，使得模型训练无需依赖开销较大的张量并行(Tensor Parallelism, TP)技术。

在已有低精度训练技术的基础上，设计了专门的FP8训练混合精度框架。在这一框架中，大部分计算密集型操作采用FP8执行，而关键操作则保持原有数据格式，以实现训练效率和数值稳定性的最优平衡。

训练方法

1、pre-training

数据构建

相比DeepSeek-V2，本次预训练语料库在提升数学和编程样本占比的同时，扩大了英语和中文之外的多语言覆盖范围。数据处理流程也经过改进，在保持语料多样性的同时降低了数据冗余。系统采用文档打包方法维持数据完整性，但训练过程中不使用跨样本注意力掩码。最终训练语料库包含14.8T经tokenizer处理的高质量多样化token。

在DeepSeekCoder-V2的训练中发现，填充中间（FIM）策略在保持下一个token预测能力的同时，还能让模型基于上下文准确预测中间文本。因此DeepSeek-V3的预训练也采用了这一策略。具体实现上，使用前缀-后缀-中间（PSM）框架构建如下数据结构：

<|fim_begin|> pre<|fim_hole|> suf<|fim_end|> middle<|eos_token|>。

该结构在预打包阶段应用于文档级别，FIM策略的应用比率为0.1，与PSM框架保持一致。

DeepSeek-V3采用词表大小为128K的字节级BPE tokenizer。为提高多语言压缩效率，对预分词器和训练数据进行了相应调整。与DeepSeek-V2相比，新的预分词器引入了标点符号和换行符的组合token。然而这种设计在处理无终端换行符的多行提示词时可能产生token边界偏差，尤其是在少样本评估场景。为此，训练时对一定比例的组合token进行随机分割，使模型接触更多特殊情况来减轻这种偏差。

模型参数细节

系统采用61层Transformer结构，隐藏维度为7168。所有可学习参数采用标准差0.006的随机初始化。

在MLA结构中，注意力头数量nh设为128，每个头的维度dh为128。KV压缩维度dc为512，查询压缩维度dc'为1536。解耦的查询和键部分，每个头的维度dhR设为64。

除前三层外，所有FFN层都替换为MoE层，每个MoE层配置1个共享专家和256个路由专家，专家的中间隐藏维度为2048。

在路由专家中，每个token激活8个专家，且最多分配到4个节点。多token预测深度D设为1，即每个token除预测下一个精确token外，还需预测一个额外token。

与DeepSeek－V2类似，DeepSeek－V3在压缩潜在向量后添加了RMSNorm层，并在宽度瓶颈处引入额外缩放因子。在此配置下，模型总参数量达到671B，其中每个token激活37B参数。

超参数设置

模型采用AdamW优化器，参数设置为：β1=0.9, β2=0.95，权重衰减为0.1。预训练阶段最大序列长度为4K，在14.8Ttoken上进行训练。

学习率调度采用以下策略：首先在前2K步内从0线性增加至2.2×10−4；保持该学习率直至处理完10T训练token；随后在4．3Ttoken区间内按余弦衰减曲线降至2.2×10−5。在最后500Btoken的训练中，先用2.2×10−5的固定学习率训练333Btoken，再以7.3×10−6的学习率完成剩余167Btoken。

梯度裁剪范数设为1.0。批量大小采用动态调整策略，在前469Btoken训练过程中从3072逐步增加至15360，此后保持不变。模型采用流水线并行将不同层分配到不同GPU，每层的路由专家均匀分布在8个节点的64个GPU上。节点限制路由中，每个token最多分配至4个节点（M=4）。

在无辅助损失负载均衡方面，前14.3Ttoken的偏置更新速度γ设为0.001，剩余500Btoken设为0。平衡损失参数α设为0.0001，仅用于防止单个序列内出现极端不平衡。MTP损失权重λ在前10Ttoken中为0.3，剩余4.8Ttoken中降至0.1。

长上下文扩展

DeepSeek－V3采用与DeepSeek－V2相似的方法实现长上下文处理能力。预训练完成后，系统使用YaRN进行上下文扩展，通过两个各包含1000步的额外训练阶段，将上下文窗口从4K依次扩展至32K和128K。系统沿用了DeepSeek－V2的YaRN配置，仅将其应用于解耦的共享键ktR。两个阶段采用相同的超参数设置：尺度s=40, α=1，β=32，缩放因子t=0.1lns+1。

第一阶段将序列长度设为32K，批量大小为1920。第二阶段将序列长度提升至128K，相应地将批量大小调整为480。两个阶段均采用与预训练末期相同的学习率7.3×10−6。

经过这两阶段的扩展训练，DeepSeek－V3成功实现了对最长128K输入序列的高效处理。如图8所示，在完成监督微调后，模型在“大海捞针”（NIAH）测试中表现出色，在整个128K的上下文范围内均保持稳定的性能表现。

2、post training

研究构建了包含150万个多领域实例的指令调优数据集，针对不同领域特点采用了相应的数据创建方法。

推理数据处理：在数学、代码竞赛和逻辑谜题等推理类任务中，系统采用内部DeepSeek-R1模型生成数据。虽然R1生成的数据具有较高的准确性，但同时存在推理冗长、格式不规范和输出过长等问题。因此，研究的核心目标是在保持R1模型高准确性的同时，实现输出的清晰简洁。

具体实施方法如下：首先针对特定领域（如代码、数学或通用推理）开发专家模型，采用SFT和RL相结合的训练流程。该专家模型随后作为最终模型的数据生成器。

对每个训练实例，系统生成两类SFT样本：一类是问题与原始答案的直接配对，另一类则引入系统提示词，将其与问题和R1答案组合。系统提示经过优化设计，包含了引导模型生成具有自我反思和验证机制响应的指令。

在RL阶段，模型通过高温采样生成响应，即使在没有明确系统提示的情况下，也能有效融合R1生成数据和原始数据的特征。经过数百轮RL迭代，中间模型成功整合了R1的响应模式，显著提升了整体性能。随后，研究采用拒绝采样方法，利用专家模型作为数据源，为最终模型筛选高质量的SFT数据。这种方法既保持了DeepSeek-R1的高准确性，又确保了输出的简洁性和有效性。

非推理数据处理：对于创意写作、角色扮演和基础问答等非推理任务，系统利用DeepSeek-V2.5生成响应，并通过人工标注确保数据质量。

SFT训练配置：研究对DeepSeek-V3-Base进行了两轮SFT数据集训练，采用余弦衰减的学习率调度策略，初始学习率为5×10−6，逐步降低至1×10−6。训练过程中采用多样本序列打包技术，同时通过样本掩码机制确保各样本间的独立性。

3、RL

在强化学习过程中，系统同时采用规则型和模型型两种奖励模型(Reward Model, RM)。

规则型奖励模型：对于可通过明确规则验证的任务，系统采用规则型奖励机制进行反馈评估。例如，在处理具有确定性答案的数学问题时，要求模型在特定格式（如方框内）给出最终答案，从而可以通过规则进行自动验证。同样，在处理LeetCode编程题时，系统可通过编译器执行测试用例生成客观反馈。这种基于规则的验证方法具有较高的可靠性，能有效防止模型的投机行为。

模型型奖励模型：对于具有标准答案但形式灵活的问题，系统使用奖励模型评估输出与标准答案的匹配程度。而对于创意写作等缺乏标准答案的任务，奖励模型则基于问题和回答的整体性给出评估反馈。该奖励模型基于DeepSeek-V3的SFTcheckpoint进行训练。为增强模型可靠性，系统构建的偏好数据不仅包含最终评分，还包含推导评分的完整推理过程，这种设计有效降低了特定任务中的奖励扭曲风险。

群组相对策略优化(Group Relative Policy Optimization, GRPO)

v3采用与DeepSeek－V2相似的GRPO方法。这种方法不需要与策略模型规模相当的评论家模型，而是通过群组评分估计基线。具体实现中，对每个问题q，GRPO从原策略模

JGRO(θ)=E[q∼P(Q),{oi}i=1G∼πθold(O∣q)]1G∑i=1G(min(πθ(oi∣q)πθodd(oi∣q)Ai,clip(πθ(oi∣q)πθold(oi∣q),1−ε,1+ε)Ai)−βDKL(πθ∣∣πref)),DKL(πθ∣∣πref)=πref(oi∣q)πθ(oi∣q)−logπref(oi∣q)πθ(oi∣q)−1,
其中ε和β表示超参数；πref代表参考模型；Ai表示优势函数，其计算基于每组内输出所对应的奖励序列r1,r2,…,rG。

Ai=ri−mean({r1,r2,⋯,rG})std({r1,r2,⋯,rG})
在RL过程中，v3融合了编程、数学、写作、角色扮演和问答等多领域的提示词任务。这种多样化的训练策略不仅提高了模型对人类偏好的适应性，还在基准测试中取得了显著提升，特别是在监督微调数据有限的场景下表现出色。

MiniMax-01与DeepSeek-V3对比

MiniMax-01和DeepSeek-V3都是致力于突破现有LLM性能瓶颈的创新模型，各有侧重：

MiniMax-01更注重长上下文处理能力，其线性注意力机制和混合架构使其在处理超长序列时更具优势。
DeepSeek-V3则在保持高效训练和推理的同时，在数学和编码任务上表现出色，并且在长上下文理解方面也展现出强大的能力。

两者都采用了MoE架构和先进的训练策略，在提升模型性能的同时，也考虑了训练成本和效率。未来，随着硬件和算法的不断发展，MiniMax-01和DeepSeek-V3都有望在各自的领域取得更大的突破，推动LLM的发展。

方面	MiniMax-01	DeepSeek-V3
模型架构	基于线性注意力机制，采用混合架构(Hybrid-Lightning)，并集成了MoE架构。	基于Transformer架构，采用MLA和DeepSeekMc，并引入了辅助损失无关的负载均衡策略。
参数规模	4560亿总参数，459亿激活参数。	6710亿总参数，370亿激活参数。
训练数据	14.8万亿token，涵盖学术文献、书籍、网络内容和编程代码等。	14.8万亿token，涵盖高质量、多样化的文本数据，并优化了数学和编程样本的比例。
训练策略	采用三阶段训练方法，将上下文窗口扩展到100万token，并最终外推到400万token。	采用两阶段上下文扩展训练，将上下文窗口从4K扩展到最大16K。
训练成本	未明确说明，但强调其训练效率高。	278.8万个H800 GPU小时，总成本约为557.6万美元。
多模态能力	MiniMax-VL-01通过集成图像编码器和图像适配器，扩展了模型的多模态理解能力。	未提及多模态能力。
性能表现	在长上下文处理方面表现出色，在Ruler和LongBench-V2等长上下文基准测试中表现优异。	在大多数基准测试中表现优异，尤其是在数学和编码任务上。DeepSeek-V3也展现出强大的能力，例如在FRAMES和LongBench v2上。
优势	- 线性注意力机制和混合架构使其在处理超长上下文时更具优势。- MoE架构和全局路由策略提高了训练效率。- 变长环注意力和改进的LASP算法进一步提升了长上下文处理能力。	- MLA和DeepSeekMoE架构在保证高效训练和推理的同时，实现了强大的性能。- 辅助损失无关的负载均衡策略和多token预测训练模型性能。- FP8混合精度训练框架降低了训练成本。
局限性	- 混合架构中仍保留部分softmax注意力层。可能影响长上下文处理效率。- 复杂编程任务的性能有待提升。- 缺乏对长上下文检索和推理能力的更深入评估。	- 推荐的部署单元较大，可能对小型团队造成负担。- 推理速度仍有提升空间。

参考资料

[1] DeepSeek-V3技术报告解读

[2] DeepSeek V3详细解读：模型&Infra建设

[3] 深挖DeepSeek的MTP为何秒提响应速度-贝贝和乖乖爸爸