DeepSeek-V3技术深度解读：6710亿参数的混合专家模型

创作时间:

作者:

@小白创作中心

DeepSeek-V3技术深度解读：6710亿参数的混合专家模型

引用

CSDN

https://blog.csdn.net/wjinjie/article/details/145672468

DeepSeek-V3是DeepSeek系列的最新版本，拥有6710亿总参数，其中每个token激活370亿参数。通过采用多头潜在注意力（MLA）、混合专家模型（MoE）和多Token预测（MTP）等关键技术，DeepSeek-V3在保持高性能的同时，显著降低了训练成本。本文将深入解读DeepSeek-V3的核心技术细节及其创新点。

1、DeepSeek-V3 简介

DeepSeek-V3，是一个拥有6710亿总参数的强大的混合专家（MoE）语言模型，其中每个token激活370亿参数。为了实现高效的推理和成本效益的训练，DeepSeek-V3 继续沿用了 DeepSeek-V2 中的多头潜在注意力（MLA）和DeepSeekMoE架构。

此外，DeepSeek-V3率先采用了一种无辅助损失的负载均衡策略，并设定了多token预测训练目标，以实现更强的性能。团队在14.8万亿个多样化且高质量的token上对DeepSeek-V3进行了预训练，随后通过监督式微调和强化学习阶段来充分发挥其能力。

全面评估表明，DeepSeek-V3优于其他开源模型，并实现了与领先闭源模型相当的性能。尽管其性能卓越，但DeepSeek-V3的完整训练仅需278.8万H800 GPU小时。

总结一下，DeepSeek-V3的主要贡献如下：

沿用了 DeepSeek-V2 中的多头潜在注意力（MLA）和DeepSeekMoE架构，实现了高效的推理与训练。
采用了一种无辅助损失的负载均衡策略，并设定了多token预测训练目标，实现了更强的性能。
对比其他最先进的模型，性能相当的同时，训练成本显著降低，因此其价格能远远低于其他竞品。

2、核心改进点

2.1 多头潜在注意力

多头潜在注意力（MLA）
是DeepSeek-V3中用于优化注意力机制的一种架构。它通过引入低秩压缩技术来减少Key-Value（KV）缓存的大小，同时保持与标准多头注意力（MHA）相当的性能。MLA的核心在于将注意力的Key和Value通过一个低秩的潜在向量进行压缩，从而在推理时显著减少存储和计算需求。

MLA的主要作用是：

减少KV缓存：通过低秩压缩技术，将Key和Value映射到一个低维的潜在空间，从而减少KV缓存的大小。
保持性能：尽管KV缓存被压缩，MLA通过精细的设计保持了与标准多头注意力相当的性能。
优化推理效率：在生成任务中，MLA通过减少KV缓存的大小，显著提高了推理效率。

MLA的具体实现步骤如下：

低秩压缩：将输入的隐藏状态通过一个下投影矩阵映射到低维的潜在空间，生成压缩后的潜在向量。
生成Key和Value：从潜在向量中通过上投影矩阵恢复出Key和Value。
应用RoPE：在生成的Key上应用旋转位置编码（RoPE），以保留位置信息。
计算注意力：将压缩后的Key和Value与查询（Query）结合，通过标准的注意力公式计算注意力输出。
输出：将注意力输出通过一个输出投影矩阵映射回原始维度。

MLA的效果包括：

显著减少KV缓存：在推理时，MLA只需要缓存压缩后的潜在向量和Key，显著减少了KV缓存的大小。
保持性能：尽管KV缓存被压缩，MLA通过精细的设计保持了与标准多头注意力相当的性能。
提高推理效率：在生成任务中，MLA通过减少KV缓存的大小，显著提高了推理效率，尤其是在长文本生成任务中表现突出。

2.2 混合专家模型 MoE

DeepSeekMoE：是一种基于混合专家（MoE）架构的前馈网络（FFN），用于优化模型的训练和推理效率。它结合了无辅助损失的负载均衡策略，旨在减少因负载均衡而导致的模型性能下降，同时保持高效的计算资源利用。

DeepSeekMoE的主要作用包括：

高效计算：通过使用细粒度专家（fine-grained experts）和共享专家（shared experts），DeepSeekMoE在训练和推理时能够更高效地利用计算资源。
负载均衡：引入无辅助损失的负载均衡策略，避免了传统辅助损失方法对模型性能的负面影响。
优化推理：通过限制每个token的路由专家数量，确保推理过程中的负载均衡，同时减少跨节点通信开销。

DeepSeekMoE的具体实现步骤如下：