问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-V2论文解读:混合专家架构的新突破

创作时间:
作者:
@小白创作中心

DeepSeek-V2论文解读:混合专家架构的新突破

引用
CSDN
1.
https://blog.csdn.net/qq_22866291/article/details/145520204

DeepSeek-V2作为一款兼具强大性能、高效训练与推理能力的混合专家(MoE)语言模型,其236B的总参数规模在处理每个令牌时仅激活21B参数,同时支持长达128K令牌的上下文长度,为自然语言处理领域带来了新的突破。本文将深入探讨DeepSeek-V2的技术细节,包括其创新架构、预训练过程、对齐方法以及性能评估,旨在为技术人员提供全面且深入的技术解读。

一、引言

在大语言模型(LLMs)蓬勃发展的浪潮中,DeepSeek-V2脱颖而出,成为一款兼具强大性能、高效训练与推理能力的混合专家(MoE)语言模型。它拥有236B总参数,在处理每个令牌时仅激活21B参数,且支持长达128K令牌的上下文长度,为自然语言处理领域带来了新的突破。本文将深入探讨DeepSeek-V2的技术细节,包括其创新架构、预训练过程、对齐方法以及性能评估,旨在为技术人员提供全面且深入的技术解读。

二、模型架构

(一)多头部潜在注意力(MLA):重塑推理效率

传统Transformer模型中的多头注意力(MHA)机制在生成过程中,因庞大的键值(KV)缓存需求,严重制约了推理效率。为攻克这一难题,DeepSeek-V2引入了MLA机制。

MLA的核心在于低秩键值联合压缩技术。在推理阶段,通过特定的投影矩阵(如WDKV、WUK、WUV)将键值压缩为低维潜在向量ctKV,大幅削减了KV缓存。与MHA相比,MLA仅需缓存ctKV及携带旋转位置嵌入(RoPE)的ktR,缓存元素数量从2nhdhl锐减至(dc+dhR)l(在DeepSeek-V2中,dc设为4dh,dhR设为dh/2,其KV缓存仅相当于2.25组GQA,但性能更优)。例如,在实际部署中,这使得DeepSeek-V2能够处理更大的批处理规模,显著提升了推理效率。

此外,为解决RoPE与低秩KV压缩的兼容性问题,MLA采用了去耦RoPE策略。通过引入额外的多头查询qt,iR和共享键ktR来承载RoPE,确保了在不影响性能的前提下,有效避免了因RoPE应用导致的推理效率下降。

(二)DeepSeekMoE:经济高效的训练架构

在Feed-Forward Networks(FFNs)方面,DeepSeek-V2采用了DeepSeekMoE架构,该架构在专家分割和共享专家设置上进行了创新优化。

其将专家细粒度分割,并隔离部分共享专家,有效提升了专家专业化程度和知识获取的精准性。在计算FFN输出时,依据令牌与专家的亲和力si,t,经top-K选择和归一化确定门控值gi,t,从而精准激活路由专家,实现高效计算资源分配。与传统MoE架构(如GShard)相比,DeepSeekMoE在相同的激活和总专家参数条件下,性能优势显著。

为控制专家并行训练中的通信开销和负载均衡,DeepSeek-V2设计了一系列有效机制。设备限制路由机制确保每个令牌的目标专家最多分布在M个设备上(实践中M≥3时性能良好),有效降低了MoE相关通信成本。同时,通过设计专家级、设备级和通信平衡损失,从多个层面保障了负载平衡,防止路由崩溃和计算效率降低。此外,还引入了设备级令牌丢弃策略,在训练过程中动态丢弃低亲和力令牌,进一步优化计算资源利用,且在推理时可灵活调整,确保训练与推理的一致性。

三、预训练(Pre-Training):夯实模型基础

(一)实验设置

在数据构建方面,DeepSeek-V2基于与DeepSeek 67B相同的数据处理流程,进行了数据量扩充和质量提升。通过挖掘互联网数据潜力、优化清洗流程,增加了大量数据,尤其是中文数据,并采用改进的质量过滤算法,去除不良数据,提升数据质量,同时过滤掉有争议内容,减轻数据偏差。其分词器基于Byte-level Byte-Pair Encoding(BBPE)算法,词汇表大小为100K,预处理后的语料包含8.1T令牌,其中中文令牌占比约12%。

模型超参数设置上,DeepSeek-V2包含60层Transformer层,隐藏维度为5120,所有可学习参数采用标准差为0.006的随机初始化。在MLA中,设置128个注意力头,头维度为128,KV压缩维度dc为512,查询压缩维度dc'为1536,去耦查询和键的头维度dhR为64。除第一层外,其余FFN均替换为MoE层,每个MoE层包含2个共享专家和160个路由专家,专家中间隐藏维度为1536,每个令牌激活6个专家。为确保训练稳定,在压缩潜在向量后添加RMS Norm层,并在宽度瓶颈处乘以缩放因子。

训练超参数方面,采用AdamW优化器(β1=0.9,β2=0.95,权重衰减为0.1),学习率采用warmup-and-step-decay策略,最大学习率为2.4×10-4,梯度裁剪范数为1.0,批次大小采用动态调度策略。设置最大序列长度为4K,在8.1T令牌上进行训练,利用流水线并行、专家并行和ZeRO-1数据并行技术,结合高效的HAI-LLM框架,并对MLA基于FlashAttention-2进行优化,确保训练高效运行。

在长上下文扩展阶段,运用YaRN技术将默认上下文窗口从4K扩展至128K,通过特定设置(如设置尺度s为40,α为1,β为32,调整长度缩放因子等),使模型在长上下文任务中表现出色,在“Needle In A Haystack”(NIAH)测试中,于128K上下文长度下性能稳定。

(二)评估

评估基准涵盖了英语和中文的多学科多选、语言理解与推理、闭卷问答、阅读理解、参考消歧、语言建模、中文理解与文化、数学、代码和标准化考试等广泛领域,确保了对模型性能的全面评估。

与DeepSeek 67B、Qwen1.5 72B、LLaMA3 70B和Mixtral 8x22B等代表性开源模型对比,DeepSeek-V2表现卓越。尽管仅激活21B参数,但在几乎所有基准测试中均显著优于DeepSeek 67B,在开源模型中跻身前列。与Qwen1.5 72B相比,在多数英语、代码和数学基准测试中优势明显,在中文基准测试中除部分多学科多选任务外也表现不俗;与Mixtral 8x22B相比,英语性能相当(除部分常识知识相关任务),在MMLU上更优,代码和数学性能相近,中文能力则远超;与LLaMA3 70B相比,虽英语基础能力略逊,但代码和数学能力相当,在中文基准测试中优势显著。

在训练和推理效率方面,DeepSeek-V2优势突出。理论上,因其激活参数少、计算量低,训练成本低于DeepSeek 67B。实际训练中,在H800集群上,训练每万亿令牌,DeepSeek 67B需300.6K GPU小时,而DeepSeek-V2仅需172.8K GPU小时,节省42.5%成本。在推理阶段,通过参数转换为FP8精度及KV缓存量化,其KV缓存大幅减少,在单节点8个H800 GPU上,生成吞吐量超50K令牌/秒,是DeepSeek 67B的5.76倍,提示输入吞吐量也超100K令牌/秒。

四、对齐(Alignment):优化模型表现

(一)监督微调:提升指令响应能力

基于前期研究,DeepSeek-V2构建了包含1.5M实例(1.2M有益性实例和0.3M安全性实例)的指令调整数据集,通过提升数据质量有效减少幻觉响应并增强写作能力。采用2个epoch进行微调,学习率设为5×10-6,评估涵盖生成式基准测试和部分多选任务,并引入IFEval进行指令跟随评估,以及使用LiveCodeBench特定时间段问题评估聊天模型,同时在多个开放端对话基准测试中与其他模型对比,展现出良好性能。

(二)强化学习:契合人类偏好

采用Group Relative Policy Optimization(GRPO)算法进行强化学习,该算法摒弃传统等大的评论家模型,基于组分数估计基线,有效降低训练成本。具体而言,对于每个问题q,GRPO从旧策略πθold中采样一组输出{o1, o2, ⋯, oG},然后通过最大化以下目标来优化策略模型πθ

$$
\begin{aligned}
\mathcal{J}{GRPO}(\theta) &=\mathbb{E}\left[q \sim P(Q),\left{o{i}\right}{i = 1}^{G} \sim \pi{\theta_{old}}(O|q)\right] \
&\frac{1}{G}\sum_{i = 1}^{G}\left(\min\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)}A_{i}, \text{clip}\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)}, 1-\varepsilon, 1+\varepsilon\right)A_{i}\right)-\beta\mathbb{D}{KL}(\pi{\theta}|\pi_{ref})\right)
\end{aligned}
$$

$$
\mathbb{D}{KL}(\pi{\theta}|\pi_{ref})=\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-\log\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-1
$$

其中ε和β是超参数;Ai是优势,通过与每组内输出相对应的一组奖励{r1, r2, ⋯, rG}计算得出:

$$
A_{i}=\frac{r_{i}-\text{mean}({r_{1}, r_{2}, \cdots, r_{G}})}{\text{std}({r_{1}, r_{2}, \cdots, r_{G}})}
$$

训练过程采用两阶段策略,先进行推理对齐(针对代码和数学推理任务训练奖励模型并优化策略模型),再进行人类偏好对齐(采用多奖励框架融合不同奖励模型反馈)。为获取可靠奖励模型,精心收集偏好数据并严格过滤和调整比例,同时通过多种工程优化(如设计混合引擎、利用vLLM加速推理、优化模型卸载和加载策略)提升训练效率,使模型在数学和代码任务性能上进一步提升,在开放端对话生成中表现更优,在不同语言和领域的基准测试中展现出较强竞争力。

五、结论、局限与展望

DeepSeek-V2凭借MLA和DeepSeekMoE等创新架构,在性能、训练和推理效率上取得显著成果,成为开源MoE语言模型的佼佼者。然而,它也面临着与其他LLM类似的局限,如预训练后知识更新困难、可能生成不实信息和幻觉,且因数据主要集中于中英文,在其他语言上表现受限。

未来,DeepSeek将持续投入开源大模型研发,致力于在保持经济成本的同时进一步扩大MoE模型规模,提升性能以追赶GPT-4;不断优化对齐技术,打造更安全、可靠且契合人类价值观的模型;探索多模态支持,拓展模型应用场景,为人工智能发展注入新动力。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号