问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-V3核心技术解析:MoE、MLA、MTP与FP8训练详解

创作时间:
作者:
@小白创作中心

DeepSeek-V3核心技术解析:MoE、MLA、MTP与FP8训练详解

引用
CSDN
1.
https://blog.csdn.net/weixin_42878111/article/details/145754135

DeepSeek-V3作为一款参数量达6710亿的大型语言模型,其独特的混合专家(MoE)架构、多头潜在注意力(MLA)机制和多Token预测(MTP)训练目标等创新技术,使其在处理复杂任务时展现出卓越性能。本文将深入解析DeepSeek-V3的核心架构和技术特点,帮助读者全面了解这一前沿AI模型的技术细节。

一、整体架构概述

(一)基于MoE架构的大型语言模型

DeepSeek - V3是一个基于MoE(混合专家)架构的大型语言模型,其总参数量达到了6710亿,在处理每个token时能够激活370亿参数。与一些传统的单模型架构相比,MoE架构允许模型在不同的任务或数据模式下灵活调用不同的专家子模型,而传统单模型架构相对固定,难以针对多样化任务高效分配计算资源。

(二)基于Transformer框架构建

它构建于Transformer框架基础之上,这样做的目的在于提升模型的性能,并且有效地降低成本。相较于一些其他框架,Transformer框架具有并行计算能力强、能够更好捕捉长序列数据依赖关系等优势,DeepSeek - V3基于Transformer框架构建,引入了混合专家(MoE)、多头潜在注意力(MLA)、多Token预测(MTP)。

二、关键架构组成部分

(一)混合专家(MoE)架构

1. 核心思想

MoE架构的核心思想是把输入数据分配给不同的专家子模型,之后再合并这些子模型的输出从而得到最终结果。这就好比一个大型的工厂,有不同的车间(专家子模型)负责不同的生产环节,原材料(输入数据)进来后,被分配到合适的车间加工,最后将各车间的成品组合起来(合并输出)成为最终产品。与一些简单的模型架构相比,MoE架构能够更精细地处理不同类型的数据,而简单架构可能采用统一方式处理所有数据,难以应对复杂多样的数据特征。

2. 结构

专家网络:其作用是对输入数据的不同方面或者模式进行建模。例如,对于不同语义、语法等方面的信息,不同的专家网络可以分别进行处理。可以把专家网络想象成不同领域的专业人士,每个专业人士只擅长解决某一类问题,当遇到相关问题(输入数据的特定方面)时,就由对应的专业人士来处理。

门控网络:根据输入数据来计算每个专家的权重,从而决定使用哪些专家以及如何组合输出。例如,如果输入数据偏向于某种特定的语义类型,门控网络会将较大的权重分配给擅长处理该语义类型的专家。这类似于一个智能调度员,根据任务的特点(输入数据),决定安排哪些员工(专家)去执行任务,并决定如何整合他们的工作成果。

3. DeepSeek - V3在MoE架构中的创新点

动态偏置调整机制:DeepSeek - V3首创了动态偏置调整机制。它通过实时监控专家负载的情况,动态地调整路由偏置项。并且这个过程不需要辅助损失就能够实现负载均衡。可以用交通流量控制的例子来类比,不同的专家就像不同的道路,动态偏置调整机制就像根据道路的拥堵情况(专家负载)来调整车辆(数据)的分配路径。同时,它限制每个token最多分配到4个计算节点,并且结合通信优化,实现了计算与通信高度重叠。与其他一些采用MoE架构的模型相比,其他模型可能在负载均衡方面需要复杂的辅助机制,而DeepSeek - V3的动态偏置调整机制更高效。

4.路由专家与共享专家的结合方式

选择性激活机制:采用了选择性激活机制,例如基于亲和度分数的Top - K选择。这意味着模型会根据输入数据与专家的亲和度,选择最相关的专家进行激活。这种方式相较于一些固定激活某些专家的模型,能够更灵活地根据数据特征调用合适的专家,提高处理效率和准确性。

共享专家的作用:共享专家具有全局参与的特性,它能够促进模型的泛化能力。在处理不同类型的输入数据时,共享专家可以利用之前学到的知识,提高模型的整体性能。与一些没有共享专家的模型相比,DeepSeek - V3通过共享专家能够更好地应对新的、未见过的数据模式。

(二)多头潜在注意力(MLA)机制

1. 核心思想

MLA的核心思想是通过低秩联合压缩键(Key)和值(Value),从而减少推理过程中对内存和计算资源的需求。与传统的注意力机制相比,传统注意力机制可能会在处理大量数据时占用大量内存和计算资源,而MLA机制通过独特的压缩方式更高效地利用资源。

2. 工作原理

首先对输入数据进行线性变换,从而生成查询(Query)、键(Key)和值(Value)矩阵。

然后多个头并行计算注意力,这样可以捕捉到不同层次和方面的依赖关系。例如,在处理文本时,可以捕捉到句子内部不同单词之间的语义关系,以及句子与句子之间的逻辑关系。与一些单一头注意力机制相比,多头并行计算能够从多个角度分析数据,获取更全面的信息。

3. 优势

MLA在降低KV缓存内存占用方面有着显著的优势,例如能够将内存占用从7168压缩至512,降幅约80%,并且在这个过程中还能够保持与标准多头注意力相当的性能。这使得DeepSeek - V3在推理过程中能够更高效地利用内存资源,相比一些无法有效降低内存占用的模型,具有更大的优势。

(三)多Token预测(MTP)训练目标

1. 与传统预测的区别

MTP训练目标是让模型能够预测输入序列中多个连续Token的内容,这与传统仅预测单个下一个Token的方式有所不同。它考虑到了更长期的上下文信息以及多个Token之间的依赖关系。传统预测方式就像一次只看一步棋,而MTP训练目标则像提前规划好几步棋,考虑得更长远、更全面。

2. 利用上下文信息的方式

在进行多Token预测时,模型会利用前后文信息来预测中间的多个Token。例如,在处理一篇文章时,不仅会考虑当前单词之前的内容,还会考虑之后的内容,从而更准确地预测中间多个连续单词的可能性。这就好比我们在阅读文章时,会结合前后文来理解某个段落的意思,模型也是通过这种方式提高预测的准确性。

3. MTP模块的构成

MTP模块包含自己的Transformer Block和输出头,并且共享嵌入层。这样的结构有助于提高模型的训练效率和性能。与一些没有共享嵌入层的模型相比,DeepSeek - V3通过共享嵌入层减少了重复计算,提升了训练速度。

(四)各关键架构组成部分的协同关系

DeepSeek - V3的各个关键架构组成部分紧密协作,共同实现对输入数据的处理并输出最终结果。首先,基于MoE架构,输入数据被分配到不同的专家网络进行处理,门控网络根据数据特点计算专家权重并决定专家的使用和输出组合方式。在这个过程中,动态偏置调整机制实时监控专家负载,优化数据分配路径,确保计算资源的合理利用。

多头潜在注意力(MLA)机制则在数据处理过程中发挥重要作用。它对输入数据进行线性变换生成相关矩阵后,多个头并行计算注意力,捕捉数据不同层次和方面的依赖关系,为后续的预测提供丰富的信息支持。并且MLA机制通过降低KV缓存内存占用,保证了模型在处理数据时的高效性。

多Token预测(MTP)训练目标在整个模型中起到引导学习方向的作用。模型利用MoE架构和MLA机制处理得到的信息,结合前后文的上下文信息,通过MTP模块预测输入序列中多个连续Token的内容。MTP模块的结构设计,如共享嵌入层,进一步提高了模型的训练效率,使得各部分之间能够更好地协同工作。

这些关键架构组成部分相互配合,MoE架构负责灵活分配和处理数据,MLA机制高效提取数据特征,MTP训练目标引导模型学习和预测,共同实现了DeepSeek - V3对各种输入数据的准确处理和高质量输出。

三、Deepseek训练架构相关特性

(一)FP8混合精度训练框架

1. 意义

FP8混合精度训练框架首次在超大规模模型上验证了其有效性。与一些传统的训练精度框架相比,它在处理超大规模模型时表现出独特的优势。

2. 降低需求的作用

它在降低计算和存储需求方面有着重要的作用。由于其浮点数位宽相比FP16降低了一半,所以能够减少显存的占用,进而加速训练过程。相较于一些无法有效降低计算和存储需求的框架,FP8混合精度训练框架使得DeepSeek - V3在训练过程中能够更高效地利用资源,降低训练成本。

(二)训练与部署效率的协同优化

1. DualPipe算法

训练框架中的DualPipe算法实现了高效的流水线并行。它能够减少pipeline bubbles,并且通过计算与通信重叠隐藏通信开销,从而提高训练效率。与一些其他的训练算法相比,DualPipe算法在提升训练效率方面表现更为突出。

2. 高效跨节点全对全通信内核

开发了高效跨节点全对全通信内核,这个内核能够充分利用InfiniBand和NVLink带宽来提升通信性能,保证模型在多节点环境下的高效训练。相比一些普通的通信内核,该内核能够更好地适应多节点环境,提高数据传输速度。

3. 内存优化

通过内存优化,DeepSeek - V3无需使用昂贵的张量并行就可以进行训练,降低了训练成本。与一些依赖张量并行但成本较高的模型相比,DeepSeek - V3在内存优化方面的措施使其在训练成本上具有优势。

四、后训练阶段

后训练阶段涉及到创新的知识蒸馏,例如从DeepSeek - R1系列模型中提取推理能力,并且在这个过程中能够保持模型准确性和生成长度之间的平衡,从而提高模型的整体性能。与一些传统的后训练方式相比,DeepSeek - V3的这种创新知识蒸馏方式能够更有效地提升模型性能,在准确性和生成长度的平衡上做得更好 。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号