问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-V3技术报告:6710亿参数的开源语言模型

创作时间:
作者:
@小白创作中心

DeepSeek-V3技术报告:6710亿参数的开源语言模型

引用
CSDN
1.
https://blog.csdn.net/u014546828/article/details/146316910

摘要

我们推出了DeepSeek-V3,一个强大的混合专家(MoE)语言模型,具有6710亿总参数,其中每个Token激活370亿参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力(MLA)DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。此外,DeepSeek-V3 首次提出了一种无辅助损失的负载均衡策略,并设置了多Token预测训练目标以提升性能。在14.8万亿高质量多样化的Token上对 DeepSeek-V3 进行预训练,并通过监督微调(SFT)和强化学习(RL)阶段充分释放其潜力。综合评估表明,DeepSeek-V3 在性能上超越了其他开源模型,并达到了与领先的闭源模型相当的水平。尽管性能卓越,DeepSeek-V3 的完整训练仅需278.8万H800 GPU小时。此外,其训练过程非常稳定,在整个训练过程中未出现不可恢复的损失峰值或回滚操作。模型检查点可在GitHub获取。

引言

近年来,大型语言模型(LLMs)经历了快速迭代和演进(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐步缩小与通用人工智能(AGI)的差距。除了闭源模型外,开源模型也取得了显著进展,包括DeepSeek 系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)、LLaMA 系列(AI@Meta, 2024a,b; Touvron et al., 2023a,b)、Qwen 系列(Qwen, 2023, 2024a,b)和Mistral 系列(Jiang et al., 2023; Mistral, 2024),努力缩小与闭源模型之间的差距。为了进一步突破开源模型的能力边界,扩展了模型规模并推出了DeepSeek-V3,一个拥有6710亿参数的大规模混合专家(MoE)模型,其中每个Token激活370亿参数

以前瞻性视角,始终追求强大的模型性能和经济成本。因此,在架构设计上,DeepSeek-V3 继续采用多头潜在注意力(MLA)(DeepSeek-AI, 2024c)以实现高效推理,并采用DeepSeekMoE(Dai et al., 2024)以降低训练成本。这两种架构在 DeepSeek-V2 中得到了验证,展示了它们在保持模型性能的同时实现高效训练和推理的能力。除此之外,还实施了两项额外策略以进一步增强模型能力。首先,DeepSeek-V3 首次提出了一种无辅助损失的负载均衡策略(Wang et al., 2024a),旨在最小化因鼓励负载均衡而对模型性能产生的负面影响。其次,DeepSeek-V3 引入了多Token预测训练目标,观察到它显著提升了在评估基准上的整体性能。

为了实现高效训练,支持FP8混合精度训练并对训练框架进行了全面优化。低精度训练已成为高效训练的有前景解决方案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b),其发展与硬件能力的进步密切相关(Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a)。在本研究中,引入了 FP8 混合精度训练框架,并首次验证了其在超大规模模型上的有效性。通过支持 FP8 计算和存储,实现了加速训练并减少了GPU内存使用。在训练框架方面,设计了DualPipe 算法以实现高效的流水线并行,减少了流水线气泡并通过计算-通信重叠隐藏了大部分训练中的通信开销。这种重叠确保了即使模型进一步扩展,只要保持恒定的计算-通信比率,仍能在节点间使用细粒度专家,同时实现接近零的全互连通信开销。此外,还开发了高效的跨节点全互连通信内核,以充分利用InfiniBand(IB)NVLink 带宽。最后,精心优化了内存占用,使得无需昂贵的张量并行即可训练 DeepSeek-V3。通过这些努力,实现了高训练效率

在预训练阶段,在14.8万亿高质量多样化Token上对 DeepSeek-V3 进行训练。预训练过程非常稳定,整个训练过程中未出现不可恢复的损失峰值或需要回滚的情况。接下来,对 DeepSeek-V3 实施了两阶段上下文长度扩展。第一阶段将最大上下文长度扩展至32K,第二阶段进一步扩展至128K。随后,进行后训练,包括对 DeepSeek-V3 基础模型的监督微调(SFT)强化学习(RL),以使其符合人类偏好并进一步释放潜力。在后训练阶段,从 DeepSeek-R1 系列模型中蒸馏推理能力,同时谨慎地平衡模型准确性和生成长度。

对 DeepSeek-V3 在一系列综合基准测试中进行了评估。尽管其训练成本经济实惠,但综合评估显示,DeepSeek-V3-Base 已成为目前最强的开源基础模型,特别是在代码和数学领域表现尤为突出。其对话版本也超越了其他开源模型,并在一系列标准和开放式基准测试中达到了与领先闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相当的性能。

最后,再次强调DeepSeek-V3 的经济训练成本,详见表1,这是通过算法、框架和硬件的协同优化实现的。在预训练阶段,每万亿Token的训练仅需18万H800 GPU小时,即在配备2048个H800 GPU的集群上耗时3.7天。因此,预训练阶段在不到两个月内完成,总计消耗266.4万GPU小时。加上上下文长度扩展所需的11.9万GPU小时和后训练所需的5千GPU小时,DeepSeek-V3 的完整训练仅需278.8万GPU小时。假设 H800 GPU 的租赁价格为每小时2美元,总训练成本仅为557.6万美元。需要注意的是,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法或数据相关的前期研究和消融实验的成本。

主要贡献

架构:创新的负载均衡策略与训练目标

  • 在DeepSeek-V2高效架构的基础上,开创了一种无辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而带来的性能下降。
  • 研究了多Token预测(MTP)目标,并证明其对模型性能有益。它还可用于推测性解码以加速推理。

预训练:实现极致的训练效率

  • 设计了一个FP8混合精度训练框架,并首次验证了FP8训练在超大规模模型上的可行性和有效性
  • 通过算法、框架和硬件的协同设计,克服了跨节点MoE训练中的通信瓶颈,实现了接近完全的计算-通信重叠。这显著提高了训练效率并降低了训练成本,使能够在不增加额外开销的情况下进一步扩展模型规模。
  • 仅以266.4万H800 GPU小时的经济成本,在14.8万亿Token上完成了DeepSeek-V3的预训练,生成了目前最强的开源基础模型。预训练后的后续训练阶段仅需0.1万GPU小时。

后训练:从DeepSeek-R1进行知识蒸馏

  • 引入了一种创新方法,将长链思维(CoT)模型的推理能力蒸馏到标准LLM中,特别是从DeepSeek R1系列模型之一蒸馏到DeepSeek-V3。流程优雅地将R1的验证和反思模式整合到DeepSeek-V3中,显著提升了其推理性能。同时,还保持了对DeepSeek-V3输出风格和长度的控制。

核心评估结果总结

知识:
(1) 在教育类基准测试(如MMLU、MMLU-Pro和GPQA)中,DeepSeek-V3超越了所有其他开源模型,在MMLU上达到88.5分,在MMLU-Pro上达到75.9分,在GPQA上达到59.1分。其性能与领先的闭源模型(如GPT-4o和Claude-Sonnet-3.5)相当,缩小了开源模型与闭源模型在此领域的差距。
(2) 在事实性基准测试中,DeepSeek-V3在SimpleQA和Chinese SimpleQA上表现出色。尽管在英语事实知识(SimpleQA)上落后于GPT-4o和Claude-Sonnet-3.5,但在中文事实知识(Chinese SimpleQA)上超越了这些模型,突显了其在中文事实知识方面的优势。

代码、数学和推理:
(1)DeepSeek-V3在数学相关基准测试中,在所有非长链思维的开源和闭源模型中取得了最先进的性能。特别是在某些基准测试(如MATH-500)上,甚至超越了o1-preview,展示了其强大的数学推理能力。
(2) 在编码相关任务中,DeepSeek-V3在编程竞赛基准测试(如LiveCodeBench)中表现最佳,巩固了其在此领域的领先地位。在工程相关任务中,虽然DeepSeek-V3的表现略低于Claude-Sonnet-3.5,但仍以显著优势超越所有其他模型,展示了其在多样化技术基准测试中的竞争力。

论文其余部分结构
在本文的其余部分,首先详细介绍了DeepSeek-V3模型架构(第2节)。随后,介绍了基础设施,包括计算集群、训练框架、FP8训练支持、推理部署策略以及对未来硬件设计的建议。接下来,描述了预训练过程(第4节),包括训练数据的构建、超参数设置、长上下文扩展技术、相关评估以及一些讨论。之后,讨论了后训练工作(第5节),包括监督微调(SFT)、强化学习(RL)、相应的评估和讨论。最后,总结了这项工作,讨论了DeepSeek-V3的现有局限性,并提出了未来研究的潜在方向(第6节)。

架构

基本架构(Basic Architecture)

多头潜在注意力(MLA)的优化

  • 核心目标:在保持性能的同时减少推理时的内存占用。
  • 实现细节
  • 潜在上下文向量通过分块矩阵乘法(TMA)低精度计算(FP8)加速,确保高效推理。
  • 通过动态缓存管理支持长上下文扩展(如128K),避免传统注意力机制的二次复杂度问题。

DeepSeekMoE的无辅助损失负载均衡策略

  • 传统问题:MoE模型中辅助损失(auxiliary loss)可能导致性能下降。
  • 创新设计
  • 无辅助损失(Auxiliary-Loss-Free):通过门控机制直接优化专家负载均衡,无需额外辅助损失函数。
  • 专家分割与路由
  • 每个FFN被分割为更细粒度的专家(如将单专家分解为 m 个小专家),激活参数量保持为37B/Token,总参数量扩展至671B
  • 引入共享专家 固定激活,避免冗余参数;路由专家动态选择,提升专业化。
  • 负载均衡效果
  • 通过门控权重归一化(如Sigmoid函数)和Top-K路由策略,确保专家负载分布更均衡。
  • 实验证明,无辅助损失策略在专家专业化模式上显著优于传统方法。

多Token预测目标(Multi-Token Prediction, MTP)

  • 核心思想:在训练中同时预测多个Token,增强模型对上下文依赖的建模能力。
  • 实现方式
  • 在基础模型中添加1层深度的MTP模块,通过并行生成多个Token的预测结果。
  • 支持推测性解码(speculative decoding),加速推理过程。
  • 效果验证
  • 在小规模(15.7B参数)和大规模(228.7B参数)模型中均观察到性能提升,尤其在数学和代码任务中表现突出。
  • MTP 训练目标
  • 对于每个预测深度,计算交叉熵损失
  • 推理中的MTP
  • MTP策略主要是为了提高主模型的性能,所以在推理过程中,可以直接丢弃MTP模块,主模型可以独立正常工作。此外,还可以将这些MTP模块重新用于推测解码,以进一步改善生成延迟。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号