问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-V3:揭秘最新AI大模型技术

创作时间:
作者:
@小白创作中心

DeepSeek-V3:揭秘最新AI大模型技术

引用
CSDN
11
来源
1.
https://blog.csdn.net/youcans/article/details/145515722
2.
https://deepseek.csdn.net/67abf78159bcf8384ab65a6f.html
3.
https://m.thepaper.cn/newsDetail_forward_30058869
4.
https://blog.csdn.net/shulianghan/article/details/145463822
5.
https://finance.sina.com.cn/tech/roll/2024-12-27/doc-ineawpiv5934697.shtml
6.
https://finance.sina.com.cn/money/bond/2025-02-13/doc-inekhyni5256602.shtml
7.
https://www.163.com/dy/article/JNPGMO0R05319LH8.html
8.
https://m.sohu.com/a/854485447_121798711/?pvid=000115_3w_a
9.
https://m.sohu.com/a/854377768_121798711/?pvid=000115_3w_a
10.
https://www.cnblogs.com/ghj1976/p/18676819/deepseekv3-de-moe-jia-gou-jie-xi-xi-li-du-zhuan-ji
11.
https://cloud.tencent.com/developer/article/2487319
01

DeepSeek-V3:揭秘最新AI大模型技术

02

创新性的MoE架构设计

DeepSeek-V3采用了独特的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个token选择8个路由专家,最多路由至4个节点。这种稀疏激活机制使得DeepSeek-V3能够在不显著增加计算成本的情况下,拥有庞大的模型容量。

MoE的核心思想是“分而治之”,类似于超级英雄联盟中每个英雄都有其独特超能力。在DeepSeek-V3中,MoE层主要由两种类型的专家构成:

  • 路由专家(Routed Experts):数量众多,负责处理特定类型的输入。DeepSeek-V3的每个MoE层包含256个路由专家。
  • 共享专家(Shared Experts):数量较少,负责处理所有输入,提供通用的特征提取。DeepSeek-V3每个MoE层包含1个共享专家。

当一个句子输入到DeepSeek-V3的MoE层时,会经历以下步骤:

  1. 路由(Routing):Gate网络接收输入(每个词的表示),并计算每个词与各个路由专家的匹配程度(得分)。
  2. 选择(Selection):根据得分,Gate网络为每个词选择Top-K个最合适的路由专家。在DeepSeek-V3中,每个token选择8个路由专家。
  3. 专家处理(Expert Processing):被选中的路由专家以及共享专家会对输入进行处理,提取特征。
  4. 加权与聚合(Weighting and Aggregation):每个路由专家的输出会根据Gate网络给出的权重进行加权,然后与共享专家的输出进行聚合,形成MoE层的最终输出。
03

核心技术创新

DeepSeek-V3的卓越性能得益于三大核心技术创新:

  1. 无辅助损失的负载均衡策略:通过智能路由机制,确保每个专家网络都能得到充分利用,避免了传统MoE架构中常见的负载不均问题。

  2. 多token预测训练目标:通过预测多个token的输出,提高了模型的数据效率和整体性能。

  3. FP8混合精度训练:在极大规模模型上验证了FP8训练的有效性,通过支持FP8计算和存储,实现了加速训练和减少GPU内存使用。

04

性能表现与成本优势

DeepSeek-V3拥有61层网络结构,总参数量达6,710亿,但实际激活参数仅约370亿。这种设计不仅提高了计算效率和参数利用率,还显著降低了训练成本。据官方数据显示,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时,远低于行业平均水平。

在性能方面,DeepSeek-V3在多个基准测试中超越了其他开源模型,甚至达到了与GPT-4o和Claude 3.5 Sonnet等顶级闭源模型相当的水平。更令人瞩目的是,其API价格仅为Claude 3.5 Sonnet的1/15,堪称“性价比之王”。

05

技术实现细节

为了进一步提升性能,DeepSeek团队在GPU优化方面进行了大胆尝试。他们没有使用传统的CUDA编程,而是直接针对英伟达GPU的低级汇编语言PTX进行优化。在训练V3模型时,DeepSeek对英伟达H800 GPU进行了重新配置:

  • 在132个流处理器多核中,划分出20个用于服务器间通信,主要用于数据压缩和解压缩,以突破处理器的连接限制、提升事务处理速度。
  • 通过额外的细粒度线程/线程束级别调整,实现了先进的流水线算法。

这种深度优化虽然维护难度极高,但充分展现了DeepSeek团队的技术实力。通过PTX编程,DeepSeek-V3不仅突破了传统CUDA的性能限制,还为未来AI模型的硬件优化提供了新的思路。

06

影响与展望

DeepSeek-V3的发布在AI领域引发了广泛关注。其高性能、低成本的特点,以及开源的训练细节,为研究者和开发者提供了宝贵参考。虽然在部署方面仍存在一些局限性(如最小部署单元规模较大),但随着硬件技术的进步,这些问题有望得到解决。

DeepSeek-V3的成功证明了通过技术创新和优化,可以在保持高性能的同时大幅降低AI模型的训练和使用成本。这不仅为开源AI领域注入了新的活力,也为全球AI技术的普及和应用开辟了新的可能。随着DeepSeek团队持续坚持开源路线,稳步推进通用人工智能的研究,我们有理由期待更多令人振奋的突破将在未来涌现。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号