资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeek-V3：揭秘最新AI大模型技术

创作时间:

作者:

@小白创作中心

DeepSeek-V3：揭秘最新AI大模型技术

引用

CSDN

等

来源

https://blog.csdn.net/youcans/article/details/145515722

https://deepseek.csdn.net/67abf78159bcf8384ab65a6f.html

https://m.thepaper.cn/newsDetail_forward_30058869

https://blog.csdn.net/shulianghan/article/details/145463822

https://finance.sina.com.cn/tech/roll/2024-12-27/doc-ineawpiv5934697.shtml

https://finance.sina.com.cn/money/bond/2025-02-13/doc-inekhyni5256602.shtml

https://www.163.com/dy/article/JNPGMO0R05319LH8.html

https://m.sohu.com/a/854485447_121798711/?pvid=000115_3w_a

https://m.sohu.com/a/854377768_121798711/?pvid=000115_3w_a

10.

https://www.cnblogs.com/ghj1976/p/18676819/deepseekv3-de-moe-jia-gou-jie-xi-xi-li-du-zhuan-ji

11.

https://cloud.tencent.com/developer/article/2487319

DeepSeek-V3：揭秘最新AI大模型技术

创新性的MoE架构设计

DeepSeek-V3采用了独特的DeepSeekMoE架构，通过细粒度专家、共享专家和Top-K路由策略，实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家，每个token选择8个路由专家，最多路由至4个节点。这种稀疏激活机制使得DeepSeek-V3能够在不显著增加计算成本的情况下，拥有庞大的模型容量。

MoE的核心思想是“分而治之”，类似于超级英雄联盟中每个英雄都有其独特超能力。在DeepSeek-V3中，MoE层主要由两种类型的专家构成：

路由专家（Routed Experts）：数量众多，负责处理特定类型的输入。DeepSeek-V3的每个MoE层包含256个路由专家。
共享专家（Shared Experts）：数量较少，负责处理所有输入，提供通用的特征提取。DeepSeek-V3每个MoE层包含1个共享专家。

当一个句子输入到DeepSeek-V3的MoE层时，会经历以下步骤：

路由（Routing）：Gate网络接收输入（每个词的表示），并计算每个词与各个路由专家的匹配程度（得分）。
选择（Selection）：根据得分，Gate网络为每个词选择Top-K个最合适的路由专家。在DeepSeek-V3中，每个token选择8个路由专家。
专家处理（Expert Processing）：被选中的路由专家以及共享专家会对输入进行处理，提取特征。
加权与聚合（Weighting and Aggregation）：每个路由专家的输出会根据Gate网络给出的权重进行加权，然后与共享专家的输出进行聚合，形成MoE层的最终输出。

核心技术创新

DeepSeek-V3的卓越性能得益于三大核心技术创新：

无辅助损失的负载均衡策略：通过智能路由机制，确保每个专家网络都能得到充分利用，避免了传统MoE架构中常见的负载不均问题。
多token预测训练目标：通过预测多个token的输出，提高了模型的数据效率和整体性能。
FP8混合精度训练：在极大规模模型上验证了FP8训练的有效性，通过支持FP8计算和存储，实现了加速训练和减少GPU内存使用。

性能表现与成本优势

DeepSeek-V3拥有61层网络结构，总参数量达6,710亿，但实际激活参数仅约370亿。这种设计不仅提高了计算效率和参数利用率，还显著降低了训练成本。据官方数据显示，DeepSeek-V3的完整训练仅需278.8万H800 GPU小时，远低于行业平均水平。

在性能方面，DeepSeek-V3在多个基准测试中超越了其他开源模型，甚至达到了与GPT-4o和Claude 3.5 Sonnet等顶级闭源模型相当的水平。更令人瞩目的是，其API价格仅为Claude 3.5 Sonnet的1/15，堪称“性价比之王”。

技术实现细节

为了进一步提升性能，DeepSeek团队在GPU优化方面进行了大胆尝试。他们没有使用传统的CUDA编程，而是直接针对英伟达GPU的低级汇编语言PTX进行优化。在训练V3模型时，DeepSeek对英伟达H800 GPU进行了重新配置：

在132个流处理器多核中，划分出20个用于服务器间通信，主要用于数据压缩和解压缩，以突破处理器的连接限制、提升事务处理速度。
通过额外的细粒度线程/线程束级别调整，实现了先进的流水线算法。

这种深度优化虽然维护难度极高，但充分展现了DeepSeek团队的技术实力。通过PTX编程，DeepSeek-V3不仅突破了传统CUDA的性能限制，还为未来AI模型的硬件优化提供了新的思路。

影响与展望

DeepSeek-V3的发布在AI领域引发了广泛关注。其高性能、低成本的特点，以及开源的训练细节，为研究者和开发者提供了宝贵参考。虽然在部署方面仍存在一些局限性（如最小部署单元规模较大），但随着硬件技术的进步，这些问题有望得到解决。

DeepSeek-V3的成功证明了通过技术创新和优化，可以在保持高性能的同时大幅降低AI模型的训练和使用成本。这不仅为开源AI领域注入了新的活力，也为全球AI技术的普及和应用开辟了新的可能。随着DeepSeek团队持续坚持开源路线，稳步推进通用人工智能的研究，我们有理由期待更多令人振奋的突破将在未来涌现。

热门推荐

400万字阅读量背后：小学语文作文教学的新趋势