DeepSeek的V3，爆火了

创作时间:

作者:

@小白创作中心

DeepSeek的V3，爆火了

引用

搜狐

https://www.sohu.com/a/843543404_121124377

上周四（12月26日）晚上，全球开源界迎来了一件大事：中国开源界的新星DeepSeek最新研发的前言模型V3横空出世，一举超越Meta的Llama 3.1模型，成为全球最强开源模型。更令人震惊的是，DeepSeek仅用2个月时间、2000张H800卡就打造出一个堪比GPT-4o级别的模型。

V3模型的三大创新

DeepSeek是一家由知名私募巨头幻方量化旗下的人工智能公司，其V3模型在多个方面实现了重大突破：

1. 模型架构创新

V3模型采用MLA（多头潜在注意力）技术+MoE（混合专家）架构。其中，MLA技术可以降低kv cache/token开销，而MoE架构则通过引入256个“小专家”来提升模型的稀疏程度。相比V2版本，V3的总参数量达到惊人的6710亿个，但激活参数量仅增加到370亿个。

2. 训练效率优化

V3模型在训练过程中采用了FP8混合精度训练模式，并通过细粒度的per-tile和per-group量化来降低误差。这种设计不仅节省了显存，还优化了并行策略。据DeepSeek披露，V3模型仅用2.664M H800 GPU小时就完成了14.8T标记的预训练，效果异常出色。

3. 推理优化

在推理层面，V3采用NanoFlow中的双流推理策略，将不同micro-batch中的计算和通信任务并发执行，从而提高设备资源利用率。此外，V3的生成吐字速度从20TPS大幅提高至60TPS，相比V2.5模型实现了3倍的提升。

性能对比与市场影响

DeepSeek-V3在多个基准测试中表现出色，其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。虽然在GPQA Diamond（博士级科学问题）基准测试中，DeepSeek以59.1%的分数落后于OpenAI的o1（76%），但DeepSeek-V3在多个基准测试中确实优于备受追捧的Claude 3.5 Sonnet。

DeepSeek还宣布将维持与DeepSeek V2相同的API定价策略，直到2025年2月8日。之后，输入时费用为每百万个tokens 0.27美元，输出时费用为每百万个tokens 1.10美元。这意味着DeepSeek-V3将成为市面上最便宜的模型之一。