DeepSeek的V3,爆火了
DeepSeek的V3,爆火了
上周四(12月26日)晚上,全球开源界迎来了一件大事:中国开源界的新星DeepSeek最新研发的前言模型V3横空出世,一举超越Meta的Llama 3.1模型,成为全球最强开源模型。更令人震惊的是,DeepSeek仅用2个月时间、2000张H800卡就打造出一个堪比GPT-4o级别的模型。
V3模型的三大创新
DeepSeek是一家由知名私募巨头幻方量化旗下的人工智能公司,其V3模型在多个方面实现了重大突破:
1. 模型架构创新
V3模型采用MLA(多头潜在注意力)技术+MoE(混合专家)架构。其中,MLA技术可以降低kv cache/token开销,而MoE架构则通过引入256个“小专家”来提升模型的稀疏程度。相比V2版本,V3的总参数量达到惊人的6710亿个,但激活参数量仅增加到370亿个。
2. 训练效率优化
V3模型在训练过程中采用了FP8混合精度训练模式,并通过细粒度的per-tile和per-group量化来降低误差。这种设计不仅节省了显存,还优化了并行策略。据DeepSeek披露,V3模型仅用2.664M H800 GPU小时就完成了14.8T标记的预训练,效果异常出色。
3. 推理优化
在推理层面,V3采用NanoFlow中的双流推理策略,将不同micro-batch中的计算和通信任务并发执行,从而提高设备资源利用率。此外,V3的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升。
性能对比与市场影响
DeepSeek-V3在多个基准测试中表现出色,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。虽然在GPQA Diamond(博士级科学问题)基准测试中,DeepSeek以59.1%的分数落后于OpenAI的o1(76%),但DeepSeek-V3在多个基准测试中确实优于备受追捧的Claude 3.5 Sonnet。
DeepSeek还宣布将维持与DeepSeek V2相同的API定价策略,直到2025年2月8日。之后,输入时费用为每百万个tokens 0.27美元,输出时费用为每百万个tokens 1.10美元。这意味着DeepSeek-V3将成为市面上最便宜的模型之一。
开源生态建设
DeepSeek在开源方面也做了大量工作,与英伟达、AMD、华为等硬件供应商合作,提供了多种本地运行模型的方式。此外,DeepSeek还发布了详细的GitHub代码和论文,供开发者参考。
DeepSeek-V3的发布标志着中国AI公司在开源领域取得了重大突破。这一成就不仅展示了中国AI技术的实力,也为全球AI开发者提供了更多选择。随着DeepSeek-V3的开源,我们期待看到更多基于这一强大模型的创新应用。