问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek的V3,爆火了

创作时间:
作者:
@小白创作中心

DeepSeek的V3,爆火了

引用
搜狐
1.
https://www.sohu.com/a/843543404_121124377

上周四(12月26日)晚上,全球开源界迎来了一件大事:中国开源界的新星DeepSeek最新研发的前言模型V3横空出世,一举超越Meta的Llama 3.1模型,成为全球最强开源模型。更令人震惊的是,DeepSeek仅用2个月时间、2000张H800卡就打造出一个堪比GPT-4o级别的模型。

V3模型的三大创新

DeepSeek是一家由知名私募巨头幻方量化旗下的人工智能公司,其V3模型在多个方面实现了重大突破:

1. 模型架构创新

V3模型采用MLA(多头潜在注意力)技术+MoE(混合专家)架构。其中,MLA技术可以降低kv cache/token开销,而MoE架构则通过引入256个“小专家”来提升模型的稀疏程度。相比V2版本,V3的总参数量达到惊人的6710亿个,但激活参数量仅增加到370亿个。

2. 训练效率优化

V3模型在训练过程中采用了FP8混合精度训练模式,并通过细粒度的per-tile和per-group量化来降低误差。这种设计不仅节省了显存,还优化了并行策略。据DeepSeek披露,V3模型仅用2.664M H800 GPU小时就完成了14.8T标记的预训练,效果异常出色。

3. 推理优化

在推理层面,V3采用NanoFlow中的双流推理策略,将不同micro-batch中的计算和通信任务并发执行,从而提高设备资源利用率。此外,V3的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升。

性能对比与市场影响

DeepSeek-V3在多个基准测试中表现出色,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。虽然在GPQA Diamond(博士级科学问题)基准测试中,DeepSeek以59.1%的分数落后于OpenAI的o1(76%),但DeepSeek-V3在多个基准测试中确实优于备受追捧的Claude 3.5 Sonnet。

DeepSeek还宣布将维持与DeepSeek V2相同的API定价策略,直到2025年2月8日。之后,输入时费用为每百万个tokens 0.27美元,输出时费用为每百万个tokens 1.10美元。这意味着DeepSeek-V3将成为市面上最便宜的模型之一。

开源生态建设

DeepSeek在开源方面也做了大量工作,与英伟达、AMD、华为等硬件供应商合作,提供了多种本地运行模型的方式。此外,DeepSeek还发布了详细的GitHub代码和论文,供开发者参考。

DeepSeek-V3的发布标志着中国AI公司在开源领域取得了重大突破。这一成就不仅展示了中国AI技术的实力,也为全球AI开发者提供了更多选择。随着DeepSeek-V3的开源,我们期待看到更多基于这一强大模型的创新应用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号