问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek开源盛宴:总结和感悟【更新至第三天】

创作时间:
作者:
@小白创作中心

DeepSeek开源盛宴:总结和感悟【更新至第三天】

引用
CSDN
1.
https://blog.csdn.net/Kaiyuan_sjtu/article/details/145917427

DeepSeek公司在三天内连续开源了三个项目:FlashMLA、DeepEP和DeepGEMM,这些项目针对特定硬件进行了深度优化,展现了在硬件限制下的技术创新能力。

开源工作的独特性

开源到了第三天,有两个明显的感觉:

第一个感觉是,这些工作几乎不可能在国外的AI公司里面完成。从第一天的FlashMLA,到第二天的DeepEP,再到今天的DeepGEMM,这些工作都是基于特定的英伟达H800芯片。这款GPU的特殊之处在于它是针对中国市场推出的"阉割版",这是由于美国芯片限制法案的影响。

而国外的AI大厂情况完全不同,它们没有受到禁售限制,可以自由购买Nvidia的A100和H100等高性能GPU。例如:

  • OpenAI使用Nvidia A100和H100 GPU训练ChatGPT和GPT-4
  • Anthropic使用Nvidia A100和H100 GPU
  • xAI使用Nvidia H100 GPU(计划扩展到H200/Blackwell)
  • Google使用自家的TPU训练Gemini

这些公司可以随意获取满血版的A100和最新架构的Blackwell,因此它们更倾向于加大预训练投入,而不是在硬件性能上进行深度优化。例如xAI的Grok3模型,据说使用了20万块GPU,硬件投入远超DeepSeek,但性能提升并不明显。

相比之下,DeepSeek开源的三个项目都是专门针对阉割版H800的性能优化方法:

  • FlashMLA能够在显存有限的情况下高效处理长文档
  • DeepEP是一个超高速网络通信库,支持多台电脑迅速协同工作
  • DeepGEMM是一个极简但强大的矩阵运算库,能够快速完成大规模数学运算

这些优化方法都是在硬件受限的情况下产生的创新,体现了DeepSeek在特定条件下的技术实力。

对人才需求的影响

第二个感觉是,未来对于软硬件皆通的人才需求会更大。从这两天发布的几个开源项目来看,都涉及C++和CUDA编程,需要深入理解硬件和软件的交互。

DeepEP和DeepGEMM的第一作者Chenggang Zhao来自清华大学,曾在英伟达工作。这种既懂AI大模型又懂硬件的复合型人才,正是当前大模型爆发的关键。

英伟达作为"卖铲人",其核心是提供硬件,而如何优化使用这些硬件,未来可能更多地依赖于像DeepSeek这样的公司。对于英伟达来说,OpenAI这类公司通常采用"不够就买"的策略,很少从底层进行优化。而DeepSeek这样的公司,通过软硬件结合的优化,可以让1万块芯片发挥出几万甚至10万块的效果,这对AGI的发展具有重要推动作用。

三大项目贡献总结

FlashMLA(首日发布)

  • 核心贡献:作为一个高效的MLA解码内核,FlashMLA针对NVIDIA Hopper架构进行了深度优化。它通过精细化的内存管理和KV缓存压缩技术,将原本庞大的缓存数据压缩至原体积的极小比例(有报道指出可达93.3%的缓存削减),从而在显存资源有限的情况下依然支持万token级长文档的高效推理。
  • 创新点:解决了显存碎片和连续内存分配难题,使得在"阉割版"H800上实现超长上下文的实时推理成为可能。
  • GitHub地址https://github.com/deepseek-ai/FlashMLA

DeepEP(第二天发布)

  • 核心贡献:这款专为MoE(专家混合模型)场景设计的通信库,针对H800上的多GPU协同计算进行优化。它支持NVLink与RDMA技术,打通了节点内外高速通信的瓶颈,有效降低了延迟并提升了吞吐量。
  • 创新点:在复杂模型训练中,实现了节点间高效数据传输,为大规模并行计算提供了坚实支撑,填补了国外厂商在受限硬件条件下难以遇到的通信优化空白。
  • GitHub地址https://github.com/deepseek-ai/DeepEP

DeepGEMM(第三天发布)

  • 核心贡献:作为一个仅300行代码的FP8通用矩阵乘法库,DeepGEMM针对H800的FP8运算特性进行了深度优化。它支持普通GEMM以及MoE分组计算,通过引入CUDA核心两级累加(提升)技术和轻量级即时编译(JIT)模块,解决了FP8张量核心累加不精确的问题。
  • 创新点:在极简代码实现下展现出超高性能,为V3/R1等大模型训练与推理提供了强有力的算力加速,成为深度学习优化领域的新标杆。
  • GitHub地址https://github.com/deepseek-ai/DeepGEMM
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号