DeepSeek开源盛宴:总结和感悟【更新至第三天】
DeepSeek开源盛宴:总结和感悟【更新至第三天】
DeepSeek公司在三天内连续开源了三个项目:FlashMLA、DeepEP和DeepGEMM,这些项目针对特定硬件进行了深度优化,展现了在硬件限制下的技术创新能力。
开源工作的独特性
开源到了第三天,有两个明显的感觉:
第一个感觉是,这些工作几乎不可能在国外的AI公司里面完成。从第一天的FlashMLA,到第二天的DeepEP,再到今天的DeepGEMM,这些工作都是基于特定的英伟达H800芯片。这款GPU的特殊之处在于它是针对中国市场推出的"阉割版",这是由于美国芯片限制法案的影响。
而国外的AI大厂情况完全不同,它们没有受到禁售限制,可以自由购买Nvidia的A100和H100等高性能GPU。例如:
- OpenAI使用Nvidia A100和H100 GPU训练ChatGPT和GPT-4
- Anthropic使用Nvidia A100和H100 GPU
- xAI使用Nvidia H100 GPU(计划扩展到H200/Blackwell)
- Google使用自家的TPU训练Gemini
这些公司可以随意获取满血版的A100和最新架构的Blackwell,因此它们更倾向于加大预训练投入,而不是在硬件性能上进行深度优化。例如xAI的Grok3模型,据说使用了20万块GPU,硬件投入远超DeepSeek,但性能提升并不明显。
相比之下,DeepSeek开源的三个项目都是专门针对阉割版H800的性能优化方法:
- FlashMLA能够在显存有限的情况下高效处理长文档
- DeepEP是一个超高速网络通信库,支持多台电脑迅速协同工作
- DeepGEMM是一个极简但强大的矩阵运算库,能够快速完成大规模数学运算
这些优化方法都是在硬件受限的情况下产生的创新,体现了DeepSeek在特定条件下的技术实力。
对人才需求的影响
第二个感觉是,未来对于软硬件皆通的人才需求会更大。从这两天发布的几个开源项目来看,都涉及C++和CUDA编程,需要深入理解硬件和软件的交互。
DeepEP和DeepGEMM的第一作者Chenggang Zhao来自清华大学,曾在英伟达工作。这种既懂AI大模型又懂硬件的复合型人才,正是当前大模型爆发的关键。
英伟达作为"卖铲人",其核心是提供硬件,而如何优化使用这些硬件,未来可能更多地依赖于像DeepSeek这样的公司。对于英伟达来说,OpenAI这类公司通常采用"不够就买"的策略,很少从底层进行优化。而DeepSeek这样的公司,通过软硬件结合的优化,可以让1万块芯片发挥出几万甚至10万块的效果,这对AGI的发展具有重要推动作用。
三大项目贡献总结
FlashMLA(首日发布)
- 核心贡献:作为一个高效的MLA解码内核,FlashMLA针对NVIDIA Hopper架构进行了深度优化。它通过精细化的内存管理和KV缓存压缩技术,将原本庞大的缓存数据压缩至原体积的极小比例(有报道指出可达93.3%的缓存削减),从而在显存资源有限的情况下依然支持万token级长文档的高效推理。
- 创新点:解决了显存碎片和连续内存分配难题,使得在"阉割版"H800上实现超长上下文的实时推理成为可能。
- GitHub地址:https://github.com/deepseek-ai/FlashMLA
DeepEP(第二天发布)
- 核心贡献:这款专为MoE(专家混合模型)场景设计的通信库,针对H800上的多GPU协同计算进行优化。它支持NVLink与RDMA技术,打通了节点内外高速通信的瓶颈,有效降低了延迟并提升了吞吐量。
- 创新点:在复杂模型训练中,实现了节点间高效数据传输,为大规模并行计算提供了坚实支撑,填补了国外厂商在受限硬件条件下难以遇到的通信优化空白。
- GitHub地址:https://github.com/deepseek-ai/DeepEP
DeepGEMM(第三天发布)
- 核心贡献:作为一个仅300行代码的FP8通用矩阵乘法库,DeepGEMM针对H800的FP8运算特性进行了深度优化。它支持普通GEMM以及MoE分组计算,通过引入CUDA核心两级累加(提升)技术和轻量级即时编译(JIT)模块,解决了FP8张量核心累加不精确的问题。
- 创新点:在极简代码实现下展现出超高性能,为V3/R1等大模型训练与推理提供了强有力的算力加速,成为深度学习优化领域的新标杆。
- GitHub地址:https://github.com/deepseek-ai/DeepGEMM