DeepSeek开源盛宴：总结和感悟【更新至第三天】

创作时间:

作者:

@小白创作中心

DeepSeek开源盛宴：总结和感悟【更新至第三天】

引用

CSDN

https://blog.csdn.net/Kaiyuan_sjtu/article/details/145917427

DeepSeek公司在三天内连续开源了三个项目：FlashMLA、DeepEP和DeepGEMM，这些项目针对特定硬件进行了深度优化，展现了在硬件限制下的技术创新能力。

开源工作的独特性

开源到了第三天，有两个明显的感觉：

第一个感觉是，这些工作几乎不可能在国外的AI公司里面完成。从第一天的FlashMLA，到第二天的DeepEP，再到今天的DeepGEMM，这些工作都是基于特定的英伟达H800芯片。这款GPU的特殊之处在于它是针对中国市场推出的"阉割版"，这是由于美国芯片限制法案的影响。

而国外的AI大厂情况完全不同，它们没有受到禁售限制，可以自由购买Nvidia的A100和H100等高性能GPU。例如：

OpenAI使用Nvidia A100和H100 GPU训练ChatGPT和GPT-4
Anthropic使用Nvidia A100和H100 GPU
xAI使用Nvidia H100 GPU（计划扩展到H200/Blackwell）
Google使用自家的TPU训练Gemini

这些公司可以随意获取满血版的A100和最新架构的Blackwell，因此它们更倾向于加大预训练投入，而不是在硬件性能上进行深度优化。例如xAI的Grok3模型，据说使用了20万块GPU，硬件投入远超DeepSeek，但性能提升并不明显。

相比之下，DeepSeek开源的三个项目都是专门针对阉割版H800的性能优化方法：

FlashMLA能够在显存有限的情况下高效处理长文档
DeepEP是一个超高速网络通信库，支持多台电脑迅速协同工作
DeepGEMM是一个极简但强大的矩阵运算库，能够快速完成大规模数学运算

这些优化方法都是在硬件受限的情况下产生的创新，体现了DeepSeek在特定条件下的技术实力。

对人才需求的影响

第二个感觉是，未来对于软硬件皆通的人才需求会更大。从这两天发布的几个开源项目来看，都涉及C++和CUDA编程，需要深入理解硬件和软件的交互。

DeepEP和DeepGEMM的第一作者Chenggang Zhao来自清华大学，曾在英伟达工作。这种既懂AI大模型又懂硬件的复合型人才，正是当前大模型爆发的关键。

英伟达作为"卖铲人"，其核心是提供硬件，而如何优化使用这些硬件，未来可能更多地依赖于像DeepSeek这样的公司。对于英伟达来说，OpenAI这类公司通常采用"不够就买"的策略，很少从底层进行优化。而DeepSeek这样的公司，通过软硬件结合的优化，可以让1万块芯片发挥出几万甚至10万块的效果，这对AGI的发展具有重要推动作用。

三大项目贡献总结

FlashMLA（首日发布）

核心贡献：作为一个高效的MLA解码内核，FlashMLA针对NVIDIA Hopper架构进行了深度优化。它通过精细化的内存管理和KV缓存压缩技术，将原本庞大的缓存数据压缩至原体积的极小比例（有报道指出可达93.3%的缓存削减），从而在显存资源有限的情况下依然支持万token级长文档的高效推理。
创新点：解决了显存碎片和连续内存分配难题，使得在"阉割版"H800上实现超长上下文的实时推理成为可能。
GitHub地址：https://github.com/deepseek-ai/FlashMLA

DeepEP（第二天发布）

核心贡献：这款专为MoE（专家混合模型）场景设计的通信库，针对H800上的多GPU协同计算进行优化。它支持NVLink与RDMA技术，打通了节点内外高速通信的瓶颈，有效降低了延迟并提升了吞吐量。
创新点：在复杂模型训练中，实现了节点间高效数据传输，为大规模并行计算提供了坚实支撑，填补了国外厂商在受限硬件条件下难以遇到的通信优化空白。
GitHub地址：https://github.com/deepseek-ai/DeepEP

DeepGEMM（第三天发布）

核心贡献：作为一个仅300行代码的FP8通用矩阵乘法库，DeepGEMM针对H800的FP8运算特性进行了深度优化。它支持普通GEMM以及MoE分组计算，通过引入CUDA核心两级累加（提升）技术和轻量级即时编译（JIT）模块，解决了FP8张量核心累加不精确的问题。
创新点：在极简代码实现下展现出超高性能，为V3/R1等大模型训练与推理提供了强有力的算力加速，成为深度学习优化领域的新标杆。
GitHub地址：https://github.com/deepseek-ai/DeepGEMM

热门推荐

林芝鲁冰花海：雪域高原上的五彩梦境