DeepSeek 671B模型部署实践:从理论到企业级应用
DeepSeek 671B模型部署实践:从理论到企业级应用
DeepSeek 671B模型凭借强大的推理能力,为企业AI应用提供了重要支持。然而,其庞大的参数量也带来了部署挑战。本文将从理论分析、优化手段、企业级部署实践等多个维度,深入探讨如何在ZStack AIOS平台上实现多机多卡部署,并通过实验数据展示性能优化效果。
DeepSeek 模型推理性能的理论分析
对于当前的大模型来说,其GPU运行过程可以简化为以下几步:
- 对输入文本进行转换,从汉字或单词转换成大模型能理解的数字(向量和位置编码);
- 基于模型的参数进行计算,以Qwen2.5-72B为例,需要加载145GB数据到计算单元;
- 生成回答,本质上是生成候选词和概率分布。
在这个过程中,GPU硬件的两个参数最为关键:
- 矩阵乘法的性能(TFlops);
- GPU显存带宽(与显存类型GDDR或HBM相关)。
对于现代GPU而言,显存带宽往往是主要瓶颈。以RTX 4090为例,FP8计算下每秒可处理82TB数据,但显存带宽仅1TB/s。因此,在大模型推理时,只有当“并发量足够大”,才会从“显存瓶颈”转换为“算力瓶颈”。
基于671B模型的理论性能估算显示,DeepSeek V3、R1的总参数为671B,但得益于MoE架构,运行时激活参数只有37B。若采用FP8表示,每个参数占1字节,则单token需要读取37GB数据。假设GPU内存带宽为1979GB/s,不进行并行拆分时,每个token计算时间约为:
这个计算虽然粗略,但与实际测试结果接近,表明单用户推理性能很难突破53.5 tokens/s。
DeepSeek 模型推理性能的优化手段
大模型推理的优化手段主要分为三类:
数据层面优化:如压缩提示词,但目前性能瓶颈不在解码阶段,且优化目标是TPS而非QPS,因此暂不考虑。
模型层面优化:
- MLA架构:相比传统MHA,MLA在保持表达能力的同时大幅减少KV-cache大小。
- MoE架构:将Dense模型拆分为多个专业化专家,每token只需计算和读取37B权重。
- 低精度FP8训练与量化:直接采用FP8权重减少读写数据量,同时对KV-cache进行量化压缩。
- 系统层面优化:
- MTP模块:在训练中用于增强预测效果,推理时可通过投机采样提高效率,据官方数据可带来约1.8倍TPS提升。
企业级部署与实践:成本与性能的权衡
DeepSeek-V3论文提出的部署方案需要352张H800,成本高昂。为了在较低成本下实现高吞吐,测试了以下场景:
单台H200八卡场景
在没有开启投机解码时,性能表现如下:
主要观察结果:
- 在低并发(1-32)情况下,优化后系统能同时提高吞吐量并保持或降低首字时间。
- 在128并发下,首字延迟和吞吐都不如优化前的数据。
总体而言,MTP投机解码优化在保持良好吞吐量的同时,在大多数场景下也能提供较好的首字响应时间,但在非常高并发时存在一定的响应时间增加。
两台H20 96GB十六卡场景
使用两台H20 96GB * 8进行测试,配置网络条件后以TP=16观察不同并发、不同网络延迟的性能表现。
服务器内部硬件拓扑示意:
在ZStack AIOS平台部署的效果:
接下来,通过ZStack AIOS平台的服务评测工具测试性能:
为了验证网络延时对TP16部署方案的影响,通过tc人为地对网络设置了延时,比较不同网络延时下张量并行的吞吐量(TPS):
总结成图表观察:
通过上述测试发现:
- 随着网络延迟从0.193ms增加至2.193ms,TP16部署方案下张量并行的吞吐量(TPS)从18.943 tokens/s下降到4.85 tokens/s,性能衰减最大达到74%。
- 网络延迟的增加会导致TP16吞吐性能显著下降。因此在设计和部署TP16方案时,应尽量减少网络延时,以优化吞吐量和性能。
生产应用中的后续优化思路
尽管通过以上手段已经大幅提升了推理效率,未来在大规模集群环境中还可以尝试一些更加激进的优化策略:
采用更DP+EP、TP+EP等混合并行技术:
DP能够在大批量输入时通过并行计算来提高整体推理速度,同时不用增加单个设备的负担。
EP则充分利用MoE只激活部分专家的特点,降低推理资源消耗、提升速度,二者结合使得大模型推理性能更加提升。
优化冗余专家策略:除了动态调整单卡上冗余专家的数量外,未来可考虑更智能的全局路由方案,进一步平衡各卡负载。
深化通信和PD分离:通信优化针对节点内NVLink与跨节点IB的分层通信,可尝试采用硬件级通信加速器或网络协处理器,进一步降低延迟。
拓展多微批次重叠利用:同时处理两个微批次策略,可更充分地隐藏前向与后向通信时的空闲时间,从而进一步逼近理论吞吐极限。
结语
通过上述理论分析与实验,验证了大模型在不同并发下的性能瓶颈。通过结合DeepSeek模型独有的MLA与MoE架构优势,利用FP8量化和MTP模块,可以充分发挥GPU硬件的性能。在网络配置上,可以根据不同的网络条件,灵活配置并行策略,以最优化整个系统的吞吐。
未来,还可通过专家并行、数据并行、冗余专家、通信优化和多微批次重叠等策略进一步提高系统性能,为大规模落地应用提供更为坚实的技术保障。
展望
在AI领域,模型迭代日新月异,企业需建立长效的模型筛选与评估机制,紧跟技术潮流。企业在选择AI模型时,应依据业务实际需求,挑选合适参数量的模型和硬件部署方案,实现推理效果与成本的最佳平衡。
在后续的研究中,将探讨国产GPU部署策略,以及如何在国产GPU上运行DeepSeek模型、推理表现和性能如何。ZStack将持续优化和关注DeepSeek模型推理的性能和性价比方案,为企业级应用提供更加全面和细致的部署方案,帮助更多行业快速落地大语言模型技术,实现商业价值。