问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek 671B模型部署实践:从理论到企业级应用

创作时间:
作者:
@小白创作中心

DeepSeek 671B模型部署实践:从理论到企业级应用

引用
1
来源
1.
http://m.blog.itpub.net/69965512/viewspace-3073988/

DeepSeek 671B模型凭借强大的推理能力,为企业AI应用提供了重要支持。然而,其庞大的参数量也带来了部署挑战。本文将从理论分析、优化手段、企业级部署实践等多个维度,深入探讨如何在ZStack AIOS平台上实现多机多卡部署,并通过实验数据展示性能优化效果。

DeepSeek 模型推理性能的理论分析

对于当前的大模型来说,其GPU运行过程可以简化为以下几步:

  1. 对输入文本进行转换,从汉字或单词转换成大模型能理解的数字(向量和位置编码);
  2. 基于模型的参数进行计算,以Qwen2.5-72B为例,需要加载145GB数据到计算单元;
  3. 生成回答,本质上是生成候选词和概率分布。

在这个过程中,GPU硬件的两个参数最为关键:

  1. 矩阵乘法的性能(TFlops);
  2. GPU显存带宽(与显存类型GDDR或HBM相关)。

对于现代GPU而言,显存带宽往往是主要瓶颈。以RTX 4090为例,FP8计算下每秒可处理82TB数据,但显存带宽仅1TB/s。因此,在大模型推理时,只有当“并发量足够大”,才会从“显存瓶颈”转换为“算力瓶颈”。

基于671B模型的理论性能估算显示,DeepSeek V3、R1的总参数为671B,但得益于MoE架构,运行时激活参数只有37B。若采用FP8表示,每个参数占1字节,则单token需要读取37GB数据。假设GPU内存带宽为1979GB/s,不进行并行拆分时,每个token计算时间约为:

这个计算虽然粗略,但与实际测试结果接近,表明单用户推理性能很难突破53.5 tokens/s。

DeepSeek 模型推理性能的优化手段

大模型推理的优化手段主要分为三类:

  1. 数据层面优化:如压缩提示词,但目前性能瓶颈不在解码阶段,且优化目标是TPS而非QPS,因此暂不考虑。

  2. 模型层面优化

  • MLA架构:相比传统MHA,MLA在保持表达能力的同时大幅减少KV-cache大小。
  • MoE架构:将Dense模型拆分为多个专业化专家,每token只需计算和读取37B权重。
  • 低精度FP8训练与量化:直接采用FP8权重减少读写数据量,同时对KV-cache进行量化压缩。
  1. 系统层面优化
  • MTP模块:在训练中用于增强预测效果,推理时可通过投机采样提高效率,据官方数据可带来约1.8倍TPS提升。

企业级部署与实践:成本与性能的权衡

DeepSeek-V3论文提出的部署方案需要352张H800,成本高昂。为了在较低成本下实现高吞吐,测试了以下场景:

单台H200八卡场景

在没有开启投机解码时,性能表现如下:

主要观察结果:

  • 在低并发(1-32)情况下,优化后系统能同时提高吞吐量并保持或降低首字时间。
  • 在128并发下,首字延迟和吞吐都不如优化前的数据。

总体而言,MTP投机解码优化在保持良好吞吐量的同时,在大多数场景下也能提供较好的首字响应时间,但在非常高并发时存在一定的响应时间增加。

两台H20 96GB十六卡场景

使用两台H20 96GB * 8进行测试,配置网络条件后以TP=16观察不同并发、不同网络延迟的性能表现。

服务器内部硬件拓扑示意:

在ZStack AIOS平台部署的效果:

接下来,通过ZStack AIOS平台的服务评测工具测试性能:

为了验证网络延时对TP16部署方案的影响,通过tc人为地对网络设置了延时,比较不同网络延时下张量并行的吞吐量(TPS):

总结成图表观察:

通过上述测试发现:

  • 随着网络延迟从0.193ms增加至2.193ms,TP16部署方案下张量并行的吞吐量(TPS)从18.943 tokens/s下降到4.85 tokens/s,性能衰减最大达到74%。
  • 网络延迟的增加会导致TP16吞吐性能显著下降。因此在设计和部署TP16方案时,应尽量减少网络延时,以优化吞吐量和性能。

生产应用中的后续优化思路

尽管通过以上手段已经大幅提升了推理效率,未来在大规模集群环境中还可以尝试一些更加激进的优化策略:

  • 采用更DP+EP、TP+EP等混合并行技术

  • DP能够在大批量输入时通过并行计算来提高整体推理速度,同时不用增加单个设备的负担。

  • EP则充分利用MoE只激活部分专家的特点,降低推理资源消耗、提升速度,二者结合使得大模型推理性能更加提升。

  • 优化冗余专家策略:除了动态调整单卡上冗余专家的数量外,未来可考虑更智能的全局路由方案,进一步平衡各卡负载。

  • 深化通信和PD分离:通信优化针对节点内NVLink与跨节点IB的分层通信,可尝试采用硬件级通信加速器或网络协处理器,进一步降低延迟。

  • 拓展多微批次重叠利用:同时处理两个微批次策略,可更充分地隐藏前向与后向通信时的空闲时间,从而进一步逼近理论吞吐极限。

结语

通过上述理论分析与实验,验证了大模型在不同并发下的性能瓶颈。通过结合DeepSeek模型独有的MLA与MoE架构优势,利用FP8量化和MTP模块,可以充分发挥GPU硬件的性能。在网络配置上,可以根据不同的网络条件,灵活配置并行策略,以最优化整个系统的吞吐。

未来,还可通过专家并行、数据并行、冗余专家、通信优化和多微批次重叠等策略进一步提高系统性能,为大规模落地应用提供更为坚实的技术保障。

展望

在AI领域,模型迭代日新月异,企业需建立长效的模型筛选与评估机制,紧跟技术潮流。企业在选择AI模型时,应依据业务实际需求,挑选合适参数量的模型和硬件部署方案,实现推理效果与成本的最佳平衡。

在后续的研究中,将探讨国产GPU部署策略,以及如何在国产GPU上运行DeepSeek模型、推理表现和性能如何。ZStack将持续优化和关注DeepSeek模型推理的性能和性价比方案,为企业级应用提供更加全面和细致的部署方案,帮助更多行业快速落地大语言模型技术,实现商业价值。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号