资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeek 671B模型部署实践：从理论到企业级应用

创作时间:

作者:

@小白创作中心

DeepSeek 671B模型部署实践：从理论到企业级应用

引用

来源

http://m.blog.itpub.net/69965512/viewspace-3073988/

DeepSeek 671B模型凭借强大的推理能力，为企业AI应用提供了重要支持。然而，其庞大的参数量也带来了部署挑战。本文将从理论分析、优化手段、企业级部署实践等多个维度，深入探讨如何在ZStack AIOS平台上实现多机多卡部署，并通过实验数据展示性能优化效果。

DeepSeek 模型推理性能的理论分析

对于当前的大模型来说，其GPU运行过程可以简化为以下几步：

对输入文本进行转换，从汉字或单词转换成大模型能理解的数字（向量和位置编码）；
基于模型的参数进行计算，以Qwen2.5-72B为例，需要加载145GB数据到计算单元；
生成回答，本质上是生成候选词和概率分布。

在这个过程中，GPU硬件的两个参数最为关键：

矩阵乘法的性能（TFlops）；
GPU显存带宽（与显存类型GDDR或HBM相关）。

对于现代GPU而言，显存带宽往往是主要瓶颈。以RTX 4090为例，FP8计算下每秒可处理82TB数据，但显存带宽仅1TB/s。因此，在大模型推理时，只有当“并发量足够大”，才会从“显存瓶颈”转换为“算力瓶颈”。

基于671B模型的理论性能估算显示，DeepSeek V3、R1的总参数为671B，但得益于MoE架构，运行时激活参数只有37B。若采用FP8表示，每个参数占1字节，则单token需要读取37GB数据。假设GPU内存带宽为1979GB/s，不进行并行拆分时，每个token计算时间约为：

这个计算虽然粗略，但与实际测试结果接近，表明单用户推理性能很难突破53.5 tokens/s。

DeepSeek 模型推理性能的优化手段

大模型推理的优化手段主要分为三类：

数据层面优化：如压缩提示词，但目前性能瓶颈不在解码阶段，且优化目标是TPS而非QPS，因此暂不考虑。
模型层面优化：

MLA架构：相比传统MHA，MLA在保持表达能力的同时大幅减少KV-cache大小。
MoE架构：将Dense模型拆分为多个专业化专家，每token只需计算和读取37B权重。
低精度FP8训练与量化：直接采用FP8权重减少读写数据量，同时对KV-cache进行量化压缩。

系统层面优化：

MTP模块：在训练中用于增强预测效果，推理时可通过投机采样提高效率，据官方数据可带来约1.8倍TPS提升。

企业级部署与实践：成本与性能的权衡

DeepSeek-V3论文提出的部署方案需要352张H800，成本高昂。为了在较低成本下实现高吞吐，测试了以下场景：

单台H200八卡场景

在没有开启投机解码时，性能表现如下：

主要观察结果：

在低并发(1-32)情况下，优化后系统能同时提高吞吐量并保持或降低首字时间。
在128并发下，首字延迟和吞吐都不如优化前的数据。

总体而言，MTP投机解码优化在保持良好吞吐量的同时，在大多数场景下也能提供较好的首字响应时间，但在非常高并发时存在一定的响应时间增加。

两台H20 96GB十六卡场景

使用两台H20 96GB * 8进行测试，配置网络条件后以TP=16观察不同并发、不同网络延迟的性能表现。

服务器内部硬件拓扑示意：

在ZStack AIOS平台部署的效果：

接下来，通过ZStack AIOS平台的服务评测工具测试性能：

为了验证网络延时对TP16部署方案的影响，通过tc人为地对网络设置了延时，比较不同网络延时下张量并行的吞吐量（TPS）：

总结成图表观察：

通过上述测试发现：

随着网络延迟从0.193ms增加至2.193ms，TP16部署方案下张量并行的吞吐量（TPS）从18.943 tokens/s下降到4.85 tokens/s，性能衰减最大达到74%。
网络延迟的增加会导致TP16吞吐性能显著下降。因此在设计和部署TP16方案时，应尽量减少网络延时，以优化吞吐量和性能。