资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大语言模型LLM基础：推理/不同模型/量化对显存、推理速度和性能的影响

创作时间:

作者:

@小白创作中心

大语言模型LLM基础：推理/不同模型/量化对显存、推理速度和性能的影响

引用

CSDN

https://m.blog.csdn.net/weixin_45498383/article/details/140058934

通过本文，你将了解以下几个方面的内容：

要运行一个LLM需要多少显存？（你的GPU可以运行多大LLM？）
不同LLM推理速度如何？
量化对显存、推理速度和性能的影响？
vLLM、DeepSeed等工具的加速效果如何？
上下文、batch-size对显存和推理的影响？

本文内容和测试数据主要来自Qwen，零一万物，Nvidia等官方材料（相关文档请查看参考资料部分）。

1. 不同参数量LLM推理需要多少显存？

实验设置：batch-size = 1
部分模型只推荐GPU，没有显存数据。

1.1 低配使用（计算资源有限）

Int4量化，约2K上下文

模型（int4）	所需显存 (GB)	推荐GPU	参考模型
0.5B	<5G	Qwen2-0.5B-Instruct
1.5B	<3G	Qwen-1_8B-Chat, Qwen2-1.5B-Instruct
6B	4G	Yi-6B-Chat-4bits
7B	<11G	Qwen2-7B-Instruct，Qwen-7B-Chat-Int4
14B	13G	Qwen-14B-Chat-Int4
34B	20G	Yi-34B-Chat-4bits
57B	<35G	Qwen2-57B-A14B-Instruct
72B	<47G	Qwen2-72B-Instruct
130B	-	8 * RTX 2080 Ti(11G) 4 * RTX 3090(24G)	GLM-130B
236B	130G	8xA100(80G)	DeepSeek-V2-Chat

1.2 标配使用（性能与资源平衡）

Int8量化，4K、6K上下文

模型（int8）	所需显存 (GB)	推荐GPU	参考模型
0.5B	6G	Qwen2-0.5B-Instruct
1.5B	8G	Qwen2-1.5B-Instruct
6B	8G	Yi-6B-Chat-8bits
7B	14G	Qwen2-7B-Instruct
14B	27G	Qwen-14B-Chat-Int8
34B	38G	Yi-34B-Chat-8bits
57B	117G (bf16)	Qwen2-57B-A14B-Instruct
72B	80G	Qwen2-72B-Instruct
130B	-	8xRTX3090 (24G)	GLM-130B
236B	490G (fb16)	8xA100 (80G)	DeepSeek-V2-Chat
340B	-	16xA100(80G) 16xH100(80G) 8xH200	Nemotron-4-340B-Instruct

1.3 高配使用（高级用法，性能优先）

性能优先，不量化，数据格式FB16，32K上下文

模型（fb16）	所需显存 (GB)	推荐GPU	参考模型
0.5B	27G	Qwen2-0.5B-Instruct
1.5B	30G	Qwen2-1.5B-Instruct
6B	20G	Yi-6B-200K
7B	43G	Qwen2-7B-Instruct
14B	39G (8k)	Qwen-14B-Chat
34B	200G (200k)	4 x A800 (80G)	Yi-34B-200K
57B	117G	Qwen2-57B-A14B-Instruct
72B	209G	Qwen2-72B-Instruct

若以上内容无法帮助你做出判断，你可以参考Qwen官网更详细的数据：Qwen速度基准

2. Batch Size和量化对显存的影响

要点：

Batch Size增加，显存占用也会增加。
量化可以节省显存：通过下表中的数据可以看到，6B模型在float16时占用12G显存，8bit量化占用7G，4bit量化只需要4G显存。

Model	batch=1	batch=4	batch=16	batch=32
Yi-6B-Chat	12 GB	13 GB	15 GB	18 GB
Yi-6B-Chat-8bits	7 GB	8 GB	10 GB	14 GB
Yi-6B-Chat-4bits	4 GB	5 GB	7 GB	10 GB
Yi-34B-Chat	65 GB	68 GB	76 GB	>80 GB
Yi-34B-Chat-8bits	35 GB	37 GB	46 GB	58 GB
Yi-34B-Chat-4bits	19 GB	20 GB	30 GB	40 GB

数据来源：Yi-6B-Chat

3. 上下文长度对显存和推理速度的影响

要点：

上下文越长，推理速度越慢。
显存占用也会增加。

输入长度（上下文）	推理速度 (Tokens/s)	GPU占用
1	37.97	14.92
6144	34.74	20.26
14336	26.63	27.71
30720	17.49	42.62

数据整理自Qwen2官方测试报告。

4. 量化对推理速度的影响

要点：

量化后推理速度会变慢或持平。
当量化影响到GPU使用量时，例如从多张GPU降低到单GPU，推理速度会明显变快。

Qwen2模型的测试结果如下：

Qwen2-0.5B模型：量化模型速度变慢。
Qwen2-1.5B模型：量化与fb16相比速度持平。
Qwen2-7B模型：稍微变慢，使用vLLM时，量化版本更快。
Qwen2-72B模型：速度变快（尤其是Int4量化后，从2GPU变为1GPU后推理速度明显变快），但使用长context时（120k），量化版本推理速度变慢。

详细结果请访问：Qwen速度基准