问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大语言模型LLM基础：推理/不同模型/量化对显存、推理速度和性能的影响

创作时间:

作者:

@小白创作中心

大语言模型LLM基础：推理/不同模型/量化对显存、推理速度和性能的影响

引用

CSDN

1.

https://m.blog.csdn.net/weixin_45498383/article/details/140058934

本文详细探讨了大语言模型（LLM）的推理需求，包括不同模型对显存的需求、量化对显存和性能的影响、以及各种加速工具的效果。内容主要基于Qwen、零一万物、Nvidia等官方材料，适合对AI和LLM感兴趣的读者。

1. 不同参数量LLM推理需要多少显存？

实验设置：batch-size = 1
部分模型只推荐GPU，没有显存数据。

1.1 低配使用（计算资源有限）

Int4量化，约2K上下文

模型（int4）	所需显存 (GB)	推荐GPU	参考模型
0.5B	<5G	Qwen2-0.5B-Instruct
1.5B	<3G	Qwen-1_8B-Chat, Qwen2-1.5B-Instruct
6B	4G	Yi-6B-Chat-4bits
7B	<11G	Qwen2-7B-Instruct，Qwen-7B-Chat-Int4
14B	13G	Qwen-14B-Chat-Int4
34B	20G	Yi-34B-Chat-4bits
57B	<35G	Qwen2-57B-A14B-Instruct
72B	<47G	Qwen2-72B-Instruct
130B	-	8 * RTX 2080 Ti(11G) 4 * RTX 3090(24G)	GLM-130B
236B	130G	8xA100(80G)	DeepSeek-V2-Chat

1.2 标配使用（性能与资源平衡）

Int8量化，4K、6K上下文

模型（int8）	所需显存 (GB)	推荐GPU	参考模型
0.5B	6G	Qwen2-0.5B-Instruct
1.5B	8G	Qwen2-1.5B-Instruct
6B	8G	Yi-6B-Chat-8bits
7B	14G	Qwen2-7B-Instruct
14B	27G	Qwen-14B-Chat-Int8
34B	38G	Yi-34B-Chat-8bits
57B	117G (bf16)	Qwen2-57B-A14B-Instruct
72B	80G	Qwen2-72B-Instruct
130B	-	8xRTX3090 (24G)	GLM-130B
236B	490G (fb16)	8xA100 (80G)	DeepSeek-V2-Chat
340B	-	16xA100(80G) 16xH100(80G) 8xH200	Nemotron-4-340B-Instruct

1.3 高配使用（高级用法，性能优先）

性能优先，不量化，数据格式FB16，32K上下文

模型（fb16）	所需显存 (GB)	推荐GPU	参考模型
0.5B	27G	Qwen2-0.5B-Instruct
1.5B	30G	Qwen2-1.5B-Instruct
6B	20G	Yi-6B-200K
7B	43G	Qwen2-7B-Instruct
14B	39G (8k)	Qwen-14B-Chat
34B	200G (200k)	4 x A800 (80G)	Yi-34B-200K
57B	117G	Qwen2-57B-A14B-Instruct
72B	209G	Qwen2-72B-Instruct

若以上内容无法帮助你做出判断，你可以参考Qwen官网更详细的数据：Qwen速度基准

2. Batch Size和量化对显存的影响

要点：

Batch Size增加，显存占用也会增加。
量化可以节省显存：通过下表中的数据可以看到，6B模型在float16时占用12G显存，8bit量化占用7G，4bit量化只需要4G显存。

Model	batch=1	batch=4	batch=16	batch=32
Yi-6B-Chat	12 GB	13 GB	15 GB	18 GB
Yi-6B-Chat-8bits	7 GB	8 GB	10 GB	14 GB
Yi-6B-Chat-4bits	4 GB	5 GB	7 GB	10 GB
Yi-34B-Chat	65 GB	68 GB	76 GB	>80 GB
Yi-34B-Chat-8bits	35 GB	37 GB	46 GB	58 GB
Yi-34B-Chat-4bits	19 GB	20 GB	30 GB	40 GB

数据来源：Yi-6B-Chat

3. 上下文长度对显存和推理速度的影响

要点：

上下文越长，推理速度越慢。
显存占用也会增加。

输入长度（上下文）	推理速度 (Tokens/s)	GPU占用
1	37.97	14.92
6144	34.74	20.26
14336	26.63	27.71
30720	17.49	42.62

数据整理自Qwen2官方测试报告。

4. 量化对推理速度的影响

要点：

量化后推理速度会变慢或持平。
当量化影响到GPU使用量时，例如从多张GPU降低到单GPU，推理速度会明显变快。

Qwen2模型的测试结果如下：

Qwen2-0.5B模型：量化模型速度变慢。
Qwen2-1.5B模型：量化与fb16相比速度持平。
Qwen2-7B模型：稍微变慢，使用vLLM时，量化版本更快。
Qwen2-72B模型：速度变快（尤其是Int4量化后，从2GPU变为1GPU后推理速度明显变快），但使用长context时（120k），量化版本推理速度变慢。

详细结果请访问：Qwen速度基准

5. 参数量对推理速度的影响

单位：tokens/s

推理工具	0.5B	1.5B	7B	72B
Transformers	50.83	40.86	34.74	5.99
vLLM	256.16	166.23	76.41	27.98
vLLM 速度提升倍数	5.04倍	4.07倍	2.20倍	4.67倍

模型：Qwen2系列，上下文6K，FB16模型

6. vLLM、DeepSeed、CTranslate2等工具推理速度如何？

与Transformers相比，使用vLLM、DeepSeed等工具加速，推理速度可以提升2到5倍。
DeepSeed、vLLM、CTranslate2三个加速工具中，CTranslate2的表现更好，尤其是batch size为1时。

7. 量化对模型性能的影响

Int8量化模型性能与float16格式差别不大。量化文档
Int4量化模型与float16模型相比，精度损失在1-2个百分点左右。（Yi模型与Baichuan2模型有类似结论）Baichuan2

8. 常见LLM用GPU参考

GPU	显存
H200	141GB
H100, H800	80GB
A100, A800	80GB
A100	40GB
V100	32GB
RTXA6000	48GB
RTX4090, RTX3090, A10, A30	24GB
RTX4070	12GB
RTX3070	8GB

参考资料

Qwen速度基准
Qwen-1_8B-Chat
Qwen-7B-Chat-Int8
Qwen-14B-Chat-Int8
Yi-6B-Chat
GLM-130B量化
Nemotron-4-340B-Instruct
DeepSeek-V2-Chat
Zenn文章
Baichuan2

热门推荐

碧蓝航线企业图鉴攻略：深度解析企业号的技能与特点

碧蓝航线企业图鉴攻略：深度解析企业号的技能与特点

气胸做胸腔镜手术要恢复多久时间

气胸做胸腔镜手术要恢复多久时间

足球世界杯扩军之“困”

足球世界杯扩军之“困”

跑步新手每周跑多少量，让你健康又不掉队

跑步新手每周跑多少量，让你健康又不掉队

丙火生于酉时有灾：健康财富婚姻挑战与对策

丙火生于酉时有灾：健康财富婚姻挑战与对策

台湾5条精选自行车旅游路线：从火车站出发，10分钟内抵达景点

台湾5条精选自行车旅游路线：从火车站出发，10分钟内抵达景点

Excel表格中修改小数点后显示位数的多种方法

Excel表格中修改小数点后显示位数的多种方法

粘接低表面能塑料所需的特殊技术和胶粘剂

粘接低表面能塑料所需的特殊技术和胶粘剂

同时获得“三一勋章”的开国将帅

同时获得“三一勋章”的开国将帅

花镇：婚后夫妻如何有效沟通呢

花镇：婚后夫妻如何有效沟通呢

2025年科技热点前瞻：前沿突破、商业航天、深海探索与人工智能应用

2025年科技热点前瞻：前沿突破、商业航天、深海探索与人工智能应用

糖尿病并发症预防：每餐必知的正确食物搭配技巧

糖尿病并发症预防：每餐必知的正确食物搭配技巧

糖尿病并发症：早预防早发现！这些检查很管用

糖尿病并发症：早预防早发现！这些检查很管用

口腔颌面部血管瘤的高发人群有哪些

口腔颌面部血管瘤的高发人群有哪些

唐朝名将程咬金的生平事迹及历史地位。

唐朝名将程咬金的生平事迹及历史地位。

三亚旅游旺季和淡季时间及区别：几月份是旅游旺季和淡季

三亚旅游旺季和淡季时间及区别：几月份是旅游旺季和淡季

维生素 D 到底要吃到几岁？很多儿童、成人也长期没补足！

维生素 D 到底要吃到几岁？很多儿童、成人也长期没补足！

豆瓣9.0+高分精选国产影视剧推荐，值得重刷，你看过几部？

豆瓣9.0+高分精选国产影视剧推荐，值得重刷，你看过几部？

新型热机少了重要的部件，热电效率反而优于传统的蒸汽轮机

新型热机少了重要的部件，热电效率反而优于传统的蒸汽轮机

盘核桃有什么好处

盘核桃有什么好处

订婚宴上的敬酒客套话

订婚宴上的敬酒客套话

胸口时常灼热、反酸，没想到竟是心梗……心梗擅“伪装”，这些都是症状！

胸口时常灼热、反酸，没想到竟是心梗……心梗擅“伪装”，这些都是症状！

如何理解股票收盘价的定义？股票收盘价对投资者有哪些参考价值？

如何理解股票收盘价的定义？股票收盘价对投资者有哪些参考价值？

显微血管减压术治疗面肌痉挛--让“面抽”消失

显微血管减压术治疗面肌痉挛--让“面抽”消失

同样进厂做流水线，工资为何差距大？

同样进厂做流水线，工资为何差距大？

盐湖湖泊水质监测方法

盐湖湖泊水质监测方法

web 项目开发中 iframe 的跨域方法都有哪些

web 项目开发中 iframe 的跨域方法都有哪些

2024春季广交会参展攻略：科学规划展位，精准抓住机遇

2024春季广交会参展攻略：科学规划展位，精准抓住机遇

“京字号”种子领跑全国迈向世界

“京字号”种子领跑全国迈向世界

嘴歪怎么办？专业医生详解病因、诊断与治疗方案

嘴歪怎么办？专业医生详解病因、诊断与治疗方案

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号