大语言模型LLM基础:推理/不同模型/量化对显存、推理速度和性能的影响
创作时间:
作者:
@小白创作中心
大语言模型LLM基础:推理/不同模型/量化对显存、推理速度和性能的影响
引用
CSDN
1.
https://m.blog.csdn.net/weixin_45498383/article/details/140058934
通过本文,你将了解以下几个方面的内容:
- 要运行一个LLM需要多少显存?(你的GPU可以运行多大LLM?)
- 不同LLM推理速度如何?
- 量化对显存、推理速度和性能的影响?
- vLLM、DeepSeed等工具的加速效果如何?
- 上下文、batch-size对显存和推理的影响?
本文内容和测试数据主要来自Qwen,零一万物,Nvidia等官方材料(相关文档请查看参考资料部分)。
1. 不同参数量LLM推理需要多少显存?
实验设置:batch-size = 1
部分模型只推荐GPU,没有显存数据。
1.1 低配使用(计算资源有限)
Int4量化,约2K上下文
模型(int4) | 所需显存 (GB) | 推荐GPU | 参考模型 |
|---|---|---|---|
0.5B | <5G | Qwen2-0.5B-Instruct | |
1.5B | <3G | Qwen-1_8B-Chat, Qwen2-1.5B-Instruct | |
6B | 4G | Yi-6B-Chat-4bits | |
7B | <11G | Qwen2-7B-Instruct,Qwen-7B-Chat-Int4 | |
14B | 13G | Qwen-14B-Chat-Int4 | |
34B | 20G | Yi-34B-Chat-4bits | |
57B | <35G | Qwen2-57B-A14B-Instruct | |
72B | <47G | Qwen2-72B-Instruct | |
130B | - | 8 * RTX 2080 Ti(11G) 4 * RTX 3090(24G) | GLM-130B |
236B | 130G | 8xA100(80G) | DeepSeek-V2-Chat |
1.2 标配使用(性能与资源平衡)
Int8量化,4K、6K上下文
模型(int8) | 所需显存 (GB) | 推荐GPU | 参考模型 |
|---|---|---|---|
0.5B | 6G | Qwen2-0.5B-Instruct | |
1.5B | 8G | Qwen2-1.5B-Instruct | |
6B | 8G | Yi-6B-Chat-8bits | |
7B | 14G | Qwen2-7B-Instruct | |
14B | 27G | Qwen-14B-Chat-Int8 | |
34B | 38G | Yi-34B-Chat-8bits | |
57B | 117G (bf16) | Qwen2-57B-A14B-Instruct | |
72B | 80G | Qwen2-72B-Instruct | |
130B | - | 8xRTX3090 (24G) | GLM-130B |
236B | 490G (fb16) | 8xA100 (80G) | DeepSeek-V2-Chat |
340B | - | 16xA100(80G) 16xH100(80G) 8xH200 | Nemotron-4-340B-Instruct |
1.3 高配使用(高级用法,性能优先)
性能优先,不量化,数据格式FB16,32K上下文
模型(fb16) | 所需显存 (GB) | 推荐GPU | 参考模型 |
|---|---|---|---|
0.5B | 27G | Qwen2-0.5B-Instruct | |
1.5B | 30G | Qwen2-1.5B-Instruct | |
6B | 20G | Yi-6B-200K | |
7B | 43G | Qwen2-7B-Instruct | |
14B | 39G (8k) | Qwen-14B-Chat | |
34B | 200G (200k) | 4 x A800 (80G) | Yi-34B-200K |
57B | 117G | Qwen2-57B-A14B-Instruct | |
72B | 209G | Qwen2-72B-Instruct |
若以上内容无法帮助你做出判断,你可以参考Qwen官网更详细的数据:Qwen速度基准
2. Batch Size和量化对显存的影响
要点:
- Batch Size增加,显存占用也会增加。
- 量化可以节省显存:通过下表中的数据可以看到,6B模型在float16时占用12G显存,8bit量化占用7G,4bit量化只需要4G显存。
Model | batch=1 | batch=4 | batch=16 | batch=32 |
|---|---|---|---|---|
Yi-6B-Chat | 12 GB | 13 GB | 15 GB | 18 GB |
Yi-6B-Chat-8bits | 7 GB | 8 GB | 10 GB | 14 GB |
Yi-6B-Chat-4bits | 4 GB | 5 GB | 7 GB | 10 GB |
Yi-34B-Chat | 65 GB | 68 GB | 76 GB | >80 GB |
Yi-34B-Chat-8bits | 35 GB | 37 GB | 46 GB | 58 GB |
Yi-34B-Chat-4bits | 19 GB | 20 GB | 30 GB | 40 GB |
数据来源:Yi-6B-Chat
3. 上下文长度对显存和推理速度的影响
要点:
- 上下文越长,推理速度越慢。
- 显存占用也会增加。
输入长度(上下文) | 推理速度 (Tokens/s) | GPU占用 |
|---|---|---|
1 | 37.97 | 14.92 |
6144 | 34.74 | 20.26 |
14336 | 26.63 | 27.71 |
30720 | 17.49 | 42.62 |
数据整理自Qwen2官方测试报告。
4. 量化对推理速度的影响
要点:
- 量化后推理速度会变慢或持平。
- 当量化影响到GPU使用量时,例如从多张GPU降低到单GPU,推理速度会明显变快。
Qwen2模型的测试结果如下:
- Qwen2-0.5B模型:量化模型速度变慢。
- Qwen2-1.5B模型:量化与fb16相比速度持平。
- Qwen2-7B模型:稍微变慢,使用vLLM时,量化版本更快。
- Qwen2-72B模型:速度变快(尤其是Int4量化后,从2GPU变为1GPU后推理速度明显变快),但使用长context时(120k),量化版本推理速度变慢。
详细结果请访问:Qwen速度基准
5. 参数量对推理速度的影响
单位:tokens/s
推理工具 | 0.5B | 1.5B | 7B | 72B |
|---|---|---|---|---|
Transformers | 50.83 | 40.86 | 34.74 | 5.99 |
vLLM | 256.16 | 166.23 | 76.41 | 27.98 |
vLLM 速度提升倍数 | 5.04倍 | 4.07倍 | 2.20倍 | 4.67倍 |
模型:Qwen2系列,上下文6K,FB16模型
6. vLLM、DeepSeed、CTranslate2等工具推理速度如何?
- 与Transformers相比,使用vLLM、DeepSeed等工具加速,推理速度可以提升2到5倍。
- DeepSeed、vLLM、CTranslate2三个加速工具中,CTranslate2的表现更好,尤其是batch size为1时。
7. 量化对模型性能的影响
- Int8量化模型性能与float16格式差别不大。量化文档
- Int4量化模型与float16模型相比,精度损失在1-2个百分点左右。(Yi模型与Baichuan2模型有类似结论)Baichuan2
8. 常见LLM用GPU参考
GPU | 显存 |
|---|---|
H200 | 141GB |
H100, H800 | 80GB |
A100, A800 | 80GB |
A100 | 40GB |
V100 | 32GB |
RTXA6000 | 48GB |
RTX4090, RTX3090, A10, A30 | 24GB |
RTX4070 | 12GB |
RTX3070 | 8GB |
参考资料
- Qwen速度基准
- Qwen-1_8B-Chat
- Qwen-7B-Chat-Int8
- Qwen-14B-Chat-Int8
- Yi-6B-Chat
- GLM-130B量化
- Nemotron-4-340B-Instruct
- DeepSeek-V2-Chat
- Zenn文章
- Baichuan2
热门推荐
涉及企业经营,这些忙帮不得!法官解读企业经营中的个人法律风险
如何让一篇学术论文更加严谨和全面?
什么是工业控制计算机?
备孕期的咖啡因指南:如何正确饮用咖啡
恢复胃动力的药有哪些
景区创A的关键:资源保护与服务质量
医院营销:从单调发文到故事型传播的全新突破
拉肚子一定要吃止瀉藥嗎?專家:腹瀉時先補充這2物更有用
“低空+轨道”空铁联运:深圳北站打造全国首个低空经济示范项目
养一辆10万的混动车与养一辆10万的油车,10年后算算账,发现差距很明显
青少年基础体能训练指南
怎样能减低早产儿脑瘫发生率
中医学和中西医临床医学哪个专业好?二者之间有啥区别?
中国历史上第一位实行“社会主义”改革的“穿越”皇帝-王莽
如何撰写薪资调整申请书关键点
马克笔,绘出多彩乐章——浅谈马克笔绘画创作的多维发展
电磁阀的位和通概念详解
水养绿萝养护全攻略:定期换水加维C,让绿萝生长更旺盛
6个你需要知道的地中海饮食指南,助你拥抱健康生活、增加活力并保持美味!
从古典到现代,旗袍裙:东方时尚的永恒语言
哪里可以获取药品生产质量管理规范的培训资料?
新华传媒(600825.SH):一个“老牌国企”的资本突围战
2024武汉租房指南:武汉租房价格表及租房攻略
可可多酚是什么?你每日摄取量达标了吗?黑巧克力挑选攻略!
乌龟饲养指南:吃什么吃多少(营养均衡的乌龟饲料推荐)
《罪与罚》:陀思妥耶夫斯基的文学巅峰之作
污水处理厂是什么单位
几种适合室内徒手锻炼的运动,减肥减脂不再是难题
如何使用八字排盘工具解锁你的命运密码
WOW!如何用视觉效果设计一个令人难忘的红点奖颁奖典礼?