大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
本地大模型部署指南:Ollama+Llama3.2从入门到API调用
测量血压的正确方法及注意事项
遇到HDMI接口问题?来看这份故障排除指南
梦到了剪长头发意味什么
如何建立量化模型?量化模型的建立方法及应用场景是什么?
苹果检测报告必须检测哪几项?执行标准是什么?
鼻咽癌放疗后复查项目
梦境的启示:从梦境中汲取智慧和灵感,获得新的洞察力
1955年,“小开”向组织坦白见过汪精卫,陈毅苦笑:“你糊涂!”
宋高宗赵构的法律罪名及其历史评析
股票投资入门:从基础知识到风险管理
商用净水器滤芯多久换一次?这些因素决定更换周期
如何管理团队刺头员工
十类适合写字用的笔有哪些 写字练字用什么笔
如何建立有效的合伙人制度(建立合伙人管理制度)
白玉堂与白玉诚:揭秘同名人物背后的故事与区别
2025年幼儿园语言交流与合作计划
字母属性:形状、音素、大小写与用途
大雁塔的历史典故与传说探索
知名石油储运专家宇波带领团队全职加盟长江大学
应届生如何做出合理的购房决策?这些决策如何适应市场变化?
花生的出苗时间(播种后多少天?如何促进出苗?)
哪些蛋白质类食物有助于减肥?
小麦仁的功效与作用有什么
中医总结:12条经络,虚证、实证,到底怎么分辨?一次讲清楚
小叶紫檀生长环境与特点(探寻小叶紫檀的生存之道)
小叶紫檀的养护与管理(小叶紫檀能否晒太阳)
口干口苦出虚汗是什么原因
口腔护理的目的和操作流程 口腔护理的注意事项
电动自行车安全注意事项