大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
农村宅基地房转让协议书怎么写?这份指南请收好
宅基地及房屋转让协议书撰写指南及法律责任解析
“健康中国2030”下的校园健康教育新趋势
双十一后电商平台管理策略:天猫 vs 京东
孩子智商与妈妈血型有关?妈妈是什么血型跟娃的智商有关?有科学依据吗?
绍兴新昌罗坑山徒步攻略:仙境之旅
巴盟美食探秘:地道河套风味
巴彦淖尔美食节:一场带动当地经济的美食盛宴
巴彦淖尔猪肉烩酸菜:百年传承的冬季美味
辽宁省哪个市最富?辽宁省各市经济实力排名
这座被时间封印的辽西小城,你一定要来......(内附义县交通全攻略)
昆明咖啡巴士上线!边喝咖啡边赏鸥
琉克:夜神月的BE结局太刀了!
南京一日游最佳路线推荐:历史、文化与美食的完美交融
南京糕点大赏:从茶糕到梅花糕的传统美食之旅
从《长安十二时辰》看小说语言表达的艺术
非遗技艺融入小说创作,传统文化焕发新生
网文爆红秘籍:从写作技巧到营销策略全解析
《偷偷藏不住》:一段跨越时间的暗恋
《偷偷藏不住》:赵露思新作引发热议,观众反响如何?
IX金币版本60TP?155毫米主炮重拳出击!
杨幂赵丽颖刘亦菲那些搞笑穿帮瞬间🔥
单霁翔:汶川地震遗址保护是物质家园重建,更是精神家园重塑
单霁翔:用文化的力量守护地震遗址
汶川地震遗址公园:一场心灵的洗礼
2024岁末展望:中国文旅市场的科技赋能与跨界融合
什么是国有企业单位
新中国首位特等女战斗英雄:郭俊卿的传奇人生
《满庭芳·国色》:春晚里的文化盛宴
药品剂型大不同,保存方法大公开!