大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
拒绝的艺术:如何优雅地说“不”,同时守护珍贵情谊
数字图像处理:RGB与HSV颜色模型的转换原理及MATLAB实现
假面骑士加布蛋糕王形态设定公开!王者般惊人的战斗力!
如果有个院子,围墙一定要这样设计!
浙江湖州“10大美食”,你吃过几道
2025年中国股市展望:三大关键因素与潜在催化剂
什么是尺寸优化、形状优化、拓扑优化?
掌跖角化症的预防策略
穿青人的历史由来:一个特殊的“未识别民族”
乙肝抗体低于多少需要打加强针
巴黎奥运会火炬传递感人一幕:外骨骼助力截瘫火炬手实现行走
如何通过年利率计算利息并理解其意义?这种计算方法在实际应用中有哪些注意事项?
五行八字缺失与取名补缺:传统文化中的命理智慧
如何设计灵活的居住空间?这种设计有哪些创新点?
如何规避网站素材使用中的版权风险
《混乱》:接受混乱,并让混乱为人所用,让混乱成为我们人生进步的动力
Mini LED:全面概述
回答9个问题,2025年计划就出来了
策略与乐趣:最佳Steam卡牌游戏体验
9本书,读懂硅谷
为什么肚子上的肉这么难减 可能与这4种因素有关
国内数据交易现状梳理
长期关系如何保持吸引力?
新疆莎车县,朗朗普通话正回响在脱贫道路上!
发现一个很奇怪的现象:频繁找喜欢的人聊天,可能只是感情依赖
发票验真怎么操作?小白必看:四种查验发票真伪方法!
手磨出泡了怎么处理比较好
五代时期给藩镇发展带来了机遇——兵力和财富日积月累
安东尼离开曼联2场造3球,摘“亿元水货”头衔,滕哈格千古奇冤?
这就是惠州小金口!