大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
揭秘!武警工程大学学员最新安置安排
健身减脂新宠:鸡胸肉饼藜麦饭汉堡套餐
米其林推荐:五星餐厅级汉堡的食材秘籍
《骆驼祥子》第11章:孙侦探的“神操作”
老舍笔下的北平:《骆驼祥子》真实背景揭秘
冬季流感高发,感康真的能治感冒吗?
新发现:这3种坚果降血脂效果最好!但很多人都吃错了
感冒药安全性预警:FDA最新警告解读与用药指南
湿热体质吃什么中药
天津最好玩的八个地方,如果去了一定不要错过
西安至昆明旅游出行时间指南:高铁、飞机及自驾详细时长比较
八闽文化探秘
千年前就名扬天下的扬州最值得去玩的8大景点你知道几个
涠洲岛:广西最大海岛的度假天堂,日出日落、海鲜美食应有尽有!
北京卫视《跨界歌王》今晚开播!在家轻松收看攻略
山西省心血管病医院引进激光治疗:口腔溃疡治疗新选择
山西省心血管病医院:二极管激光治疗口腔溃疡获新突破
赵本山宋丹丹经典小品:笑点密集不输德云社,艺术魅力跨越时代
华为TUP计划:职场高效文化的秘密武器
海市蜃楼是折射吗 海市蜃楼的原理
绍兴新昌葫马线:美丽路成为致富路
如何用AI角色设定成为职场专家?
天天刷牙,你真的刷对了吗?这些习惯,可能正在毁掉你的牙!
巴氏刷牙法有哪些好处?掌握正确的刷牙方法可预防多种口腔问题
阿弗他口腔炎:如何快速缓解?
口腔溃疡小妙招大集合:从科学预防到实用偏方
舌尖上的天津:十大必打卡美食
老六哥教你设计优秀的AI提示词
春节后你的爱车怎么保“颜”?
上海动物园推出龙年主题活动,邀你寻“龙”观“龙”过大年