大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
自驾游选小排量车更划算,每公里省一半油钱
厦门金秋自驾游:鼓浪屿、环岛路2日游攻略
福州鼓山风景区:闽刹之冠涌泉寺与十八景自然景观
太疯狂了!TikTok上的美国网友集体迁移到小红书,还都在学普通话
为什么美国TikTok用户会注册小红书?
洛杉矶大火后的生态之殇:破坏、恢复与启示
化疗致淋巴细胞降低,四种方案助力免疫功能恢复
免疫防御到废物清理:淋巴系统守护人体健康的四大功能
Midjourney十大高阶绘图风格详解:从迪士尼到赛博朋克
8个实用技巧,让你的电脑桌面既美观又高效
手机壳定制全攻略:7步打造专属个性手机壳
《你微笑时很美》:四角恋谁才是赢家?
许凯主演《你微笑时很美》遭电竞圈抵制,豆瓣仅3.2分
斯诺克入门必修课:22颗球里的技巧与智慧
桌球运动入门攻略:规则、技巧与注意事项全解析
中国人民解放军陆军军医大学招生条件有哪些
王者荣耀打野机制详解:打野英雄选择与路线规划
春节拜年新花样:从上门拜访到云端祝福
春节申遗成功,各地过年习俗大揭秘
马来西亚华人“捞生”庆春节,越捞越“升”
移民美国带猫咪?这些准备步骤和注意事项要知道
猫咪打架怎么办?10个实用方案打造和谐多猫家庭
河南焦作云台山-神农山-青天河景区攻略,太行山水间的绝美画卷
过年去哪儿玩?跟着文物游郑州!
世外桃源:老挝(下)风土人情
浴血奋战:俄罗斯二战经典战争电影盘点
五部俄罗斯战争片:从写实巷战到反战喜剧
跆拳道入奥40年:从朝鲜古技到全球运动
西双版纳斥资41亿打造三大文旅项目,剑指900亿产业目标
李小龙:用功夫和哲学搭建中西文化交流的桥梁