大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
发热、喉咙痛和头痛怎么办?专业医生的6个家庭护理建议
灯光变礼花?眼科医生解析散光的发生原因、诊断及治疗方法
叶秀山:如何读哲学书?
如何探索多元化的投资渠道
数据库开发就业指南:从入门到进阶
数据库如何就业:从新手到专家的全面指南
喝酒就吐怎么回事
解读网传《深圳IT圈新八小时工作制》:创新还是隐患?
天地男儿电视剧简介 天地男儿电视剧介绍
犯罪心理学柯特txt在法律实践中的应用与分析
双相情感障碍与边缘型人格障碍的鉴别诊断
敌进我退,敌退我追,敌驻我扰,敌疲我打:十六字游击战术详解
从恋爱到婚姻:如何跨越爱情的长跑线
日本留学生活必备:银行开户及各项手续办理全攻略
婉约词十大经典之作,每一首都堪称千古绝唱
NBA前瞻:活塞强势反弹迎战奇才
2025北京高考本科提前批都有哪些学校和专业
身宫在命宫男命:传统命理学中的性格与命运解析
世界上最深的马里亚纳海沟,有多深?海沟中是否有海洋生物生活?
科技公司取名简单大气:打造品牌影响力的关键
松瀑山风景区游玩攻略:位置、门票、路线全解析
SpringBoot 前后端加密攻略
发球技巧大公开:为何你的羽毛球飞不高远?
科幻漫画交响之旅|进入贝多芬的理想世界
科目一考试扣分口诀及测试题
超越《简爱》的《理智与情感》,它凭什么能如此吸引人?
全网关注的赵露思病情:一名心理科医生的专业解读
如何识别真正的强者特质
骑行新手必读:如何选择适合自己的骑行鞋
硫磺熏蒸陈皮药材的安全使用研究