大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
发烧友的户外必备-帐篷
银行内部审计的程序与方法详解
长期股权投资的会计处理
病情评估操作流程的关键步骤是什么?
《战狼1》:铁血丹心,燃情战火
向上领导的9个原则
茯苓堪稱四時神藥! 8成中藥複方有茯苓
微信提现到银行卡,怎么免手续费?方法简单实用还能省好多钱
潜意识与认知心理学的关联研究
零基础学雅思从哪开始学比较好呢
提高英语口语能力的四大实用方法
如何证明分居?哪些情况不属于法律意义上的分居
确保晶振频率稳定的因素及改善措施
自动化安全漏洞扫描的实现
统一回复:灵活就业参保,60%和100%的缴费档次,哪种性价比高?
严重? 17岁小伙海底捞包间撒尿拍视频 拘留结果曝光 家长被喊话
四川广安美食推荐(广安当地美食)
张力性气胸的急救处理是应该立即
如何理解股权质押爆仓的风险和影响?股权质押爆仓的应对策略有哪些?
吸血鬼幸存者全攻略:揭秘隐藏人物解锁方法与详细步骤指南
扁鹊:古代医术的传奇人物
李时珍的《本草纲目》在中国历史和文化中的地位和作用
揭开中原仙山的神秘面纱:老君山的壮丽风光与道教传奇探秘
TRIS缓冲剂的全称是什么?
冥王星为何被踢出行星行列?水星安然无恙的秘密何在?
Apple Watch使用温度指南:不同机型的适宜工作温度范围及安全处理建议
什么是AI幻觉?大语言模型为什么会胡编乱造?
多模态理解大模型之视觉问答 (VQA) 技术详解
制作实用目录的重要性与方法:提升文章可读性与专业性
心烦意乱?教你快速恢复平静心态的实用方法!