大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
GPTQ:针对GPT模型的训练后量化
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是尝试通过最小化权重的均方误差将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GPTQ常用的量化位数包括4位和8位。
GGUF:GPT生成统一格式
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。AWQ和GPTQ作为方法有几个不同之处,但最重要的是AWQ假设并非所有权重对LLM的性能都同等重要。也就是说,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。因此,他们的论文提到与GPTQ相比,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
AWQ常用的量化位数是4位,其精度通常比同级的GPTQ更高。
实验对比
以千问Qwen 7B模型为例,使用A4000 16G显存进行测试:
原始模型(未量化)
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始加载显存占用:17G
- HTTP请求(翻译中文):Trump was always bothered by how Trump Tower fell 41 feet short of the General Motors building two blocks north.
- 平均速度:2-3秒
- 请求后显存占用:18G左右
带有flash_attention_2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17G
- 速度:2-3秒,没有明显变化
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11G
- 平均时间间隔:15秒,比非量化模型慢了不少
- 运行几个请求后显存占用:12.7G
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
如何优化团队的通勤时间?
口腔卫生的重要性
盐可以美白牙齿么
什么是气缸数?详解汽车发动机气缸数对性能的影响
我的世界手工人物橡皮泥使用方法是什么 有什么创意玩法
3月“她档期”高分女性电影云集,她的声音被更多人聆听
C++中的异常处理机制:深入理解try、catch与throw
稳定性与可靠性,TCXO引领数字时钟新时代
温补晶振在5G通信中的关键作用
看《老友记》也能学英语,轻松提升口语的秘密!
债券赎回是什么意思?债券赎回的影响因素有哪些?
精神分裂症会遗传吗
口腔溃疡是缺什么
阳宅催旺人丁风水说法
J Clin Med:人工智能在口腔影像学中诊断根尖周病变的准确性评估
四姐妹各具特色,通过各自的追求和挣扎,展现了女性的力量
银行的银行卡密码忘记后重置需要提供哪些资料?
面膜敷多久?多久敷一次才有效?专家教你正确使用面膜5步骤!
双方和解协议从合同条款到履行方式的全面解析
恩怨数百年:摩洛哥与地中海邻居们
温州六中学区房价下跌,三年损超百万!学区房保值存疑
如何选择适合注册公司的最佳行业?
郑州医保该如何报销
R-CHOP化疗方案的副作用及应对方法
薪酬体系设计不合理,如何优化才能提升员工满意度?
股票市盈率怎么看?K线图入门指南及港股投资规则
牙线秘籍大公开!6步解锁正确用法,90%的人都踩过这些坑
跨省转学国际高中有哪些比较好的推荐?家庭经济条件一般
美债危机升级,中方再抛售573亿,日本拒绝救场!美会不会破产?
炉石传说卡牌制作器使用方法:从入门到精通的详细教程