大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
GPTQ:针对GPT模型的训练后量化
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是尝试通过最小化权重的均方误差将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GPTQ常用的量化位数包括4位和8位。
GGUF:GPT生成统一格式
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。AWQ和GPTQ作为方法有几个不同之处,但最重要的是AWQ假设并非所有权重对LLM的性能都同等重要。也就是说,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。因此,他们的论文提到与GPTQ相比,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
AWQ常用的量化位数是4位,其精度通常比同级的GPTQ更高。
实验对比
以千问Qwen 7B模型为例,使用A4000 16G显存进行测试:
原始模型(未量化)
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始加载显存占用:17G
- HTTP请求(翻译中文):Trump was always bothered by how Trump Tower fell 41 feet short of the General Motors building two blocks north.
- 平均速度:2-3秒
- 请求后显存占用:18G左右
带有flash_attention_2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17G
- 速度:2-3秒,没有明显变化
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11G
- 平均时间间隔:15秒,比非量化模型慢了不少
- 运行几个请求后显存占用:12.7G
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
如何应对失业带来的财务压力?这种应对策略有哪些潜在风险和决策?
苹果手机录音恢复方法与注意事项
多专家Prompt:让LLM拥有群体决策的智慧
斗酒僧的身份,并不神秘,天龙中他与段誉齐名,在射雕中被五绝膜拜
如何查询公章是否已备案?备案核验编号接入商已审详解
全谷物——健康饮食的秘密宝藏
Windows 10屏保设置无响应?轻松解决指南
【深度解析】银时到底是不是神乐的爸爸?
这些关于贝多芬《第九交响曲》的冷知识,你知道吗?
民办学历学信网可查吗
《明日方舟》薇薇安娜玩法思路分享
敲门催债的法律性质及催收行为的边界探讨
《时间界:破桩》:一部穿梭时空的科幻佳作
保健品行业违法案例曝光,虚假宣传重罚122万,合规生存是基础
如何计算汽车在一般城市路面及高速上的油耗?
文化中国行|京津冀木版年画里的精美典雅与古拙粗犷
姬发:周朝的开国君主与历史传奇
【了解乙肝】如何判断新生儿乙肝疫苗接种是否成功?
硝酸根离子水质监测站功能及其重要性
北京电子诉讼平台操作指南:轻松应对诉讼事务
桌游都有什么游戏(适合小孩的烧脑桌游推荐)
选择统一低碳润滑油保养对车主有什么好处
2024年北京上海人均GDP破3万美元,逼近日本3.3万水平!
微专业:定位“小而精”,提升人才综合竞争力
当年无人问津重温却成了经典,这6部电影你看过几部?
卤牛肉的秘密武器:只需5样料,好吃不柴,香嫩多汁!
英伟达显卡最新驱动屏幕闪烁怎么回事
中国名称的起源及历史解读
东海大陆架及其油气资源分布
图解DeepSeek-R1:AI推理模型的重大突破