资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大语言模型量化方法对比：GPTQ、GGUF、AWQ 包括显存和速度

创作时间:

作者:

@小白创作中心

大语言模型量化方法对比：GPTQ、GGUF、AWQ 包括显存和速度

引用

CSDN

https://blog.csdn.net/linzhiji/article/details/138912632

GPTQ：针对GPT模型的训练后量化

GPTQ是一种4位量化的训练后量化（PTQ）方法，主要关注GPU推理和性能。该方法的核心思想是尝试通过最小化权重的均方误差将所有权重压缩到4位。在推理过程中，它会动态地将权重去量化为float16，以提高性能，同时保持较低的内存占用。

GPTQ常用的量化位数包括4位和8位。

GGUF：GPT生成统一格式

GGUF（以前称为GGML）是一种量化方法，允许用户使用CPU来运行LLM，但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢，但对于那些在CPU或苹果设备上运行模型的人来说，这是一种非常好的格式。

AWQ：激活感知权重量化

AWQ（激活感知权重量化）是一种类似于GPTQ的量化方法。AWQ和GPTQ作为方法有几个不同之处，但最重要的是AWQ假设并非所有权重对LLM的性能都同等重要。也就是说，在量化过程中会跳过一小部分权重，这有助于减轻量化损失。因此，他们的论文提到与GPTQ相比，AWQ可以实现显著加速，同时保持相似甚至更好的性能。

AWQ常用的量化位数是4位，其精度通常比同级的GPTQ更高。

实验对比

以千问Qwen 7B模型为例，使用A4000 16G显存进行测试：

原始模型（未量化）

modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
    modeIdOrPath,
    torch_dtype=fType,
    device_map='auto',
)

初始加载显存占用：17G
HTTP请求（翻译中文）：Trump was always bothered by how Trump Tower fell 41 feet short of the General Motors building two blocks north.
平均速度：2-3秒
请求后显存占用：18G左右

带有flash_attention_2的原始模型

model = AutoModelForCausalLM.from_pretrained(
    modeIdOrPath,
    torch_dtype=fType,
    device_map='auto',
    attn_implementation="flash_attention_2"
)

初始显存占用：17G
速度：2-3秒，没有明显变化

GPTQ Int8量化模型

modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"

初始显存占用：11G
平均时间间隔：15秒，比非量化模型慢了不少
运行几个请求后显存占用：12.7G

参考资料

大语言模型量化方法对比：GPTQ、GGUF、AWQ - 知乎
https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15

热门推荐

科学饮水指南，揭秘每日最佳饮水量

什么是跟投制度？跟投制度的实施方式有哪些？

Excel计算CPI的完整指南：从数据收集到结果分析

股市黄线代表什么含义？股市黄线对投资者的操作有何指导意义？

蔡琰，乱世中的才女传奇

掌握"thought"发音与用法，提升英语口语和写作能力的技巧分享

清明健康指南，这些事项一定要注意了！

法院判决房屋如何卖？一文详解出售流程与注意事项

南充市嘉陵区双桂镇的省级文物保护单位——田坝会馆

30-40岁男士秋冬职场与休闲高品质穿搭指南

解决联想小新Pro16内存不足问题及内存升级指南

孕期过敏性鼻炎该如何应对？盘点孕期过敏性鼻炎的防治妙招

爸妈，千万别心疼钱，这4种零食该吃就吃！

粤式秘制白切鸡

白切鸡直接用水煮就又老又腥？牢记这4个关键步骤，皮脆肉嫩！

港媒：中国科学家计划在月球上建造旋转发射系统，将月球资源运回

家用健身器材有哪些 5大器材让你在家也能练出好身材