大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
创作时间:
作者:
@小白创作中心
大语言模型量化方法对比:GPTQ、GGUF、AWQ 包括显存和速度
引用
CSDN
1.
https://blog.csdn.net/linzhiji/article/details/138912632
大语言模型的量化方法对于模型的部署和推理性能至关重要。本文将介绍三种主流的量化方法:GPTQ、GGUF和AWQ,并通过Qwen 7B模型的实际测试数据,对比它们在显存占用和推理速度方面的表现。
GPTQ:训练后量化方法
GPTQ是一种4位量化的训练后量化(PTQ)方法,主要关注GPU推理和性能。该方法的核心思想是通过最小化权重的均方误差,将所有权重压缩到4位。在推理过程中,它会动态地将权重去量化为float16,以提高性能,同时保持较低的内存占用。
GGUF:统一格式量化方法
GGUF(以前称为GGML)是一种量化方法,允许用户使用CPU来运行LLM,但也可以将其某些层加载到GPU以提高速度。虽然使用CPU进行推理通常比使用GPU慢,但对于那些在CPU或苹果设备上运行模型的人来说,这是一种非常好的格式。
AWQ:激活感知权重量化
AWQ(激活感知权重量化)是一种类似于GPTQ的量化方法。与GPTQ相比,AWQ的一个重要区别在于它假设并非所有权重对LLM的性能都同等重要。因此,在量化过程中会跳过一小部分权重,这有助于减轻量化损失。根据论文所述,AWQ可以实现显著加速,同时保持相似甚至更好的性能。
实际测试:Qwen 7B模型
为了更直观地理解这些量化方法的效果,我们使用Qwen 7B模型进行了一些实际测试。测试环境为A4000显卡,16GB显存。
原始模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat"
fType=torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
)
- 初始显存占用:17GB
- 平均速度:2-3秒
- 请求后显存占用:18GB左右
带Flash Attention 2的原始模型
model = AutoModelForCausalLM.from_pretrained(
modeIdOrPath,
torch_dtype=fType,
device_map='auto',
attn_implementation="flash_attention_2"
)
- 初始显存占用:17GB
- 速度:2-3秒(无明显变化)
- 请求后显存占用:18GB左右
GPTQ Int8量化模型
modeIdOrPath="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8"
- 初始显存占用:11GB
- 平均时间间隔:15秒(比非量化模型慢)
- 请求后显存占用:12.7GB
参考资料
- 大语言模型量化方法对比:GPTQ、GGUF、AWQ - 知乎
- https://kaitchup.substack.com/p/fine-tuning-and-quantization-of-qwen15
热门推荐
家里炸过东西的剩油别扔掉,教你小诀窍,多加一种东西,清亮透彻无异味,太实用了!
如何有效散热以保护服务器E5的性能?
氟化物在线监测系统中的分析仪是如何实现对氟化物浓度的连续自动检测的?
叶剑英孙女叶明子:从京城名媛到跨国婚姻的传奇人生
儿童用药基本原则及注意事项 孩子成长阶段的用药原则
为泄私愤报假警 浪费警力须担责
餐饮岗位绩效计算公式中包含哪些关键指标?
低血糖和胰腺有关系吗
合同欺诈案的赔偿方式、规定及处理方法
如何鉴别西湖龙井茶真伪?评茶师揭秘茶叶品质全攻略
流鼻血有“猫腻”?教你一眼看穿白血病流鼻血和普通流鼻血
中储粮:保障国家粮食安全的“压舱石”
摄影技巧:如何运用曝光补偿拍摄完美夜景
科普:充电器待机功耗是如何测试的
高校行政岗裁员潮,来了!
《难哄》白敬亭章若楠凭撒糖火出圈!但剧情和服化给人当头一棒?
女性偏头痛:雌激素的潜在作用机制
集体户口所需资料全攻略
几个月的宝宝可以办港澳通行证吗?办理条件和所需材料详解
爵士编曲:如何编写爵士贝斯?Cubase图示和一些简单的爵士贝斯即兴演奏技巧
美国新常春藤名校名单盘点:20所顶尖学府详解
福州新区:擎旗奋进登新高
近视眼戴墨镜会加重近视程度吗?医生专业解答来了
饕餮纹的寓意可以佩戴?它象征着权力与财富
爱及生灵,共护生态!它基金汇聚“爱它”力量
健康信念模式的内容包括
多智能体系统(MAS):定义、架构与应用
揭秘茶叶苦涩之谜:化学成分的作用与影响!
王者荣耀开服时间攻略:如何有效提升游戏效率
Type-C接口与Micro USB的区别:新一代连接标准的优势