问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

LLM量化对比：不同量化程度对模型性能的影响

创作时间:

作者:

@小白创作中心

LLM量化对比：不同量化程度对模型性能的影响

引用

1

来源

1.

https://myedgetech.com/llm-quantization-comparison/

量化（Quantization）是高效部署大型语言模型（LLM）的关键技术，它可以减少内存占用并提高推理速度。然而，较低的精度通常会导致模型质量的权衡。本文通过对比不同量化程度的模型在速度和输出质量方面的表现，提供了详细的分析和结论。

性能对比

下表展示了应用于DeepSeek-R1-Abliterated模型的不同量化级别的性能对比。这些模型在各种任务上进行了评估。LiveBench评估了模型在17个任务中的性能，这些任务分为6个类别。让我们逐个查看这些类别。

代码（Coding）

代码生成和来自Leetcode/AtCoder的新型代码补全任务（LiveCodeBench）。

低比特量化（Q3_K_M, Q2_K）显著降低了分数。

数据分析（Data Analysis）

使用最新的Kaggle/Socrata数据集的任务，包括表格重新格式化、列连接预测和类型注释。

量化对数据分析任务的影响与代码任务类似。

指令跟随（Instruction Following）

基于最近的新闻文章进行释义、总结和故事讲述，并遵循特定的约束。

注意，图表的纵轴在50的值处被截断了！

量化略微降低了性能。与代码和数据分析不同，14B Q2_K模型表现更差，这非常有趣。但需要更多测试才能从此得出任何结论。

语言（Language）

字谜游戏（Connections）、错别字校正和电影概要解扰。

在这种情况下，14B Q2_K模型的性能与8bit 6bit模型相同。但是，正如我们稍后将看到的，这几乎没有意义，因为14b q2模型在速度上明显不如内存占用相同的8bit 6bit模型。

数学（Math）

高中竞赛题（AMC12, AIME, USAMO, IMO, SMC）和更难的AMPS问题。

中等程度的量化（Q6_K, Q4_K_M, Q3_K_M）保持了相似的性能。相对于量化程度较低的较小模型，14B Q2_K没有显示出明显的改进。

推理（Reasoning）

高级逻辑谜题，包括更难的Web of Lies任务和Zebra Puzzles。

令人惊讶。14B Q2_K模型大大优于所有8B变体，这表明较大的模型在复杂的逻辑推理中能更好地处理重度量化。

以下是所有测试的汇总表：

此外，我们比较了它们在不同硬件配置下的推理速度。以下是不同设备上的性能比较测试。用于测试的设备：Nvidia RTX 3090, NVIDIA A100-SXM4-40GB, 配备M2 Pro和32 GB内存的MacBook Pro 14。

结论（Conclusions）

根据这些测试结果，可以得出几个明显的结论：

16位精度模型的意义不大：由于更大的量化模型可以提供更好的结果，因此以16位精度运行模型意义不大。
4位量化是平衡之选：4位量化格式是最受欢迎的，并且提供了良好的平衡。如果内存充足，增加一些额外的比特可以略微提高准确性。
服务器级GPU对大模型的优势：模型越大，配备快速HBM内存的服务器级GPU相对于消费级GPU的优势就越大。
14b q2_k格式的权衡：14b q2_k模型与8b q6_k模型需要相同的内存量，但运行速度慢得多。同时，除了推理测试外，在所有测试中，它的结果相当甚至略差。然而，这些发现不应在没有额外测试的情况下推断到更大的模型。

量化在优化大型语言模型以进行部署方面起着至关重要的作用。虽然低比特量化显著提高了推理速度并降低了内存需求，但它也带来了准确性方面的权衡。

热门推荐

金属氟碳漆施工注意事项介绍

金属氟碳漆施工注意事项介绍

氟碳漆施工方法及注意事项

氟碳漆施工方法及注意事项

仓库毒麻药品如何管理

仓库毒麻药品如何管理

如何应对儿童牙外伤、眼外伤等意外伤害？医学专家答疑

如何应对儿童牙外伤、眼外伤等意外伤害？医学专家答疑

现代简约风装修全攻略：从色彩到布局的细节避坑指南，装出高级感

现代简约风装修全攻略：从色彩到布局的细节避坑指南，装出高级感

现代简约风装修全攻略：从色彩到布局的细节避坑指南，装出高级感

现代简约风装修全攻略：从色彩到布局的细节避坑指南，装出高级感

工商个体户可以转公司吗？个体工商户转公司的条件及流程详解

工商个体户可以转公司吗？个体工商户转公司的条件及流程详解

国内首部AI贺岁微短剧《美猴王》上线！创新再现中国神话奇幻世界

国内首部AI贺岁微短剧《美猴王》上线！创新再现中国神话奇幻世界

睡眠眼罩买什么样的好？眼罩选购小窍门

睡眠眼罩买什么样的好？眼罩选购小窍门

如何成为一名优秀的房地产经纪人？这种职业发展路径有哪些关键因素？

如何成为一名优秀的房地产经纪人？这种职业发展路径有哪些关键因素？

破产费用主要包括哪些

破产费用主要包括哪些

高铁“挂票”走红！带娃坐火车需要注意些什么？

高铁“挂票”走红！带娃坐火车需要注意些什么？

健康肌秘丨唇色看健康，变色要当心！

健康肌秘丨唇色看健康，变色要当心！

CRISPR-Cas9：精准基因编辑的前景与挑战

CRISPR-Cas9：精准基因编辑的前景与挑战

跑步之后怎么做拉伸小腿比较好

跑步之后怎么做拉伸小腿比较好

如何处理股指期货的交割日？期货交割的流程和注意事项是什么？

如何处理股指期货的交割日？期货交割的流程和注意事项是什么？

采购合同管理SOP：构建高效合规的法律体系

采购合同管理SOP：构建高效合规的法律体系

五言律诗平仄规律及押韵口诀详解

五言律诗平仄规律及押韵口诀详解

农村宅基地面积规定及无房处理方式详解

农村宅基地面积规定及无房处理方式详解

SIP协议详解：定义、工作原理与应用

SIP协议详解：定义、工作原理与应用

鸿蒙OS中的触摸事件处理

鸿蒙OS中的触摸事件处理

总是控制不住想抖腿抖腿的常见原因有这几种

总是控制不住想抖腿抖腿的常见原因有这几种

可回收垃圾有哪些？你都知道多少？

可回收垃圾有哪些？你都知道多少？

电缆及管道穿隔防火封堵：国际标准与国内规范大揭秘

电缆及管道穿隔防火封堵：国际标准与国内规范大揭秘

电工培训：开启安全高效电力作业的金钥匙

电工培训：开启安全高效电力作业的金钥匙

为什么时不时后脑勺疼

为什么时不时后脑勺疼

世界首例「男男生子」，到底是咋回事？

世界首例「男男生子」，到底是咋回事？

书单| “ 16本书加1套方法论 ” 助你修炼逻辑思维，提高80%工作效率

书单| “ 16本书加1套方法论 ” 助你修炼逻辑思维，提高80%工作效率

电信诈骗海报如何制作：法律视角下的设计与合规标准

电信诈骗海报如何制作：法律视角下的设计与合规标准

纳指ETF的投资策略是什么？这些策略如何帮助投资者规避风险？

纳指ETF的投资策略是什么？这些策略如何帮助投资者规避风险？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号