问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型量化性能评价指标：从困惑度到多维度评估体系

创作时间:

作者:

@小白创作中心

大模型量化性能评价指标：从困惑度到多维度评估体系

引用

CSDN

1.

https://blog.csdn.net/sinat_37574187/article/details/139881072

在大模型量化研究领域，如何全面评估量化方法对模型性能的影响是一个重要问题。本文基于最新研究论文，提出了一套结构化的评估框架，涵盖了知识与容量、一致性和效率三个关键维度，并通过广泛的实验验证了其有效性。

在阅读多篇量化相关文章时，一个常见的困惑是：为什么所有量化方法都只使用困惑度（ppl）这一个指标来评价性能损耗？这种单一指标的评价方式是否全面？

最近，一篇来自小米和天津大学的研究论文《A Comprehensive Evaluation of Quantization Strategies for Large Language Models》（论文链接）对此问题进行了深入探讨。研究者们发现，当前的量化研究主要集中在预训练模型上，而对指令微调后的LLMs的影响以及量化LLMs的困惑度与其他基准测试性能之间的关系尚不清楚。

为此，研究团队提出了一个结构化的评估框架，包括三个关键维度：

知识与容量（Knowledge & Capacity）
一致性（Alignment）
效率（Efficiency）

他们选择了Qwen系列模型（7B、14B、72B）作为测试对象，重点关注后训练量化（PTQ），并采用了三种典型的量化方法：LLM.int8()、GPTQ和SpQR。

研究发现：

4位量化（4-bit quantization）的LLMs能够保持与非量化模型相当的性能。
在参数规模较大的情况下，量化的LLMs性能优于参数规模较小的非量化LLMs。
困惑度可以作为量化LLMs在大多数基准测试中的代理指标。

基准测试集

研究中使用的测试集包括：

MMLU（Massive Multitask Language Understanding）：评估模型在多种学科领域的零样本和少样本学习能力。
C-EVAL：专为中文语境设计的评估套件，涵盖多个领域。
FLORES-200：用于机器翻译的高质量基准，涵盖204种语言。
CNN/DailyMail：用于评估抽象多句摘要生成。
XSum：用于评估单文档摘要生成。
GSM8K（Grade School Math）：包含8500个小学数学问题，评估模型的多步数学推理能力。
SNLI（Stanford Natural Language Inference）：用于训练和评估自然语言推理任务。
FollowBench：评估LLMs遵循各种细粒度约束的能力。
TruthfulQA：评估LLMs的真相性。
BBQ（Bias Benchmark for Question Answering）：评估LLMs在问答任务中的社会偏见。

评价标准

除了内存占用（memory）和推理速度（speed）外，其他评价标准包括：

Average Accuracy：在MMLU、C-EVAL、GSM8K、SNLI和TruthfulQA上的平均准确率。
Average BLEU：FLORES-200基准测试中中英互译的平均BLEU得分。
Average ROUGE-1/ROUGE-2/ROUGE-3：XSum和CNN/DailyMail基准测试上的平均ROUGE得分。
Average HSR/SSR/CSL：FollowBench基准测试上的平均硬满足率、软满足率和一致性满足水平。
Average Bias Score：BBQ基准测试中的平均偏见得分。
Average Perplexity：在WikiText2、C4和PTB上的平均困惑度。

研究结论表明：

4位量化能够保持接近非量化版本的性能，但量化降低到3位或更低时，性能差异明显。
困惑度可以作为量化LLMs在各种评估基准上的可靠性能指标。

总结

本文的重点在于测试集和测试标准的全面性，这是量化研究领域最早关注此类问题的研究之一。虽然研究中使用的模型和方法数量有限，但这是由于量化研究仍处于早期阶段。未来，期待在更多模型和算法上进行更广泛的评测。

热门推荐

60岁大厨的红烧肉秘诀：加点它，肉质酥烂入味，汤汁浓稠鲜香

60岁大厨的红烧肉秘诀：加点它，肉质酥烂入味，汤汁浓稠鲜香

学信网教你轻松验证毕业证真实性

学信网教你轻松验证毕业证真实性

学历认证报告助力职场晋升

学历认证报告助力职场晋升

疲劳党必备护眼秘籍：告别眼球充血

疲劳党必备护眼秘籍：告别眼球充血

文殊兰入药需谨慎，活血散瘀功效显著但有毒性

文殊兰入药需谨慎，活血散瘀功效显著但有毒性

文殊兰：活血解毒功效佳，使用不当易中毒

文殊兰：活血解毒功效佳，使用不当易中毒

忘记工商银行存单密码？柜台、网银、客服热线三渠道可重置

忘记工商银行存单密码？柜台、网银、客服热线三渠道可重置

PICC置管居家护理全攻略：从日常观察到紧急处理

PICC置管居家护理全攻略：从日常观察到紧急处理

阿司匹林常见副作用及应对指南：从消化不适到出血风险

阿司匹林常见副作用及应对指南：从消化不适到出血风险

研究证实：维生素C和K可有效降低阿司匹林出血风险

研究证实：维生素C和K可有效降低阿司匹林出血风险

地球有8千多米高的山、1万多米深的海沟，为何科学家仍说地球很圆

地球有8千多米高的山、1万多米深的海沟，为何科学家仍说地球很圆

为什么宇宙中的天体都是球体？星系都是盘状？

为什么宇宙中的天体都是球体？星系都是盘状？

免疫治疗新突破：从晚期肺癌到白血病，这些患者实现无癌生存

免疫治疗新突破：从晚期肺癌到白血病，这些患者实现无癌生存

人民币汇率下行，投资者如何调整理财策略实现资产保值

人民币汇率下行，投资者如何调整理财策略实现资产保值

美联储加息引发离岸人民币贬值，多重因素加剧汇率波动

美联储加息引发离岸人民币贬值，多重因素加剧汇率波动

创新AI技术，科学家发现迄今距其主星最近的最小行星

创新AI技术，科学家发现迄今距其主星最近的最小行星

徐建纲：浅析贾浅浅的《田野》艺术特色

徐建纲：浅析贾浅浅的《田野》艺术特色

如何在 Windows PC 或 Mac 上录制屏幕画面

如何在 Windows PC 或 Mac 上录制屏幕画面

存量房贷减负多地“商转公”开花一年节约超1万元

存量房贷减负多地“商转公”开花一年节约超1万元

公积金提取后还能商转公吗？如何进行商转公贷款？

公积金提取后还能商转公吗？如何进行商转公贷款？

广州远达教你正确储存对甲苯磺酸一水合物

广州远达教你正确储存对甲苯磺酸一水合物

十三香：既能调味，也能药用

十三香：既能调味，也能药用

十三香麻辣小龙虾的做法及配方

十三香麻辣小龙虾的做法及配方

晨跑干呕怎么办？专家解析原因并提供5个预防方案

晨跑干呕怎么办？专家解析原因并提供5个预防方案

银河证券推荐：华商基金周海栋的投资秘籍

银河证券推荐：华商基金周海栋的投资秘籍

石家庄今冬供暖时间不变，仍为11月15日至次年3月15日

石家庄今冬供暖时间不变，仍为11月15日至次年3月15日

国家网络身份认证APP上线，电子身份证应用场景扩展

国家网络身份认证APP上线，电子身份证应用场景扩展

Vue3类名设置的新姿势，你Get了吗？

Vue3类名设置的新姿势，你Get了吗？

掌握Vue模板类名绑定的七大绝招

掌握Vue模板类名绑定的七大绝招

超一半糖尿病是吃出来的？藏在食物里3大隐形杀手

超一半糖尿病是吃出来的？藏在食物里3大隐形杀手

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号