大模型量化性能评价指标:从困惑度到多维度评估体系
创作时间:
作者:
@小白创作中心
大模型量化性能评价指标:从困惑度到多维度评估体系
引用
CSDN
1.
https://blog.csdn.net/sinat_37574187/article/details/139881072
在大模型量化研究领域,如何全面评估量化方法对模型性能的影响是一个重要问题。本文基于最新研究论文,提出了一套结构化的评估框架,涵盖了知识与容量、一致性和效率三个关键维度,并通过广泛的实验验证了其有效性。
在阅读多篇量化相关文章时,一个常见的困惑是:为什么所有量化方法都只使用困惑度(ppl)这一个指标来评价性能损耗?这种单一指标的评价方式是否全面?
最近,一篇来自小米和天津大学的研究论文《A Comprehensive Evaluation of Quantization Strategies for Large Language Models》(论文链接)对此问题进行了深入探讨。研究者们发现,当前的量化研究主要集中在预训练模型上,而对指令微调后的LLMs的影响以及量化LLMs的困惑度与其他基准测试性能之间的关系尚不清楚。
为此,研究团队提出了一个结构化的评估框架,包括三个关键维度:
- 知识与容量(Knowledge & Capacity)
- 一致性(Alignment)
- 效率(Efficiency)
他们选择了Qwen系列模型(7B、14B、72B)作为测试对象,重点关注后训练量化(PTQ),并采用了三种典型的量化方法:LLM.int8()、GPTQ和SpQR。
研究发现:
- 4位量化(4-bit quantization)的LLMs能够保持与非量化模型相当的性能。
- 在参数规模较大的情况下,量化的LLMs性能优于参数规模较小的非量化LLMs。
- 困惑度可以作为量化LLMs在大多数基准测试中的代理指标。
基准测试集
研究中使用的测试集包括:
- MMLU(Massive Multitask Language Understanding):评估模型在多种学科领域的零样本和少样本学习能力。
- C-EVAL:专为中文语境设计的评估套件,涵盖多个领域。
- FLORES-200:用于机器翻译的高质量基准,涵盖204种语言。
- CNN/DailyMail:用于评估抽象多句摘要生成。
- XSum:用于评估单文档摘要生成。
- GSM8K(Grade School Math):包含8500个小学数学问题,评估模型的多步数学推理能力。
- SNLI(Stanford Natural Language Inference):用于训练和评估自然语言推理任务。
- FollowBench:评估LLMs遵循各种细粒度约束的能力。
- TruthfulQA:评估LLMs的真相性。
- BBQ(Bias Benchmark for Question Answering):评估LLMs在问答任务中的社会偏见。
评价标准
除了内存占用(memory)和推理速度(speed)外,其他评价标准包括:
- Average Accuracy:在MMLU、C-EVAL、GSM8K、SNLI和TruthfulQA上的平均准确率。
- Average BLEU:FLORES-200基准测试中中英互译的平均BLEU得分。
- Average ROUGE-1/ROUGE-2/ROUGE-3:XSum和CNN/DailyMail基准测试上的平均ROUGE得分。
- Average HSR/SSR/CSL:FollowBench基准测试上的平均硬满足率、软满足率和一致性满足水平。
- Average Bias Score:BBQ基准测试中的平均偏见得分。
- Average Perplexity:在WikiText2、C4和PTB上的平均困惑度。
研究结论表明:
- 4位量化能够保持接近非量化版本的性能,但量化降低到3位或更低时,性能差异明显。
- 困惑度可以作为量化LLMs在各种评估基准上的可靠性能指标。
总结
本文的重点在于测试集和测试标准的全面性,这是量化研究领域最早关注此类问题的研究之一。虽然研究中使用的模型和方法数量有限,但这是由于量化研究仍处于早期阶段。未来,期待在更多模型和算法上进行更广泛的评测。
热门推荐
拿破仑与历史上的相似人物
厦门南普陀寺参观指南:门票、开放时间及旅游建议
蟳埔村:千年渔村的文化传承
泉州蟳埔村深度游:打卡千年渔村的文化瑰宝
黑龙江旅游必去十大景点推荐,吉林旅游必去十大景点!
喝些红糖水,身体会发生哪些意想不到的变化?
美国游客偷走明代瓷器,文物保护再敲警钟
震惊全国的文物大案:从故宫失窃到清东陵被盗
昆明太和宫金殿:中国最大纯铜建筑的历史与艺术价值
老君山摄影攻略:如何拍出地质奇观的震撼之美
探秘老君山:世界最大花岗岩峰林奇观
新疆话问候神器:亚克西!
新疆土话:独特魅力与文化传承
贾伟平院士:中西医结合,全力推进糖尿病治疗向全程健康管理转变
脸型测量揭示健康秘密:瘦脸型的人更健康?
西藏北路地铁站:静安区出行新选择
市民出行方式亟待升级,一线城市试点开放共享电单车运营
心血管专家揭秘:三七粉能否软化血管、预防心梗和脑梗?
山西奇迹教育:道教服饰在中国服饰文化中的地位与影响
从《活死人之夜》到《明日之后》:丧尸文化的演变之路
《丧尸时代2》生存攻略:从零开始称霸末日
捷豹XEL车主必看:冬季保养秘籍大公开!
北京协和医院专家推荐:这样吃能缓解孩子生长痛
《哥哥姐姐的花样年华》:一个再生家庭的爱与包容
秋冬季节,哥哥姐姐如何引导弟弟妹妹养成健康饮食习惯?
牛奶鸡蛋巧搭配,助力孩子远离生长痛
孩子生长痛?喝牛奶真的有用吗?
重庆市应急管理局揭秘:总台春晚现场应急保障
恩施土家女兒城:女儿会即将开启!
东方情人节:恩施女儿城的文化探秘