问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

LLM 推理量化评估:FP8、INT8 与 INT4 的全面对比

创作时间:
作者:
@小白创作中心

LLM 推理量化评估:FP8、INT8 与 INT4 的全面对比

引用
CSDN
1.
https://m.blog.csdn.net/m0_59235699/article/details/144274900

在LLM推理量化评估领域,FP8、INT8和INT4等量化格式各有优劣。最新研究显示,FP8格式在保持高精度的同时,能够显著降低推理成本,为实际应用提供了新的选择。

一、背景

在LLM推理量化领域,许多从业者倾向于使用INT8量化,而忽视了FP8格式的潜力。此外,NVIDIA高端GPU(如A100和H100)在推理场景中的应用也存在一些误解。实际上,针对LLM推理场景,FP8往往比INT8、AWQ-INT4等方案具有更小的损失,且使用H100/H800进行LLM推理可以获得更低的推理成本。

二、论文摘要

尽管LLM量化在推理加速方面非常流行,但各种量化格式的准确性-性能之间的权衡仍然存在很大的不确定性。本文中,作者对量化准确度进行了全面的研究,评估了整个LLaMA-3.1系列模型在学术基准和现实任务中的常见量化格式(FP8、INT8、INT4)。此外,作者还研究考察了量化模型与未量化模型生成的文本之间的差异。除了基准之外,作者还提出了一些量化改进,使得能够获得最先进的准确度结果。

作者的实验涵盖了500,000多次单独评估,并得出了几个关键发现:

  1. FP8权重和激活量化(W8A8-FP)在所有模型上基本都是无损的。
  2. INT8权重和激活量化(W8A8-INT)在适当调整后,准确度下降幅度很低,仅为1%-3%。
  3. INT4权重量化(W4A16-INT4)与W8A8-INT不相上下。

为了解决在给定环境的“最佳”格式问题,作者使用流行的开源vLLM框架在各种GPU上进行推理分析,发现W4A16适合Latency敏感场景(Synchronous Inference)以及中端GPU上的Throughout敏感场景(Asynchronous Inference)。同时,W8A8很适合高端GPU上的Throughout敏感场景。

三、实验环境

3.1 评估基准

主要包含3类评估:

  • 学术基准:主要是Open LLM Leaderboard V1和Open LLM Leaderboard V2,包括MMLU、MMLU-Pro、GSM、GPQA、ARC-Challenge等。
  • 现实世界基准:主要是Arena-Hard-Auto-v0.1、HumanEval、HumanEval+、LMSYS Chatbot Arena等。
  • 文本相似性分析:主要是ROUGE和BERTScore等。其中,ROUGE-1衡量量化与非量化模型输出之间的Token级重叠,而ROUGE-L则通过关注最长公共子序列来捕捉结构相似性。BERTScore评估基于RoBERTa-large模型上下文嵌入计算的Token级上下文相似度。

3.2 评测模型

当前大部分量化方法都会采用LLaMA系列模型来进行量化评估,比如[2404.14047]An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs 2 [2]中专门针对LLaMA 3系列模型进行了评估。最新的一些量化方法[2410.05265]PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs [3]和[2410.12168]COMET: Towards Partical W4A4KV4 LLMs Serving [4]等也都聚集在LLaMA 3系列模型。因此本文中作者也以LLaMA 3 Instruct模型作为主要评估模型。

3.3 量化方法

本文主要评估了3种量化类型:

  • W8A8-FP:所有线性层的权重和激活都是FP8格式。
  • W8A8-INT8:Transformer Block中所有线性层的权重和激活都使用INT8格式。
  • 对于权重:采用对称式Per Channel的GPTQ量化方法。
  • 对于激活:采用Per Token的动态量化技术。
  • W4A16-INT4:Transformer Block中所有线性层权重被量化为INT4,而激活值则保持在16位精度。权重通过GPTQ量化进行压缩,应用于每组128个连续元素,并采用均方误差(MSE)最优的裁剪因子。

其实对于W4A16-INT4量化有很多方案,不过作者这里主要专注于在当前vLLM推理框架中已经支持的高效方案。如下图Table 1所示,作者对比了常见的GPTQ和AWQ方案,总体来说,作者观察到:

  • 在学术基准中,两种方法的结果基本持平。AWQ的优势只有0.23和0.35(100分)。
  • 在现实基准中,GPTQ始终以2.9和0.8的较大差异优于AWQ,因此作者选择GPTQ作为权重量化的主要方法。

3.4 机器成本

如下图Table 9所示为作者选择评估的GPU服务器以及其价格(综合考虑购买成本、运维成本等各方面的因素),其中8xH100价格大概为8xA100价格的两倍,也符合预期。这也就是说,如果在H100上推理性能可以超过A100的两倍,那么使用H100推理就会更有性价比。

如下图是Pricing | Lepton AI [5]上的服务器价格,其H100与上述Lambda Labs的基本一致,但是其8xA100和1xA6000的价格却将近是Lambda Labs的两倍,甚至8xA100比8xH100还贵,有点离谱:

四、精度评估

4.1 学术基准&现实世界基准

如下图Table 2所示为其在Open LLM Leaderboard V1上的评估结果,几种方法都获得了很不错的精度恢复,只有W4A16-INT在8B模型上损失稍大,这也与我们的经验相符(模型越小、量化Bit数越少越容易出现比较大的损失)。

由于很多模型在HellaSwag、MMLU和ARC等基准上已经达到人类基线,此外部分新模型出现了数据污染现象,导致Open LLM Leaderboard V1已经不太好评估各种模型、方案的差异。因此相应作者进一步升级提出了Open LLM Leaderboard V2(Open-LLM performances are plateauing, let’s make the leaderboard steep again [6])。如下图Table 3所示为本文作者在Open LLM Leaderboard V2上的评估结果,可以看出,各种评分也确实有了明显下降,而各种量化方案的差异也进一步突出出来。

  • W4A16-INT在3个模型上的精度差距都进一步扩大,尤其是LLaMA 3 8B上下降了4%左右。
  • 奇怪的是,W8A8-INT在70B和405B上的量化损失也达到了2%左右,反而在8B模型上没有什么损失。
    如上图Table 3右侧同样包含了现实世界基准的评估,现实基准与学术基准类似。

需要关注的是:W8A8-FP在所有的评估中都基本上没有损失,而W8A8-INT和W4A16-INT则在不同的任务上有不同的表现。

4.3 文本相似性评估

如下图Figure 6所示,在文本相似性的几个评估中,FP8也基本都获得了最优的结果,而INT8和INT4各有优劣。

五、性能评估

5.1 Latency敏感场景

作者将这种场景称为Synchronous Deployment,具体来说是指用户对Latency很敏感,期望延迟越低越好。Continuous Batching会增加吞吐,但同时也会导致Latency的增加,因此这种场景通常会使用很小的Batch Size,这里使用的Batch Size为1,也就是同时只有一个用户请求。

如下图Table 5所示,作者对比了不同模型规模、GPU类型以及量化方案及应用场景下同步部署的推理性能。其中黑体为成本最低的方案,可以看出:

  • W4A16-INT相比BF16可以将成本降低2x-3x,Latency降低1.5x-2x。
  • 对于405B模型,W4A16-INT可以大幅降低显存开销,使用更少的GPU即可以实现相应的推理,这也有效地降低了通信带来的延迟,最终甚至可以实现6x-7x的成本降低。

需要说明的的是:当Batch Size很小时,LLM Inference存在明显的Memory Bound,W4A16-INT可以明显降低访存,这也是为什么W4A16-INT往往在比较小的Batch Size能实现比较明显加速的主要原因。

5.2 Throughput敏感场景

作者将这种场景称为Asynchronous Deployment,具体来说是指用户对吞吐很敏感,期望吞吐越高越好。LLM Inference场景要想实现比较高的吞吐,需要尽可能大的Batch Size,因此这里同时会有多个用户请求。

如下图Table 6所示,作者同样进行了全面的测试,可以看出:

  • 在高端GPU(A100、H100)上,W8A8比W4A16-INT更具性价比,当然H100上使用FP8比INT8也是更优的选择。
  • 在同样的量化方案下:H100比A100更具性价比(Query/$更高),更是明显优于A6000。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号