大模型涉及到的精度有多少种?Fp32、Tf32、Fp16、Bf16 ...
大模型涉及到的精度有多少种?Fp32、Tf32、Fp16、Bf16 ...
大模型的训练和推理过程中,精度是一个核心概念。从FP32到INT8,各种精度类型的选择直接影响计算成本和模型准确性。本文将全面解析浮点数精度和量化精度的分类与定义,探讨不同精度对计算成本和准确性的影响,并介绍它们在实际应用中的选择和使用场景。
整体介绍
浮点数精度主要包括:
- 双精度(FP64)
- 单精度(FP32、TF32)
- 半精度(FP16、BF16)
- 8位精度(FP8)
- 4位精度(FP4、NF4)
量化精度主要包括:
- INT8
- INT4
- 也有INT3/INT5/INT6等
实际使用中,还有多精度和混合精度的概念。
什么是精度
精度的概念可以通过两个例子来理解:
假设你每秒钟赚到的钱是1块钱,那一个月的收入是160602430=216000,如果每秒钟赚到1块1呢,那一个月的收入是237600,就一个1毛钱的小数点,让你月收入少了1万多,这就是精度不同导致的差异。
另一个典型的例子是π,常用3.14表示,但是如果要更高精度,小数点后面可以有无数位。
在计算机中,浮点数的精度与存储方式有关,占用的bit越多,精度越高。
为什么要有这么多精度
精度的选择主要考虑成本和准确度的平衡:
- 精度高肯定更准确,但也会带来更高的计算和存储成本。
- 较低的精度会降低计算精度,但可以提高计算效率和性能。
- 双精度比单精度表达的更精确,但是存储占用多一倍,计算耗时也更高,如果单精度足够,就没必要双精度。
不同的浮点数精度
在计算机中,浮点数存储方式由符号位(sign)、指数位(exponent)和小数位(fraction)三部分组成。符号位都是1位,指数位影响浮点数范围,小数位影响精度。
FP精度
Floating Point是最原始的,IEEE定义的标准浮点数类型。由符号位(sign)、指数位(exponent)和小数位(fraction)三部分组成。
FP64、FP32、FP16、FP8、FP4都是类似组成,只是指数位和小数位不一样。但是FP8和FP4不是IEEE的标准格式。
FP8是2022年9月由多家芯片厂商定义的,论文地址:https://arxiv.org/abs/2209.05433
FP4是2023年10月由某学术机构定义,论文地址:https://arxiv.org/abs/2310.16836
FP8格式有两种变体,E4M3(4位指数和3位尾数)和E5M2(5位指数和2位尾数)。
符号位、指数位、小数位的位数如下表所示:
格式 | 符号位 | 指数位 | 小数位 | 总位数 |
---|---|---|---|---|
FP64 | 1 | 11 | 52 | 64 |
FP32 | 1 | 8 | 23 | 32 |
FP16 | 1 | 5 | 10 | 16 |
FP8 E4M3 | 1 | 4 | 3 | 8 |
FP8 E5M2 | 1 | 5 | 2 | 8 |
FP4 | 1 | 2 | 1 | 4 |
特殊精度
TF32
Tensor Float 32,英伟达针对机器学习设计的一种特殊的数值类型,用于替代FP32。首次在A100 GPU中支持。
由1个符号位,8位指数位(对齐FP32)和10位小数位(对齐FP16)组成,实际只有19位。在性能、范围和精度上实现了平衡。
Python中查看是否支持:
import torch
//是否支持tf32
torch.backends.cuda.matmul.allow_tf32
//是否允许tf32,在PyTorch1.12及更高版本中默认为False
torch.backends.cudnn.allow_tf32
BF16
Brain Float 16,由Google Brain提出,也是为了机器学习而设计。由1个符号位,8位指数位(和FP32一致)和7位小数位(低于FP16)组成。所以精度低于FP16,但是表示范围和FP32一致,和FP32之间很容易转换。
在 NVIDIA GPU 上,只有 Ampere 架构以及之后的GPU 才支持。
Python中查看是否支持:
import transformers
transformers.utils.import_utils.is_torch_bf16_gpu_available()
NF4
4-bit NormalFloat,一种用于量化的特殊格式,于23年5月由华盛顿大学在QLoRA量化论文中提出,论文地址:https://arxiv.org/abs/2305.14314
NF4是建立在分位数量化技术的基础之上的一种信息理论上最优的数据类型。把4位的数字归一化到均值为 0,标准差为 [-1,1] 的正态分布的固定期望值上,知道量化原理的应该就会理解。
FP精度和特殊精度加上,位数总结如下表:
格式 | 符号位 | 指数位 | 小数位 | 总位数 |
---|---|---|---|---|
FP64 | 1 | 11 | 52 | 64 |
FP32 | 1 | 8 | 23 | 32 |
TF32 | 1 | 8 | 10 | 19 |
BF16 | 1 | 8 | 7 | 16 |
FP16 | 1 | 5 | 10 | 16 |
FP8 E4M3 | 1 | 4 | 3 | 8 |
FP8 E5M2 | 1 | 5 | 2 | 8 |
FP4 | 1 | 2 | 1 | 4 |
多精度和混合精度
多精度计算,是指用不同精度进行计算,在需要使用高精度计算的部分使用双精度,其他部分使用半精度或单精度计算。
混合精度计算,是在单个操作中使用不同的精度级别,从而在不牺牲精度的情况下实现计算效率,减少运行所需的内存、时间和功耗。
量化精度
一般情况下,精度越低,模型尺寸和推理内存占用越少,为了尽可能的减少资源占用,量化算法被发明。FP32占用4个字节,量化为8位,只需要1个字节。
常用的是INT8和INT4,也有其他量化格式(6位、5位甚至3位)。虽然资源占用减少,但是推理结果差不了多少。
量化算法这里不详细展开。