资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型涉及到的精度有多少种？Fp32、Tf32、Fp16、Bf16 ...

创作时间:

作者:

@小白创作中心

大模型涉及到的精度有多少种？Fp32、Tf32、Fp16、Bf16 ...

引用

来源

https://www.53ai.com/news/LargeLanguageModel/2025020692031.html

大模型的训练和推理过程中，精度是一个核心概念。从FP32到INT8，各种精度类型的选择直接影响计算成本和模型准确性。本文将全面解析浮点数精度和量化精度的分类与定义，探讨不同精度对计算成本和准确性的影响，并介绍它们在实际应用中的选择和使用场景。

整体介绍

浮点数精度主要包括：

双精度（FP64）
单精度（FP32、TF32）
半精度（FP16、BF16）
8位精度（FP8）
4位精度（FP4、NF4）

量化精度主要包括：

INT8
INT4
也有INT3/INT5/INT6等

实际使用中，还有多精度和混合精度的概念。

什么是精度

精度的概念可以通过两个例子来理解：

假设你每秒钟赚到的钱是1块钱，那一个月的收入是160602430=216000，如果每秒钟赚到1块1呢，那一个月的收入是237600，就一个1毛钱的小数点，让你月收入少了1万多，这就是精度不同导致的差异。
另一个典型的例子是π，常用3.14表示，但是如果要更高精度，小数点后面可以有无数位。

在计算机中，浮点数的精度与存储方式有关，占用的bit越多，精度越高。

为什么要有这么多精度

精度的选择主要考虑成本和准确度的平衡：

精度高肯定更准确，但也会带来更高的计算和存储成本。
较低的精度会降低计算精度，但可以提高计算效率和性能。
双精度比单精度表达的更精确，但是存储占用多一倍，计算耗时也更高，如果单精度足够，就没必要双精度。

不同的浮点数精度

在计算机中，浮点数存储方式由符号位（sign）、指数位（exponent）和小数位（fraction）三部分组成。符号位都是1位，指数位影响浮点数范围，小数位影响精度。

FP精度

Floating Point是最原始的，IEEE定义的标准浮点数类型。由符号位（sign）、指数位（exponent）和小数位（fraction）三部分组成。

FP64、FP32、FP16、FP8、FP4都是类似组成，只是指数位和小数位不一样。但是FP8和FP4不是IEEE的标准格式。

FP8是2022年9月由多家芯片厂商定义的，论文地址：https://arxiv.org/abs/2209.05433

FP4是2023年10月由某学术机构定义，论文地址：https://arxiv.org/abs/2310.16836

FP8格式有两种变体，E4M3(4位指数和3位尾数)和E5M2(5位指数和2位尾数)。

符号位、指数位、小数位的位数如下表所示：

格式	符号位	指数位	小数位	总位数
FP64	1	11	52	64
FP32	1	8	23	32
FP16	1	5	10	16
FP8 E4M3	1	4	3	8
FP8 E5M2	1	5	2	8
FP4	1	2	1	4

特殊精度

TF32

Tensor Float 32，英伟达针对机器学习设计的一种特殊的数值类型，用于替代FP32。首次在A100 GPU中支持。

由1个符号位，8位指数位（对齐FP32）和10位小数位（对齐FP16）组成，实际只有19位。在性能、范围和精度上实现了平衡。

Python中查看是否支持：

import torch
//是否支持tf32
torch.backends.cuda.matmul.allow_tf32
//是否允许tf32，在PyTorch1.12及更高版本中默认为False
torch.backends.cudnn.allow_tf32

BF16

Brain Float 16，由Google Brain提出，也是为了机器学习而设计。由1个符号位，8位指数位（和FP32一致）和7位小数位（低于FP16）组成。所以精度低于FP16，但是表示范围和FP32一致，和FP32之间很容易转换。

在 NVIDIA GPU 上，只有 Ampere 架构以及之后的GPU 才支持。

Python中查看是否支持：

import transformers
transformers.utils.import_utils.is_torch_bf16_gpu_available()

NF4

4-bit NormalFloat，一种用于量化的特殊格式，于23年5月由华盛顿大学在QLoRA量化论文中提出，论文地址：https://arxiv.org/abs/2305.14314

NF4是建立在分位数量化技术的基础之上的一种信息理论上最优的数据类型。把4位的数字归一化到均值为 0，标准差为 [-1,1] 的正态分布的固定期望值上，知道量化原理的应该就会理解。

FP精度和特殊精度加上，位数总结如下表：

格式	符号位	指数位	小数位	总位数
FP64	1	11	52	64
FP32	1	8	23	32
TF32	1	8	10	19
BF16	1	8	7	16
FP16	1	5	10	16
FP8 E4M3	1	4	3	8
FP8 E5M2	1	5	2	8
FP4	1	2	1	4

多精度和混合精度

多精度计算，是指用不同精度进行计算，在需要使用高精度计算的部分使用双精度，其他部分使用半精度或单精度计算。

混合精度计算，是在单个操作中使用不同的精度级别，从而在不牺牲精度的情况下实现计算效率，减少运行所需的内存、时间和功耗。

量化精度

一般情况下，精度越低，模型尺寸和推理内存占用越少，为了尽可能的减少资源占用，量化算法被发明。FP32占用4个字节，量化为8位，只需要1个字节。

常用的是INT8和INT4，也有其他量化格式（6位、5位甚至3位）。虽然资源占用减少，但是推理结果差不了多少。

量化算法这里不详细展开。

热门推荐

不出汗、无对抗的“三无七不”体育课该如何根治？

一次搞懂防失智饮食首选「麦得饮食」是什麼？功效有哪些？该怎麼吃？

四川省肿瘤医院教你看体检报告，权威解读癌变指标

植物叶片有哪些形态？如何识别不同的叶片形态？

膳食纤维补充的肠胃健康益处：促进排便、调节菌群和降低血脂

包装安全与食品安全

商铺租赁合同中滞纳金如何认定

版权保护与商标注册的区别

2025年小程序UI设计趋势：从极简主义到情感化交互升级路径

人工智能在工业4.0背景下驱动制造业数字化转型

职工工作时间计算方法及法律知识详解

上海交大团队研制“导盲六足机器人”：1秒之内可响应，已在实测

生肖起名法：根据属相挑选最佳宝宝名字

布鲁诺·拉图尔：解释科学真实形象最好的方法是深入到科学实践中去

口腔健康警报！口腔溃疡频发：现代生活下的“隐痛”揭秘

电子商务交易纠纷处理指南

全面解析桂林两江夜游船票：购票指南、游船时间及游玩攻略

数字员工引发的组织架构变革路径

胶体金免疫层析技术：从原理到应用的全面解析

银行理财产品销售流程的规范与优化

二手房的买卖流程是怎样的？全面解读下二手房的购房步骤。