关于float浮点值二进制存储和运算精度损失的话题

创作时间:

作者:

@小白创作中心

关于float浮点值二进制存储和运算精度损失的话题

引用

CSDN

https://blog.csdn.net/baidu_38621657/article/details/141027014

浮点值的存储、运算都可能会带来精度损失，了解精度损失背后的机制原因方便我们更好的了解什么情况下会发生精度损失、什么情况下精度损失较大，以及思考怎么避免或减少精度损失。

1. IEEE 754标准

IEEE 754标准（电气和电子工程师协会，简称IEEE）是目前通用的浮点数表示规范，它为单精度（float）、双精度（double）和扩展精度（如long double）浮点数定义了一套标准化的二进制编码方案。

根据该标准，浮点数可以表示为：

如5.5=

2. 二进制排列规则

IEEE754 单精度(32位)的二进制排列规则：符号位S(1位，0为正数，1为负数) + 阶码E(8位) + 尾数M(23位)。
IEEE754 双精度(64位)的二进制排列规则：符号位S(1位，0为正数，1为负数) + 阶码E(11位) + 尾数M(52位)。

3. 阶码偏置

为了将阶码转换为无符号整数，以简化硬件实现，同时避免阶码出现特殊值0和255，设计了阶码偏置的规则。

单精度的偏置常数为127(固定值)，即阶码 = 127 + 阶（左移为正数，右移为负数）。
双精度的偏置常数为1023(固定值)，即阶码 = 1023 + 阶（左移为正数，右移为负数）。

根据上述知识点，float值的二进度排列如下图所示：

4. 示例

为方便理解，我们以float值98.204590为例进行二进制存储的说明。

步骤①：将整数部分整除以2，取余数部分倒序排列

98 / 2 = 49 余 0
49 / 2 = 24 余 1
24 / 2 = 12 余 0
12 / 2 = 6 余 0
6 / 2 = 3 余 0
3 / 2 = 1 余 1
1 / 2 = 0 余 1

整数部分二进制为：1100010。

步骤②：将小数部分乘以2，取商的整数部分正序排列

根据上述排列可知，尾数可以取23位，但由于小数点前面的1.不用显式表示，这样可以取24位，由于上面整数部分占据了7位，这样小数部分取17位：00110100011000000。

这样98.204590表示为：1100010.00110100011000000。

0.204590 * 2 = 0.40918 商的整数部分0
0.40918 * 2 = 0.81836 商的整数部分0
0.81836 * 2 = 1.63672 商的整数部分1
0.63672 * 2 = 1.27344 商的整数部分1
0.27344 * 2 = 0.54688 商的整数部分0
0.54688 * 2 = 1.09376 商的整数部分1
0.09376 * 2 = 0.18752 商的整数部分0
0.18752 * 2 = 0.37504 商的整数部分0
0.37504 * 2 = 0.75008 商的整数部分0
0.75008 * 2 = 1.50016 商的整数部分1
0.50016 * 2 = 1.00032 商的整数部分1
0.00032 * 2 = 0.00064 商的整数部分0
0.00064 * 2 = 0.00128 商的整数部分0
0.00128 * 2 = 0.00256 商的整数部分0
0.00256 * 2 = 0.00512 商的整数部分0
0.00512 * 2 = 0.01024 商的整数部分0
0.01024 * 2 = 0.02048 商的整数部分0
0.02048 * 2 = 0.04096 商的整数部分0
0.04096 * 2 = 0.08192 商的整数部分0