资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

数据预处理方法—数据标准化和数据归一化

创作时间:

作者:

@小白创作中心

数据预处理方法—数据标准化和数据归一化

引用

来源

http://www.dtcms.com/a/12895.html

1. 数据标准化

1.1 概念

标准化是将数据转化为均值为0，标准差为1的分布。通过标准化处理，所有特征在同一个尺度上，使得模型更加稳定和高效，尤其适用于正态（高斯）分布的数据。

1.2 原理

标准化后的数据具有相同尺度，减少特征之间量纲不一致的影响，有助于提高某些机器学习算法的性能。

1.3 核心公式

标准化公式：

$$
X_{\text{standardized}} = \frac{X - \mu}{\sigma}
$$

其中，$\mu$ 是特征的均值，$\sigma$ 是特征的标准差。

假设 $X={X_1, X_2, \ldots, X_n}$，其均值和标准差分别为：

$$
\mu = \frac{1}{n} \sum_{i=1}^{n} X_i
$$

$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2}
$$

1.4 Python案例

创建一个包含两个特征的数据集，对数据进行标准化。

步骤：

创建一个随机数据集
对数据进行标准化
绘制标准化前后的数据分布直方图
绘制标准化前后的数据散点图

在 scikit-learn 中，我们可以使用 sklearn.preprocessing 模块中的 StandardScaler 类实现数据标准化。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

# 1. 创建一个随机数据集
np.random.seed(0)
data = np.random.rand(100, 2) * 1000

# 创建一个DataFrame
df = pd.DataFrame(data, columns=['Feature1', 'Feature2'])

# 2. 对数据进行标准化
scaler = StandardScaler()
data_standardized = scaler.fit_transform(data)

# 创建标准化后的DataFrame
df_standardized = pd.DataFrame(data_standardized, columns=['Feature1', 'Feature2'])

# 3. 绘制标准化前后的数据分布直方图
plt.figure(figsize=(12, 6))

# 标准化前
plt.subplot(1, 2, 1)
plt.hist(df['Feature1'], bins=20, alpha=0.7, label='Feature1', color='blue')
plt.hist(df['Feature2'], bins=20, alpha=0.7, label='Feature2', color='green')
plt.title('Before Standardization')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.legend()

# 标准化后
plt.subplot(1, 2, 2)
plt.hist(df_standardized['Feature1'], bins=20, alpha=0.7, label='Feature1', color='blue')
plt.hist(df_standardized['Feature2'], bins=20, alpha=0.7, label='Feature2', color='green')
plt.title('After Standardization')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.legend()

plt.tight_layout()
plt.show()

# 4. 绘制标准化前后的数据散点图
plt.figure(figsize=(12, 6))

# 标准化前
plt.subplot(1, 2, 1)
plt.scatter(df['Feature1'], df['Feature2'], color='blue', alpha=0.7)
plt.title('Before Standardization')
plt.xlabel('Feature1')
plt.ylabel('Feature2')

# 标准化后
plt.subplot(1, 2, 2)
plt.scatter(df_standardized['Feature1'], df_standardized['Feature2'], color='red', alpha=0.7)
plt.title('After Standardization')
plt.xlabel('Feature1')
plt.ylabel('Feature2')

plt.tight_layout()
plt.show()

输出结果：

2. 数据归一化

2.1 概念

归一化是将数据缩放到特定范围（通常是[0,1]），特别适用于距离度量敏感的算法。

2.2 原理

归一化后的数据每个特征的取值范围相同，有助于提高某些机器学习算法的性能。

2.3 核心公式

归一化公式：

$$
X_{\text{normalized}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
$$

其中，$X_{\text{max}}$ 和 $X_{\text{min}}$ 分别是特征的最大值和最小值。

假设 $X={X_1, X_2, \ldots, X_n}$，其最小值和最大值分别为：

$$
X_{\text{min}} = \min(X)
$$

$$
X_{\text{max}} = \max(X)
$$

注意：我们也可以通过公式将数据压缩到其他指定的范围 $[a, b]$：

$$
X_{\text{normalized}} = a + \frac{(b - a) \times (X - X_{\text{min}})}{X_{\text{max}} - X_{\text{min}}}
$$

其中，$a$ 和 $b$ 是目标范围的上下界。

2.4 Python案例

当涉及到数据预处理中的归一化，一个经典的案例就是处理不同尺度或者有明显数值差异的的特征。我们可以用鸢尾花数据集来演示。这个数据集包含了三种不同品种的鸢尾花，每种花有四个特征：花萼长度，花萼宽度，花瓣长度和花瓣宽度。

这里使用Python和一些常见的数据科学库来演示归一化过程，并且展示归一化前后的数据分布情况

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.preprocessing import MinMaxScaler

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data  # 特征数据

# 创建MinMaxScaler对象
scaler = MinMaxScaler()

# 对数据集进行归一化
X_normalized = scaler.fit_transform(X)

# 可视化归一化前后的数据分布
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))

# 归一化前的数据分布
ax1.scatter(X[:, 0], X[:, 1], c=iris.target)
ax1.set_title('Before Normalization')
ax1.set_xlabel('Sepal Length (cm)')
ax1.set_ylabel('Sepal Width (cm)')

# 归一化后的数据分布
ax2.scatter(X_normalized[:, 0], X_normalized[:, 1], c=iris.target)
ax2.set_title('After Normalization')
ax2.set_xlabel('Sepal Length (normalized)')
ax2.set_ylabel('Sepal Width (normalized)')

plt.tight_layout()
plt.show()

输出结果：