资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

数据归一化方法详解：(0,1)标准化、Z-score标准化和Sigmoid函数

创作时间:

作者:

@小白创作中心

数据归一化方法详解：(0,1)标准化、Z-score标准化和Sigmoid函数

引用

CSDN

https://blog.csdn.net/Han_kin/article/details/77718435

数据归一化是数据挖掘和机器学习中非常重要的预处理步骤，特别是在特征向量表达时。当不同特征的数值范围差异较大时，容易导致数值较小的特征在模型训练中被忽视。因此，对特征向量进行归一化处理，可以确保每个特征都能被分类器平等对待。本文将介绍三种常见的归一化方法，并提供相应的Python实现代码。

1. (0,1)标准化

这是最简单也是最容易想到的方法，通过遍历feature vector里的每一个数据，将最大值（Max）和最小值（Min）记录下来，并通过Max-Min作为基数（即Min=0，Max=1）进行数据的归一化处理：

$$
{x}_{normalization}=\frac{x-Min}{Max-Min}
$$

Python实现：

def MaxMinNormalization(x, Max, Min):
    x = (x - Min) / (Max - Min)
    return x

在实现时，建议使用numpy库中的np.max()和np.min()函数来寻找最大值和最小值，而不是使用Python内置的max()和min()函数，除非你更倾向于使用列表来管理数字。

2. Z-score标准化

这种方法通过原始数据的均值（mean）和标准差（standard deviation）来进行数据的标准化。经过处理的数据将符合标准正态分布，即均值为0，标准差为1。这种方法在一定程度上改变了特征的分布，因此在使用时需要谨慎。

转化函数为：

$$
{x}_{normalization}=\frac{x-\mu }{\sigma }
$$

Python实现：

def Z_ScoreNormalization(x, mu, sigma):
    x = (x - mu) / sigma
    return x

在实现时，可以使用numpy库中的np.average()函数来计算均值（mu），使用np.std()函数来计算标准差（sigma）。

3. Sigmoid函数

Sigmoid函数是一个具有S形曲线的函数，是良好的阈值函数，在(0, 0.5)处中心对称，在(0, 0.5)附近有比较大的斜率，而当数据趋向于正无穷和负无穷的时候，映射出来的值就会无限趋向于1和0。虽然Sigmoid函数主要用于阈值分割，但在这里我们将其作为一种归一化方法来使用，只考虑(0, 0.5)作为分割阈值的情况。

公式为：

$$
{x}_{normalization}=\frac{1}{1+{e}^{-x}}
$$

Python实现：

def sigmoid(X, useStatus):
    if useStatus:
        return 1.0 / (1 + np.exp(-float(X)))
    else:
        return float(X)

在这个实现中，useStatus参数用于控制是否使用Sigmoid函数进行归一化，这在调试时非常有用。

热门推荐

如何判断一次性纸杯的印刷质量？

牙髓炎治疗方法探究：牙髓炎除了根管治疗还有别的方法吗？

近40万人研究：长期吃复合维生素，是智商税吗？

肠癌肝转移术后如何处理

油车换成新能源车，还能保留原来的车牌号吗？

优化长提示词Prompt：提升ChatGPT输出内容的准确性与实用性

成都的动画产业链buff：十分钟路程就能组合一支制作团队

热闹的《演员请就位3》，实则在揭示影视圈的门道

抽完血测血压有影响吗

季加孚委员：提高全民健康素养筑牢癌症防控网络

这种“神奇种子”富含维生素B，还能预防肠道疾病，但有一点要注意

边境牧羊犬的“变凶警报”：揭秘狗狗何时可能咬人！

WLTC与CLTC续航里程的区别

个人云端知识库：Trilium Notes中文版Docker部署与管理技巧

世界经济论坛：2025年全球风险报告

明朝十六帝综合排名：功绩与瑕疵交织的历史群像

常茂，他是名将常遇春的儿子，结局令人意外

如何清除 DNS 缓存：适用于 Windows、Mac 和 Chrome 等

为何有些情侣不愿一起洗澡？探索个人空间与洗澡习惯的关系

十大公认的不氪金手游排行榜 2025必玩的不氪金手游大全

StoryDiffusion：基于一致自注意力的长范围图像和视频生成技术

赤铁矿的主要成分是什么

中国航空科幻启航！中国航天工业集团推出硬核科幻IP“南天门计划”

如何处理验车尾气CO超标的问题？

一梯一户住宅的优缺点分析：从梦想居所到现实困扰

农村养兔指南：从经济效益到销售渠道全方位解析

解锁音响新玩法：双线分音和双功放连接

广州琶洲西区24条新道路命名公布，彰显数字经济特色

《爱在黎明破晓前》：一场关于对话、时间与命运的浪漫邂逅