资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

数据预处理之聚类分析

创作时间:

作者:

@小白创作中心

数据预处理之聚类分析

引用

CSDN

https://blog.csdn.net/rrrrroin/article/details/139880837

聚类分析是一种研究对样品或指标分类问题的多元统计方法。它通过计算样品或参数的相似程度，将相似的样品或指标归为一类。本文将系统地介绍聚类分析的全过程，包括数据预处理、变量选择、类数确定以及聚类方法的选择。

一、对初始数据变换处理

在进行聚类分析之前，通常需要对数据进行预处理。根据数据特性以及接下来可能进行的操作，有三种变换可以帮助处理数据：

1.中心化变换

中心化变换是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化后的数据。设原始观测数据矩阵为X，进行中心化变换：

特点：

每列数据之和均为0，即每个变量的均值为0。
每列数据的平方和是该列变量样本方差的(n—1)倍。
任何不同两列数据之积是这两列变量样本协方差的(n—1)倍。

2.标准化变换

在中心化变换基础上，用变量的标准差进行标准化。设变量的标准差为σ，标准化变换公式为：

特点：

数据矩阵中每列数据的平均值为0，方差为1。
数据不再具有量纲，便于不同变量之间的比较。
数据矩阵中任何两列数据之积是两个变量相关系数的（n－1）倍。

3.对数变换

对数变换可以将指数结构化成线性结构，适用于处理数据分布不均匀的情况。

二、选取聚类变量

选取聚类变量的原则包括：

与聚类分析的目的密切相关
能反映所分类变量的特征
对不同研究对象其值有明显的差异
变量之间不能高度相关

主要分为两个指标：

相关系数：多用于考察变量之间亲疏程度
距离：多用于测度样品之间的亲疏程度

1.相关系数

2.距离

有四种类型选择：

明考夫斯基距离
兰氏距离
马氏距离
斜交空间距离

三、确定形成类数

确定类数的方法包括：

根据题目要求或生活常识进行大致确定
用算法聚类，根据距离、密度分出大致的类别
通过计算聚合系数曲线，找到合适的k值（肘部法则）

四、选择聚类方法

1.系统聚类法

基本思想：

列出距离矩阵D（0）。
选择最小的非零数，将对应的两个样本合并为一类。
给出计算新类与其它类的距离公式，并计算新类与其它类之间的距离Dkr。
重复上述步骤，直至所有样本点归为一类。

按照不同的方法定义距离，得到不同的聚类方法：

最短距离法
最长距离法
组间平均距离法
重心法
类平均法

2.K-means聚类算法

K-means算法是一种动态迭代的算法。缺点是初始聚类中心是随机选取的，聚类结果会受孤立、离群点影响。

3.K-means++算法

K-means++算法对K-means算法的改进，其思想是让初始的聚类中心之间距离尽可能的远，从而减少初值与孤立点的影响。

4.DBSCAN算法

DBSCAN算法是一种基于密度的聚类方法，聚类前不需要预先指定聚类的个数，生成的簇的个数不定。该方法能在具有噪声的空间数据库中发现任意形状的簇，能有效处理异常数据。

5.ISODATA算法

ISODATA算法通过设置初始参数而引入人机对话环节，并使用归并和分裂等机制。当两类聚中心小于某个阀值时，将它们合并为一类。当某类的标准差大于某一阀值时或其样本数目超过某一阀值时，将其分裂为两类，在某类样本数目小于某一阀值时，将其取消。这样根据初始类聚中心和设定的类别数目等参数迭代，最终得到一个比较理想的分类结果。

热门推荐

古诗词里的哲学：千年前的智慧如何启迪现代人生？