问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数据预处理之聚类分析

创作时间:
作者:
@小白创作中心

数据预处理之聚类分析

引用
CSDN
1.
https://blog.csdn.net/rrrrroin/article/details/139880837

聚类分析是一种研究对样品或指标分类问题的多元统计方法。它通过计算样品或参数的相似程度,将相似的样品或指标归为一类。本文将系统地介绍聚类分析的全过程,包括数据预处理、变量选择、类数确定以及聚类方法的选择。

一、对初始数据变换处理

在进行聚类分析之前,通常需要对数据进行预处理。根据数据特性以及接下来可能进行的操作,有三种变换可以帮助处理数据:

1.中心化变换

中心化变换是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。设原始观测数据矩阵为X,进行中心化变换:

特点:

  • 每列数据之和均为0,即每个变量的均值为0。
  • 每列数据的平方和是该列变量样本方差的(n—1)倍。
  • 任何不同两列数据之积是这两列变量样本协方差的(n—1)倍。

2.标准化变换

在中心化变换基础上,用变量的标准差进行标准化。设变量的标准差为σ,标准化变换公式为:

特点:

  • 数据矩阵中每列数据的平均值为0,方差为1。
  • 数据不再具有量纲,便于不同变量之间的比较。
  • 数据矩阵中任何两列数据之积是两个变量相关系数的(n-1)倍。

3.对数变换

对数变换可以将指数结构化成线性结构,适用于处理数据分布不均匀的情况。

二、选取聚类变量

选取聚类变量的原则包括:

  1. 与聚类分析的目的密切相关
  2. 能反映所分类变量的特征
  3. 对不同研究对象其值有明显的差异
  4. 变量之间不能高度相关

主要分为两个指标:

  • 相关系数:多用于考察变量之间亲疏程度
  • 距离:多用于测度样品之间的亲疏程度

1.相关系数

相关系数计算公式为:

2.距离

有四种类型选择:

  1. 明考夫斯基距离
  2. 兰氏距离
  3. 马氏距离
  4. 斜交空间距离

三、确定形成类数

确定类数的方法包括:

  1. 根据题目要求或生活常识进行大致确定
  2. 用算法聚类,根据距离、密度分出大致的类别
  3. 通过计算聚合系数曲线,找到合适的k值(肘部法则)

四、选择聚类方法

1.系统聚类法

基本思想:

  1. 列出距离矩阵D(0)。
  2. 选择最小的非零数,将对应的两个样本合并为一类。
  3. 给出计算新类与其它类的距离公式,并计算新类与其它类之间的距离Dkr。
  4. 重复上述步骤,直至所有样本点归为一类。

按照不同的方法定义距离,得到不同的聚类方法:

  • 最短距离法
  • 最长距离法
  • 组间平均距离法
  • 重心法
  • 类平均法

2.K-means聚类算法

K-means算法是一种动态迭代的算法。缺点是初始聚类中心是随机选取的,聚类结果会受孤立、离群点影响。

3.K-means++算法

K-means++算法对K-means算法的改进,其思想是让初始的聚类中心之间距离尽可能的远,从而减少初值与孤立点的影响。

4.DBSCAN算法

DBSCAN算法是一种基于密度的聚类方法,聚类前不需要预先指定聚类的个数,生成的簇的个数不定。该方法能在具有噪声的空间数据库中发现任意形状的簇,能有效处理异常数据。

5.ISODATA算法

ISODATA算法通过设置初始参数而引入人机对话环节,并使用归并和分裂等机制。当两类聚中心小于某个阀值时,将它们合并为一类。当某类的标准差大于某一阀值时或其样本数目超过某一阀值时,将其分裂为两类,在某类样本数目小于某一阀值时,将其取消。这样根据初始类聚中心和设定的类别数目等参数迭代,最终得到一个比较理想的分类结果。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号