数据预处理之聚类分析
创作时间:
作者:
@小白创作中心
数据预处理之聚类分析
引用
CSDN
1.
https://blog.csdn.net/rrrrroin/article/details/139880837
聚类分析是一种研究对样品或指标分类问题的多元统计方法。它通过计算样品或参数的相似程度,将相似的样品或指标归为一类。本文将系统地介绍聚类分析的全过程,包括数据预处理、变量选择、类数确定以及聚类方法的选择。
一、对初始数据变换处理
在进行聚类分析之前,通常需要对数据进行预处理。根据数据特性以及接下来可能进行的操作,有三种变换可以帮助处理数据:
1.中心化变换
中心化变换是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。设原始观测数据矩阵为X,进行中心化变换:
特点:
- 每列数据之和均为0,即每个变量的均值为0。
- 每列数据的平方和是该列变量样本方差的(n—1)倍。
- 任何不同两列数据之积是这两列变量样本协方差的(n—1)倍。
2.标准化变换
在中心化变换基础上,用变量的标准差进行标准化。设变量的标准差为σ,标准化变换公式为:
特点:
- 数据矩阵中每列数据的平均值为0,方差为1。
- 数据不再具有量纲,便于不同变量之间的比较。
- 数据矩阵中任何两列数据之积是两个变量相关系数的(n-1)倍。
3.对数变换
对数变换可以将指数结构化成线性结构,适用于处理数据分布不均匀的情况。
二、选取聚类变量
选取聚类变量的原则包括:
- 与聚类分析的目的密切相关
- 能反映所分类变量的特征
- 对不同研究对象其值有明显的差异
- 变量之间不能高度相关
主要分为两个指标:
- 相关系数:多用于考察变量之间亲疏程度
- 距离:多用于测度样品之间的亲疏程度
1.相关系数
相关系数计算公式为:
2.距离
有四种类型选择:
- 明考夫斯基距离
- 兰氏距离
- 马氏距离
- 斜交空间距离
三、确定形成类数
确定类数的方法包括:
- 根据题目要求或生活常识进行大致确定
- 用算法聚类,根据距离、密度分出大致的类别
- 通过计算聚合系数曲线,找到合适的k值(肘部法则)
四、选择聚类方法
1.系统聚类法
基本思想:
- 列出距离矩阵D(0)。
- 选择最小的非零数,将对应的两个样本合并为一类。
- 给出计算新类与其它类的距离公式,并计算新类与其它类之间的距离Dkr。
- 重复上述步骤,直至所有样本点归为一类。
按照不同的方法定义距离,得到不同的聚类方法:
- 最短距离法
- 最长距离法
- 组间平均距离法
- 重心法
- 类平均法
2.K-means聚类算法
K-means算法是一种动态迭代的算法。缺点是初始聚类中心是随机选取的,聚类结果会受孤立、离群点影响。
3.K-means++算法
K-means++算法对K-means算法的改进,其思想是让初始的聚类中心之间距离尽可能的远,从而减少初值与孤立点的影响。
4.DBSCAN算法
DBSCAN算法是一种基于密度的聚类方法,聚类前不需要预先指定聚类的个数,生成的簇的个数不定。该方法能在具有噪声的空间数据库中发现任意形状的簇,能有效处理异常数据。
5.ISODATA算法
ISODATA算法通过设置初始参数而引入人机对话环节,并使用归并和分裂等机制。当两类聚中心小于某个阀值时,将它们合并为一类。当某类的标准差大于某一阀值时或其样本数目超过某一阀值时,将其分裂为两类,在某类样本数目小于某一阀值时,将其取消。这样根据初始类聚中心和设定的类别数目等参数迭代,最终得到一个比较理想的分类结果。
热门推荐
吉林寻秋记丨跟着“美食”游吉林
哪些茶适合蒸茶器煮、泡、用及蒸汽蒸:蒸茶器的适用茶叶指南
羽绒服到底能不能干洗?最全冬装清洗攻略→
类似“手足口”,疱疹性咽峡炎孩子间传染性高
安徽宏村漫游指南|水墨画卷里的慢时光,解锁古村高阶玩法
一份详细的大数据就业前景报告,助你职业规划
熬夜对身体有何危害?
破产债权清偿顺序的基本原则
《春思》赏析及情感共鸣
2024年专精特新“小巨人”公示名单分析及未通过原因
5岁儿童牙疼怎么办?用药指南与护牙建议,家长必读!
交通安全|学习交通安全常识,守护你的每一次出行
手表佩戴后皮肤起疙瘩怎么办?原因分析与解决方法
剑灵 灵石 剑灵中的灵石系统深度解析
宝宝发热怎么办?儿科医生来支招
酒渣鼻有外用药吗
一文说清冠心病二级预防的“ABCDE”
汉末时期公孙瓒手下都有哪些猛将?分别都是谁?
《瞬息全宇宙》:全球化时代电影文化隔阂如何跨越?
疫情期间儿童口腔卫生防护指南
科普|珍珠的药用
Excel按搜索内容排列的多种方法
肚子痛,别硬扛!当心是疾病的“危险信号”,越早知道越好
婴儿推车选购指南:四大维度解析优质品牌
中国盐碱地改良与利用:进展与展望
能出鉴定证书的南红玛瑙就一定是真货吗?
项目时间管理定义:如何在项目中高效利用时间?
爱牙,你做对了吗?
名气更大,洛阳有机会取代郑州市吗?
电脑宏操作大揭秘,提高效率必备的软件宏设置技巧一览