数据预处理之聚类分析
创作时间:
作者:
@小白创作中心
数据预处理之聚类分析
引用
CSDN
1.
https://blog.csdn.net/rrrrroin/article/details/139880837
聚类分析是一种研究对样品或指标分类问题的多元统计方法。它通过计算样品或参数的相似程度,将相似的样品或指标归为一类。本文将系统地介绍聚类分析的全过程,包括数据预处理、变量选择、类数确定以及聚类方法的选择。
一、对初始数据变换处理
在进行聚类分析之前,通常需要对数据进行预处理。根据数据特性以及接下来可能进行的操作,有三种变换可以帮助处理数据:
1.中心化变换
中心化变换是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。设原始观测数据矩阵为X,进行中心化变换:
特点:
- 每列数据之和均为0,即每个变量的均值为0。
- 每列数据的平方和是该列变量样本方差的(n—1)倍。
- 任何不同两列数据之积是这两列变量样本协方差的(n—1)倍。
2.标准化变换
在中心化变换基础上,用变量的标准差进行标准化。设变量的标准差为σ,标准化变换公式为:
特点:
- 数据矩阵中每列数据的平均值为0,方差为1。
- 数据不再具有量纲,便于不同变量之间的比较。
- 数据矩阵中任何两列数据之积是两个变量相关系数的(n-1)倍。
3.对数变换
对数变换可以将指数结构化成线性结构,适用于处理数据分布不均匀的情况。
二、选取聚类变量
选取聚类变量的原则包括:
- 与聚类分析的目的密切相关
- 能反映所分类变量的特征
- 对不同研究对象其值有明显的差异
- 变量之间不能高度相关
主要分为两个指标:
- 相关系数:多用于考察变量之间亲疏程度
- 距离:多用于测度样品之间的亲疏程度
1.相关系数
相关系数计算公式为:
2.距离
有四种类型选择:
- 明考夫斯基距离
- 兰氏距离
- 马氏距离
- 斜交空间距离
三、确定形成类数
确定类数的方法包括:
- 根据题目要求或生活常识进行大致确定
- 用算法聚类,根据距离、密度分出大致的类别
- 通过计算聚合系数曲线,找到合适的k值(肘部法则)
四、选择聚类方法
1.系统聚类法
基本思想:
- 列出距离矩阵D(0)。
- 选择最小的非零数,将对应的两个样本合并为一类。
- 给出计算新类与其它类的距离公式,并计算新类与其它类之间的距离Dkr。
- 重复上述步骤,直至所有样本点归为一类。
按照不同的方法定义距离,得到不同的聚类方法:
- 最短距离法
- 最长距离法
- 组间平均距离法
- 重心法
- 类平均法
2.K-means聚类算法
K-means算法是一种动态迭代的算法。缺点是初始聚类中心是随机选取的,聚类结果会受孤立、离群点影响。
3.K-means++算法
K-means++算法对K-means算法的改进,其思想是让初始的聚类中心之间距离尽可能的远,从而减少初值与孤立点的影响。
4.DBSCAN算法
DBSCAN算法是一种基于密度的聚类方法,聚类前不需要预先指定聚类的个数,生成的簇的个数不定。该方法能在具有噪声的空间数据库中发现任意形状的簇,能有效处理异常数据。
5.ISODATA算法
ISODATA算法通过设置初始参数而引入人机对话环节,并使用归并和分裂等机制。当两类聚中心小于某个阀值时,将它们合并为一类。当某类的标准差大于某一阀值时或其样本数目超过某一阀值时,将其分裂为两类,在某类样本数目小于某一阀值时,将其取消。这样根据初始类聚中心和设定的类别数目等参数迭代,最终得到一个比较理想的分类结果。
热门推荐
从天朝上国到半殖民地:鸦片战争后的中国
名爵MG3发动机故障灯异常点亮
糖醋排骨的家庭版秘籍大公开!
红烧排骨的最佳配菜:土豆、玉米和胡萝卜的完美搭配
全球排骨大比拼:中国叉烧PK美式烧烤!
清蒸排骨一周不重样:5种美味做法详解
净空高度24米!南京长江大桥制约了长江航运发展?为何不拆除?
跨境支付系统的多重身份认证:你的五万美金有多安全?
龙爪抓玉器:权力与财富的凝固之美
龙爪花:爱情与勇气的象征
箸酒池年会:提升团队凝聚力的最佳方式
冬季大闸蟹,你真的会吃吗?
冬天吃阳澄湖大闸蟹,好处多多!
冬季吃蟹季:蟹爵大闸蟹选购秘籍
冬日大闸蟹烹饪全攻略:清蒸、香辣、香煎三种美味做法详解
白灼虾,用冷水还是热水煮?方法用错了,难怪虾肉又老还难吃
自驾游到丹东(自驾游到丹东攻略)
春运自驾:新手新途,安全先行,轻松应对挑战
在网上起诉要钱吗
4个“实用穴”,每天按一按,促睡眠、防中风、远离心脑血管疾病!
从宫廷配饰到时尚单品:佛教手串的现代复兴之路
菩提佛珠手串:戴对了才能转运!
杭州周边探秘:临海红杉林
二战德国的超级高射炮—150毫米重型高射炮发展史
亚运会后,杭州这些小众景点不容错过!
从马可·波罗到现代:杭州的千年魅力
玉皇山:捕捉杭州最美晚霞的最佳地点
杭州栖霞岭:秋冬徒步赏景的绝佳去处
张家川县马鹿镇:乡村旅游助力乡村振兴的绿色实践
秋日皖南的金色童话:宏村&塔川徒步摄影全攻略