数据预处理之聚类分析
创作时间:
作者:
@小白创作中心
数据预处理之聚类分析
引用
CSDN
1.
https://blog.csdn.net/rrrrroin/article/details/139880837
聚类分析是一种研究对样品或指标分类问题的多元统计方法。它通过计算样品或参数的相似程度,将相似的样品或指标归为一类。本文将系统地介绍聚类分析的全过程,包括数据预处理、变量选择、类数确定以及聚类方法的选择。
一、对初始数据变换处理
在进行聚类分析之前,通常需要对数据进行预处理。根据数据特性以及接下来可能进行的操作,有三种变换可以帮助处理数据:
1.中心化变换
中心化变换是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。设原始观测数据矩阵为X,进行中心化变换:
特点:
- 每列数据之和均为0,即每个变量的均值为0。
- 每列数据的平方和是该列变量样本方差的(n—1)倍。
- 任何不同两列数据之积是这两列变量样本协方差的(n—1)倍。
2.标准化变换
在中心化变换基础上,用变量的标准差进行标准化。设变量的标准差为σ,标准化变换公式为:
特点:
- 数据矩阵中每列数据的平均值为0,方差为1。
- 数据不再具有量纲,便于不同变量之间的比较。
- 数据矩阵中任何两列数据之积是两个变量相关系数的(n-1)倍。
3.对数变换
对数变换可以将指数结构化成线性结构,适用于处理数据分布不均匀的情况。
二、选取聚类变量
选取聚类变量的原则包括:
- 与聚类分析的目的密切相关
- 能反映所分类变量的特征
- 对不同研究对象其值有明显的差异
- 变量之间不能高度相关
主要分为两个指标:
- 相关系数:多用于考察变量之间亲疏程度
- 距离:多用于测度样品之间的亲疏程度
1.相关系数
相关系数计算公式为:
2.距离
有四种类型选择:
- 明考夫斯基距离
- 兰氏距离
- 马氏距离
- 斜交空间距离
三、确定形成类数
确定类数的方法包括:
- 根据题目要求或生活常识进行大致确定
- 用算法聚类,根据距离、密度分出大致的类别
- 通过计算聚合系数曲线,找到合适的k值(肘部法则)
四、选择聚类方法
1.系统聚类法
基本思想:
- 列出距离矩阵D(0)。
- 选择最小的非零数,将对应的两个样本合并为一类。
- 给出计算新类与其它类的距离公式,并计算新类与其它类之间的距离Dkr。
- 重复上述步骤,直至所有样本点归为一类。
按照不同的方法定义距离,得到不同的聚类方法:
- 最短距离法
- 最长距离法
- 组间平均距离法
- 重心法
- 类平均法
2.K-means聚类算法
K-means算法是一种动态迭代的算法。缺点是初始聚类中心是随机选取的,聚类结果会受孤立、离群点影响。
3.K-means++算法
K-means++算法对K-means算法的改进,其思想是让初始的聚类中心之间距离尽可能的远,从而减少初值与孤立点的影响。
4.DBSCAN算法
DBSCAN算法是一种基于密度的聚类方法,聚类前不需要预先指定聚类的个数,生成的簇的个数不定。该方法能在具有噪声的空间数据库中发现任意形状的簇,能有效处理异常数据。
5.ISODATA算法
ISODATA算法通过设置初始参数而引入人机对话环节,并使用归并和分裂等机制。当两类聚中心小于某个阀值时,将它们合并为一类。当某类的标准差大于某一阀值时或其样本数目超过某一阀值时,将其分裂为两类,在某类样本数目小于某一阀值时,将其取消。这样根据初始类聚中心和设定的类别数目等参数迭代,最终得到一个比较理想的分类结果。
热门推荐
胡萝卜拯救手指干燥大作战
冬季手指翘皮?当心湿疹和手癣在作怪!
任天堂Switch三大独占游戏盘点:从开放世界到多人竞速
《超级马力欧:奥德赛》深度评测:国行Switch最佳选择?
元旦聚餐必备:轻松搞定过紧瓶盖
龙抄手:四川传统美食的制作方法与营养搭配
罐头瓶盖太紧?清洁神器来帮忙!
申请工伤赔偿需要准备哪些文件和证据
农民工工伤认定程序怎么走?
红细胞计数仅37.7,严重贫血患者的饮食调理方案
冬季贫血预防攻略:从饮食到生活全方位调养
排队必吃的武汉蔡林记:揭秘百年热干面传奇
武汉两日游精华攻略:黄鹤楼、东湖、长江灯光秀全打卡
武汉旅游攻略:三大主题景点+实用建议,玩转江城
你的寒假作业都完成了吗?这份“补作业”攻略孩子、家长快收好
学生寒假期间的健康与安全指南
晚上怎么和女生聊天找话题:让聊天不再尴尬的5大技巧
贵州贫困山区儿童急需御寒物资,多地发起“寒冬送温暖”活动
北京工会启动2025年“冬送温暖”:慰问一线职工,保障节日供应
陕西慈善协会募集23.5亿,创新机制助力乡村振兴
长沙白沙花园社区开展“寒冬送温暖”,为困难群众送关爱
心情低落怎么办?五种实用方法助你走出情绪困境
艾滋病患者心理调适指南:四步走出抑郁阴影
进气系统的分类
新能源汽车产业6大技术发展方向
哮喘吸入器使用指南:操作要点与日常维护详解
气动雾化吸入器使用指南:操作要点与常见问题解答
吸入给药临床研究:装置选择与体内PK关键技术
医用吸引器使用指南:保障手术视野清晰的关键设备
武钢一号高炉:从“功勋炉”到国家工业旅游示范基地