全面讲解聚类分析
全面讲解聚类分析
聚类分析是数据分析中的一种重要方法,用于将具有相似特征的对象或变量进行分组。本文将详细介绍聚类分析的基本概念、分类方法以及如何使用SPSS软件进行聚类分析。
定义
聚类分析(Cluster analysis)又叫做群集分析,通过一些属性将对象或变量分成不同的组别,在同一类下的对象或变量在这些属性上具有一些相似的特点。聚类分析是一种无监督学习方法,相对来说较为灵活。
事件分类说明
- Q型聚类:对个案(样品、对象、被试)进行分类。例如,对不同车型进行分类。
- R型聚类:对变量进行分类。例如,将具有共同特征的变量归为一类。
聚类的分类
SPSS聚类分类(简单到高级):
- 快速聚类(k-均值聚类):最简单的聚类方法,只能对连续数据进行聚类,只能对样品进行聚类,适合大样本聚类,缺点不能自动确定类别数量。
- 系统聚类:可以对个案、变量进行聚类,可以对连续变量或分类变量进行聚类,适合样本容量较小的情况,缺点不能自动确定类别数量。
- 二阶聚类:最智能的聚类方法,可以对个案进行聚类,可以对连续变量+分类变量进行聚类,适合大样本聚类,能自动确定类别数量。
快速聚类(k-均值聚类)
原理讲解
- 分割法中的一种
- 思想:使得族群内的方差和最小
- k值选取
操作要点
- 首先把数据标准化。
- 聚类数:根据计算结果来定。
- 迭代数:可以改大一些。
- 保存:“聚类成员和”与“聚类中心的距离”
- 选项:“ANOVA”和“每个个案聚类信息”
结果解读
- 读最终聚类中心能够反映分出来的这两类的特点,可以自己起名字。
- ANOVA显示两个或者多个类别的群体在聚类的各个变量上是否有差异,有差异说明聚类相对成功。
- 个案数显示两个或者多个类别的群体各有多少个被试。最好比较均匀,不要有类别太少。
系统聚类
又称层次聚类
1.原理讲解
1.1怎么进行分类:
凝聚法:由单个个体开始,逐步合并最“相似”的个体,直到所有个体都合并为一个族群。该方法为我们主要讨论的方法。(其实是给出路径的过程)
分离法:是凝聚法的一个相反的方向
1.2系统树图(谱系图)
表示路径,数据表示在哪个距离哪几个进行合并的。以及某两个族群的距离多少
在距离差大的地方分割合适(图中的横线最长的部分)借鉴
1.3聚类思想(不同的结果可能不太一样)
1.连接法
①简单连接/最近邻法
定义族群间的距离为两族群中相隔最近的两个体间的距离。(利用距离矩阵,不断更新)
②完全连接法/最远邻近法
以两组别中最远个体之间的距离来定义族群之间的距离。(利用距离矩阵,不断更新)
③平均连接法
两族群之间的距离定义为几A个A集合点和几B个B集合点产生的所有 nA和nB个距离数值的平均值。(同质心连接法相反:先求距离再求平均)
④质心法
两族群的距离定义为两族群各自的质心(Centroid )即样本均值向量,之间的欧式距离。(同平均连接法相反:先求平均再求距离)
缺点:
改进
2.word法
Ward法(Ward's method)/方差平方和增量法(Incremental sum of squares )由合并前后的族群内方差平方和的差异定义距离。
缺点:
一旦个体被分入一个族群,它将不可再被归入另一个族群(局部最优,不会全局最优)
- 一般三四十个刚好
- 会自己进行标准化
(1)操作要点
绘制:树状图(谱系图)
方法:“聚类方法”用“组间连接”。
“度量标准"根据数据类型选定:Q型聚类选“平方欧氏距离”,
R型聚类用“Pearson相关”
"标准化" 选定“Z得分.
分群:根据聚类类型选定。
(2)结果解读
画聚合系数随分类数变化图:以聚合系数为纵坐标,类别为横坐标,开始是N-1类。聚合系数图从哪里开始平缓就取那里的分类数。
二阶聚类
(1)操作要点
分类变量和连续变量按要求填入。
距离测量:全连续变量选“欧氏”,否则选“对数似然
聚类数目:“自动确定”
输出:“透视表”、“创建聚类成员变量”
(2)结果解读
(3)图表的制作
总结
SPSS聚类分析的方法
(1)快速聚类(k-均值聚类):最简单的聚类方法,只能对连续数据进行聚类,只能对样品进行聚类,适合大样本聚类,不能自动确定类别数量。
(2)系统聚类:可以对个案、变量进行聚类可以对连续变量或分类变量进行聚类,适合样本容量较小的情况,不能自动确定类别数量。
(3)二阶聚类:最智能的聚类方法,可以对个案进行聚类,可以对连续变量+分类变量进行聚类,适合大样本聚类,能自动确定类别数量。
本文主要介绍了基于SPSS的聚类分析方法,对于使用其他数据分析软件的读者,具体操作步骤可能会有所不同,但基本原理是相通的。