问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

全面讲解聚类分析

创作时间:
作者:
@小白创作中心

全面讲解聚类分析

引用
CSDN
1.
https://m.blog.csdn.net/2301_78499172/article/details/144172504

聚类分析是数据分析中的一种重要方法,用于将具有相似特征的对象或变量进行分组。本文将详细介绍聚类分析的基本概念、分类方法以及如何使用SPSS软件进行聚类分析。

定义

聚类分析(Cluster analysis)又叫做群集分析,通过一些属性将对象或变量分成不同的组别,在同一类下的对象或变量在这些属性上具有一些相似的特点。聚类分析是一种无监督学习方法,相对来说较为灵活。

事件分类说明

  • Q型聚类:对个案(样品、对象、被试)进行分类。例如,对不同车型进行分类。
  • R型聚类:对变量进行分类。例如,将具有共同特征的变量归为一类。

聚类的分类

SPSS聚类分类(简单到高级):

  • 快速聚类(k-均值聚类):最简单的聚类方法,只能对连续数据进行聚类,只能对样品进行聚类,适合大样本聚类,缺点不能自动确定类别数量。
  • 系统聚类:可以对个案、变量进行聚类,可以对连续变量或分类变量进行聚类,适合样本容量较小的情况,缺点不能自动确定类别数量。
  • 二阶聚类:最智能的聚类方法,可以对个案进行聚类,可以对连续变量+分类变量进行聚类,适合大样本聚类,能自动确定类别数量。

快速聚类(k-均值聚类)

原理讲解

  • 分割法中的一种
  • 思想:使得族群内的方差和最小
  • k值选取

操作要点

  • 首先把数据标准化。
  • 聚类数:根据计算结果来定。
  • 迭代数:可以改大一些。
  • 保存:“聚类成员和”与“聚类中心的距离”
  • 选项:“ANOVA”和“每个个案聚类信息”

结果解读

  • 读最终聚类中心能够反映分出来的这两类的特点,可以自己起名字。
  • ANOVA显示两个或者多个类别的群体在聚类的各个变量上是否有差异,有差异说明聚类相对成功。
  • 个案数显示两个或者多个类别的群体各有多少个被试。最好比较均匀,不要有类别太少。

系统聚类

又称层次聚类

1.原理讲解

1.1怎么进行分类:

凝聚法:由单个个体开始,逐步合并最“相似”的个体,直到所有个体都合并为一个族群。该方法为我们主要讨论的方法。(其实是给出路径的过程)

分离法:是凝聚法的一个相反的方向

1.2系统树图(谱系图)

表示路径,数据表示在哪个距离哪几个进行合并的。以及某两个族群的距离多少
在距离差大的地方分割合适(图中的横线最长的部分)借鉴

1.3聚类思想(不同的结果可能不太一样)

1.连接法

①简单连接/最近邻法
定义族群间的距离为两族群中相隔最近的两个体间的距离。(利用距离矩阵,不断更新)

②完全连接法/最远邻近法
以两组别中最远个体之间的距离来定义族群之间的距离。(利用距离矩阵,不断更新)

③平均连接法
两族群之间的距离定义为几A个A集合点和几B个B集合点产生的所有 nA和nB个距离数值的平均值。(同质心连接法相反:先求距离再求平均)

④质心法
两族群的距离定义为两族群各自的质心(Centroid )即样本均值向量,之间的欧式距离。(同平均连接法相反:先求平均再求距离)

缺点:

改进

2.word法

Ward法(Ward's method)/方差平方和增量法(Incremental sum of squares )由合并前后的族群内方差平方和的差异定义距离。

缺点:
一旦个体被分入一个族群,它将不可再被归入另一个族群(局部最优,不会全局最优)

  • 一般三四十个刚好
  • 会自己进行标准化

(1)操作要点

绘制:树状图(谱系图)
方法:“聚类方法”用“组间连接”。
“度量标准"根据数据类型选定:Q型聚类选“平方欧氏距离”,
R型聚类用“Pearson相关”
"标准化" 选定“Z得分.
分群:根据聚类类型选定。

(2)结果解读

画聚合系数随分类数变化图:以聚合系数为纵坐标,类别为横坐标,开始是N-1类。聚合系数图从哪里开始平缓就取那里的分类数。

二阶聚类

(1)操作要点

分类变量和连续变量按要求填入。
距离测量:全连续变量选“欧氏”,否则选“对数似然
聚类数目:“自动确定”
输出:“透视表”、“创建聚类成员变量”

(2)结果解读

(3)图表的制作

总结

SPSS聚类分析的方法
(1)快速聚类(k-均值聚类):最简单的聚类方法,只能对连续数据进行聚类,只能对样品进行聚类,适合大样本聚类,不能自动确定类别数量。
(2)系统聚类:可以对个案、变量进行聚类可以对连续变量或分类变量进行聚类,适合样本容量较小的情况,不能自动确定类别数量。
(3)二阶聚类:最智能的聚类方法,可以对个案进行聚类,可以对连续变量+分类变量进行聚类,适合大样本聚类,能自动确定类别数量。

本文主要介绍了基于SPSS的聚类分析方法,对于使用其他数据分析软件的读者,具体操作步骤可能会有所不同,但基本原理是相通的。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号