问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

全面讲解聚类分析

创作时间:

作者:

@小白创作中心

全面讲解聚类分析

引用

CSDN

1.

https://m.blog.csdn.net/2301_78499172/article/details/144172504

聚类分析是数据分析中的一种重要方法，用于将具有相似特征的对象或变量进行分组。本文将详细介绍聚类分析的基本概念、分类方法以及如何使用SPSS软件进行聚类分析。

定义

聚类分析（Cluster analysis）又叫做群集分析，通过一些属性将对象或变量分成不同的组别，在同一类下的对象或变量在这些属性上具有一些相似的特点。聚类分析是一种无监督学习方法，相对来说较为灵活。

事件分类说明

Q型聚类：对个案（样品、对象、被试）进行分类。例如，对不同车型进行分类。
R型聚类：对变量进行分类。例如，将具有共同特征的变量归为一类。

聚类的分类

SPSS聚类分类（简单到高级）：

快速聚类（k-均值聚类）：最简单的聚类方法，只能对连续数据进行聚类，只能对样品进行聚类，适合大样本聚类，缺点不能自动确定类别数量。
系统聚类：可以对个案、变量进行聚类，可以对连续变量或分类变量进行聚类，适合样本容量较小的情况，缺点不能自动确定类别数量。
二阶聚类：最智能的聚类方法，可以对个案进行聚类，可以对连续变量+分类变量进行聚类，适合大样本聚类，能自动确定类别数量。

快速聚类（k-均值聚类）

原理讲解

分割法中的一种
思想：使得族群内的方差和最小
k值选取

操作要点

首先把数据标准化。
聚类数：根据计算结果来定。
迭代数：可以改大一些。
保存：“聚类成员和”与“聚类中心的距离”
选项：“ANOVA”和“每个个案聚类信息”

结果解读

读最终聚类中心能够反映分出来的这两类的特点，可以自己起名字。
ANOVA显示两个或者多个类别的群体在聚类的各个变量上是否有差异，有差异说明聚类相对成功。
个案数显示两个或者多个类别的群体各有多少个被试。最好比较均匀，不要有类别太少。

系统聚类

又称层次聚类

1.原理讲解

1.1怎么进行分类：

凝聚法：由单个个体开始，逐步合并最“相似”的个体，直到所有个体都合并为一个族群。该方法为我们主要讨论的方法。（其实是给出路径的过程）

分离法：是凝聚法的一个相反的方向

1.2系统树图（谱系图）

表示路径，数据表示在哪个距离哪几个进行合并的。以及某两个族群的距离多少
在距离差大的地方分割合适（图中的横线最长的部分）借鉴

1.3聚类思想（不同的结果可能不太一样）

1.连接法

①简单连接/最近邻法
定义族群间的距离为两族群中相隔最近的两个体间的距离。（利用距离矩阵，不断更新）

②完全连接法/最远邻近法
以两组别中最远个体之间的距离来定义族群之间的距离。（利用距离矩阵，不断更新）

③平均连接法
两族群之间的距离定义为几A个A集合点和几B个B集合点产生的所有 nA和nB个距离数值的平均值。（同质心连接法相反：先求距离再求平均）

④质心法
两族群的距离定义为两族群各自的质心(Centroid )即样本均值向量，之间的欧式距离。（同平均连接法相反：先求平均再求距离）

缺点:

改进

2.word法

Ward法(Ward's method)/方差平方和增量法(Incremental sum of squares )由合并前后的族群内方差平方和的差异定义距离。

缺点：
一旦个体被分入一个族群，它将不可再被归入另一个族群（局部最优，不会全局最优）

一般三四十个刚好
会自己进行标准化

（1）操作要点

绘制：树状图(谱系图)
方法：“聚类方法”用“组间连接”。
“度量标准"根据数据类型选定：Q型聚类选“平方欧氏距离”,
R型聚类用“Pearson相关”
"标准化" 选定“Z得分.
分群:根据聚类类型选定。

（2）结果解读

画聚合系数随分类数变化图：以聚合系数为纵坐标，类别为横坐标，开始是N-1类。聚合系数图从哪里开始平缓就取那里的分类数。

二阶聚类

（1）操作要点

分类变量和连续变量按要求填入。
距离测量：全连续变量选“欧氏”，否则选“对数似然
聚类数目：“自动确定”
输出：“透视表”、“创建聚类成员变量”

（2）结果解读

（3）图表的制作

总结

SPSS聚类分析的方法
（1）快速聚类(k-均值聚类)：最简单的聚类方法，只能对连续数据进行聚类，只能对样品进行聚类，适合大样本聚类，不能自动确定类别数量。
（2）系统聚类：可以对个案、变量进行聚类可以对连续变量或分类变量进行聚类，适合样本容量较小的情况，不能自动确定类别数量。
（3）二阶聚类：最智能的聚类方法，可以对个案进行聚类，可以对连续变量+分类变量进行聚类，适合大样本聚类，能自动确定类别数量。

本文主要介绍了基于SPSS的聚类分析方法，对于使用其他数据分析软件的读者，具体操作步骤可能会有所不同，但基本原理是相通的。

热门推荐

心梗患者如何科学饮食？

心梗患者如何科学饮食？

2025深圳春节6大灯会打卡攻略！

2025深圳春节6大灯会打卡攻略！

北大集成电路学院院长蔡一茂：AI时代的存储器与存内计算技术发展

北大集成电路学院院长蔡一茂：AI时代的存储器与存内计算技术发展

芙蓉花的药用价值与功效

芙蓉花的药用价值与功效

七个多月的宝宝可以吃什么辅食

七个多月的宝宝可以吃什么辅食

黑色便便是否意味着消化道出血？

黑色便便是否意味着消化道出血？

中国神华跌至35.73元，14万散户何去何从？

中国神华跌至35.73元，14万散户何去何从？

莲子用电高压锅煮多久？详细步骤与技巧全解析

莲子用电高压锅煮多久？详细步骤与技巧全解析

家庭学习力量爆发：家中环境营造宝典助你提升学习效果

家庭学习力量爆发：家中环境营造宝典助你提升学习效果

胃食管反流引起后背疼的五大原因及治疗方法

胃食管反流引起后背疼的五大原因及治疗方法

复工复产项目经理需要汇报哪些内容？

复工复产项目经理需要汇报哪些内容？

筋骨三针疗法定点定位(二十七)——颈肩三针点

筋骨三针疗法定点定位(二十七)——颈肩三针点

2025年黄道吉日动工的最佳时机如何选择合适的日子

2025年黄道吉日动工的最佳时机如何选择合适的日子

哈萨克族习俗：哈萨克族人日常都有啥禁忌

哈萨克族习俗：哈萨克族人日常都有啥禁忌

初榨椰子油、精炼椰子油、分馏椰子油：三种椰子油的差异与选择指南

初榨椰子油、精炼椰子油、分馏椰子油：三种椰子油的差异与选择指南

什么样的痣需要手术切除？

什么样的痣需要手术切除？

一周科技：塑料中化学物质的危害、小型哺乳动物携带病原体研究等

一周科技：塑料中化学物质的危害、小型哺乳动物携带病原体研究等

什么是滴灌施肥法？详解滴灌施肥技术要点

什么是滴灌施肥法？详解滴灌施肥技术要点

如何写软件开发毕业论文

如何写软件开发毕业论文

调理舌苔白厚的5个实用方法

调理舌苔白厚的5个实用方法

吃完饭卡痰是怎么回事

吃完饭卡痰是怎么回事

AI生图版权陷争议，“套娃”式生成图算谁的？

AI生图版权陷争议，“套娃”式生成图算谁的？

闵子骞的故事与品质探析

闵子骞的故事与品质探析

闵子骞的故事与品质探析

闵子骞的故事与品质探析

免疫球蛋白对鼻炎有影响吗

免疫球蛋白对鼻炎有影响吗

理财产品的风险管理如何进行？这些管理措施有何实际效果？

理财产品的风险管理如何进行？这些管理措施有何实际效果？

《易经》与其他经典的关系：交融与互鉴

《易经》与其他经典的关系：交融与互鉴

阜南县人民医院与“长三角”医疗合作成功实施不停跳心脏搭桥手术

阜南县人民医院与“长三角”医疗合作成功实施不停跳心脏搭桥手术

中国第四艘航母今年上船台？12万吨+核动力+歼-50 福特级将被超越

中国第四艘航母今年上船台？12万吨+核动力+歼-50 福特级将被超越

心脏有问题的12个信号，占两个就要赶紧就医

心脏有问题的12个信号，占两个就要赶紧就医

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号