问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

分层聚类 vs K-means：两种主流聚类算法深度对比

创作时间:

作者:

@小白创作中心

分层聚类 vs K-means：两种主流聚类算法深度对比

引用

1

来源

1.

https://developer.aliyun.com/article/1507845

在数据挖掘和机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的对象划分为多个组或簇，使得同一簇内的对象相似度较高，而不同簇之间的相似度较低。分层聚类（Hierarchical Clustering）和K-means聚类算法是两种最常用的聚类方法，它们在聚类策略、应用场景、优缺点等方面存在显著差异。本文将对这两种算法进行详细比较和分析。

分层聚类算法

原理简介

分层聚类是一种自下而上（凝聚式）或自上而下（分裂式）的聚类方法。它通过逐步合并或分裂数据点，最终形成一个层次化的聚类结构。常用的分层聚类算法包括凝聚式聚类（Agglomerative Clustering）和分裂式聚类（Divisive Clustering）。

聚类方法

凝聚式聚类从单个数据点开始，逐步将最相似的数据点合并为一个聚类，直到所有数据点都被合并为一个聚类或达到预设的聚类数量。
分裂式聚类则从一个包含所有数据点的聚类开始，逐步将其分裂为更小的子聚类。

距离度量与链接方法

在分层聚类中，距离度量和链接方法是至关重要的。常用的距离度量包括欧氏距离、曼哈顿距离等，而链接方法包括单链接、全链接、平均链接等，它们决定了聚类合并或分裂的标准。

优点与局限性

优点：能够生成层次化的聚类结构，对噪声和异常值具有较好的鲁棒性，不需要预先指定聚类数量。
局限性：计算复杂度较高，通常为O(n^3)，在处理大规模数据集时效率较低。

K-means聚类算法

原理简介

K-means是一种基于质心的聚类算法，目标是将数据分为K个簇，使得每个簇内的数据点与该簇质心的距离最小化。K-means聚类算法是一种迭代算法，通过交替更新簇的质心和重新分配数据点来最小化目标函数（通常是簇内平方和）。

算法步骤

K-means算法包括初始化和迭代两个主要步骤：

初始化阶段：选择初始的质心位置。
迭代阶段：数据点被分配到最近的质心，然后质心根据新的分配重新计算，直到满足停止条件。

聚类质量评估

确定最优簇数K是K-means聚类中的一个挑战。常用的方法包括肘部法则、轮廓系数等，用于评估不同K值下的聚类质量。

优点与局限性

优点：计算效率高，易于理解和实现，特别适用于大规模数据集。
局限性：对初始质心的敏感性较高，假设所有簇具有相同的方差，对非球形簇结构不适用。

分层聚类与K-means聚类的比较

算法复杂度

分层聚类的计算复杂度较高，通常为O(n^3)。
K-means的计算复杂度通常为O(nKd)，其中n为数据点数量，K为簇数，d为数据维度。因此，K-means更适用于大规模数据的聚类任务。

聚类结果的表现形式

分层聚类生成层次化的聚类结构，可通过树状图（Dendrogram）直观展示。
K-means产生平坦的聚类划分，更容易在二维空间中可视化。

聚类数量的确定

分层聚类不需要事先确定聚类数量。
K-means需要指定簇数K，确定最优K值是K-means聚类的一个关键问题。

对噪声和异常值的鲁棒性

分层聚类对噪声和异常值具有一定的鲁棒性，因为它们不会立即影响整个聚类结构。
K-means对噪声和异常值比较敏感，可能会导致质心偏移或错误的聚类结果。

结论

综上所述，分层聚类和K-means聚类算法各有优劣，在不同的应用场景中有不同的适用性。工程师在选择聚类算法时，应根据数据特点、聚类需求和计算资源等因素综合考虑，以达到最佳的聚类效果。

热门推荐

如何根据兴趣与优势选择职业道路

如何根据兴趣与优势选择职业道路

全球最好喝的10种“啤酒”！中国只有1种上榜，大多数国人都喝过

全球最好喝的10种“啤酒”！中国只有1种上榜，大多数国人都喝过

《了凡四训》七句金玉良言，说透了"立命"、"改过"、"积善"、"谦德"

《了凡四训》七句金玉良言，说透了"立命"、"改过"、"积善"、"谦德"

横竖研究所放大招，金秀贤若不说出真相将公布不雅照，他真的要慌

横竖研究所放大招，金秀贤若不说出真相将公布不雅照，他真的要慌

枸杞：护眼、抗衰老、提升免疫力的天然‘防护镜’，你吃对了吗？

枸杞：护眼、抗衰老、提升免疫力的天然‘防护镜’，你吃对了吗？

电位的单位是什么？解答电位的单位及其测量方式

电位的单位是什么？解答电位的单位及其测量方式

六岁儿童教育方法：培养懂事、自信、快乐的孩子

六岁儿童教育方法：培养懂事、自信、快乐的孩子

黑客利用盗版游戏传播恶意软件

黑客利用盗版游戏传播恶意软件

论文中能使用“我”吗？如何替代第一人称？

论文中能使用“我”吗？如何替代第一人称？

八极拳实战攻击八法

八极拳实战攻击八法

催化剂孔结构知识：孔容的定义与测量方法

催化剂孔结构知识：孔容的定义与测量方法

抽油烟机标准尺寸是多少家居装修必知常识

抽油烟机标准尺寸是多少家居装修必知常识

历史探秘：曹操与二乔的真实关系

历史探秘：曹操与二乔的真实关系

大雁作文合集：从生活习性到人生启示

大雁作文合集：从生活习性到人生启示

青少年普法教育展馆视觉传达设计：传递普法信息，展现法治理念

青少年普法教育展馆视觉传达设计：传递普法信息，展现法治理念

Beyond《冷雨夜》：家强为音乐放弃爱情，家驹创作的暖心之作

Beyond《冷雨夜》：家强为音乐放弃爱情，家驹创作的暖心之作

黄家驹之死：一位华语乐坛传奇人物的陨落

黄家驹之死：一位华语乐坛传奇人物的陨落

刷牙不刷舌头等于白刷？

刷牙不刷舌头等于白刷？

氢弹是核聚变还是核裂变基本原理是什么

氢弹是核聚变还是核裂变基本原理是什么

本科是一本还是二本？一本与二本有什么区别

本科是一本还是二本？一本与二本有什么区别

95岁南京老人讲述父亲惨遭日军杀害经历，在《南京大屠杀史料集》中找到记载

95岁南京老人讲述父亲惨遭日军杀害经历，在《南京大屠杀史料集》中找到记载

挨饿得当有益健康，看看医生都推荐的 “间歇性禁食法”

挨饿得当有益健康，看看医生都推荐的 “间歇性禁食法”

皮肤出油跟缺水有关，还跟什么有关

皮肤出油跟缺水有关，还跟什么有关

哪些行为会导致皮脂腺分泌过多油脂？

哪些行为会导致皮脂腺分泌过多油脂？

掌握热点营销策略，提升品牌知名度与销量

掌握热点营销策略，提升品牌知名度与销量

台式电脑怎么连WiFi？详细教程来了

台式电脑怎么连WiFi？详细教程来了

使命召唤手游BP50性能解析：中近距离的战场新贵

使命召唤手游BP50性能解析：中近距离的战场新贵

他是周伯通左右互搏术，最后一位传人，武功碾压六大派掌门

他是周伯通左右互搏术，最后一位传人，武功碾压六大派掌门

饭后血糖高是什么原因造成的

饭后血糖高是什么原因造成的

雕塑艺术：它的历史、形式与创作之路

雕塑艺术：它的历史、形式与创作之路

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号