K-means算法及最佳聚类数目的确定
创作时间:
作者:
@小白创作中心
K-means算法及最佳聚类数目的确定
引用
CSDN
1.
https://blog.csdn.net/2401_83250053/article/details/136654262
K-means算法中,K值决定了在该聚类算法中需要分配的簇的数量。K-means算法对初始值比较敏感,对于同样的k值,选取的点不同,会影响算法的聚类效果和迭代的次数。
通过计算原始数据中的CH值、DB值、Gap值、轮廓系数这四种指标,可以衡量K-means的最佳聚类数目,并使用K-means进行聚类,最后可视化聚类的结果。这些指标常用于丰富和充实论文内容。
聚类效果评判中的CH值、DB值、Gap值和轮廓系数是四种常用的指标,它们从不同的角度衡量了聚类的质量。下面是对这些指标的详细介绍:
- CH值(Calinski-Harabasz Index):
- 定义:CH指数基于样本的协方差矩阵来度量簇的分离度和紧凑性,同时也考虑了不同簇的样本数大小的影响。
- 含义:CH指数的值越大,表示聚类效果越好。它反映了簇内样本的紧密程度和簇间样本的分离程度。当簇内样本越紧密且簇间样本越分离时,CH值越大。
- 应用:CH指数常用于评估聚类算法的性能,特别是当需要比较不同聚类方法或不同参数设置下的聚类效果时。
- DB值(Davies-Bouldin Index):
- 定义:DB值通过计算每个簇的分离度和紧凑性的比例来评估聚类效果。具体地,它考虑了簇内所有点到该簇质心点的平均距离之和与簇间质心距离的比值。
- 含义:DB值越小,表示聚类效果越好。这意味着类内距离越小(即簇内样本越紧密),同时类间距离越大(即不同簇之间的样本越分离)。
- 应用:DB值常用于评估聚类结果的优劣,特别适用于需要优化簇内紧凑性和簇间分离度的场景。
- Gap值:
- 定义:Gap值是通过比较聚类结果与实际随机分布之间的差距来评估聚类效果的。它通常利用对数似然函数或核函数等方法来度量这种差距。
- 含义:Gap值越小,表示聚类效果越好。这意味着聚类结果更接近数据的真实结构,而不是随机分布。
- 应用:Gap值适用于评估各种聚类算法的性能,特别是当需要确定最佳聚类数量时。通过比较不同聚类数量下的Gap值,可以选择使得聚类效果最佳的簇数。
- 轮廓系数:
- 定义:轮廓系数是一种衡量聚类结果质量的指标,它通过计算每个样本的轮廓系数来评估聚类的紧密度和分离度。
- 计算方法:对于每个样本,首先计算它与同簇内其他样本的平均距离(a),以及它与不同簇中最近样本的平均距离(b)。然后,该样本的轮廓系数为(b-a)/max(a, b)。对所有样本的轮廓系数求平均,得到聚类的整体轮廓系数。
- 含义:轮廓系数的值越接近1,表示聚类效果越好;值越接近-1,表示聚类效果越差。一个高的轮廓系数意味着簇内样本之间紧密且簇间样本之间分离。
- 应用:轮廓系数广泛用于评估聚类算法的性能,特别是当需要比较不同聚类方法或不同参数设置下的聚类效果时。它提供了一个直观且易于理解的指标来衡量聚类结果的质量。
综上所述,CH值、DB值、Gap值和轮廓系数都是常用的聚类效果评价指标,它们从不同的角度对聚类结果进行了度量。在实际应用中,可以根据具体需求和数据特点选择合适的指标来评估聚类效果。
效果:
热门推荐
狂飙:告诉老默我想吃鱼了,这句话的背后含义是什么?
大米与糙米热量对比:哪种更适合你?
糙米和普通大米有什么区别
长宁这家医院开设“低视力康复与眼底病门诊”,这些患者重获“视”界
“活起来”的毕业典礼 为何更“出圈”
泡沫保温板和岩棉板哪个好?全面解析两种保温材料的区别
深入探讨海外上市架构的多样性与市场影响
凤冠霞帔中的"霞帔":从唐代到清代的千年演变
福祸盛唐(增八)严庄杀了三十多位唐朝将领,为何投降后还能善终
中央广播电视总台虚拟现实实验室副主任谭阳:“科技+文化”——媒体创新应用实践
股市风向标 | 汇率市场静候巴西央行加息决议
牙齒出現「4問題」代表要拔牙了!牙醫揭驚人真相:第一名不是蛀牙
古诗词里的唯美网名:10个绝美诗句推荐
如何与父母合理分家以保障各自权益?这种分家方式对家庭关系有何影响?
揭秘冲击波的科学原理与应用领域
初学微距摄影教程:这7个技巧请牢牢记住
@全体打工人:这有一份更适合打工人精神状态的维权指南
政策催熟的新能源汽车市场,还能靠政策“续命”多久?
光伏运维工程师培训:从零基础到专业运维的进阶之路
光伏运维工程师培训:从零基础到专业运维的进阶之路
保姆雇佣全攻略:安全协议、合同签订与法律责任详解
兴坪古镇:探寻20元人民币背后的美景与历史
吃东西消化不良就头疼恶心?可能是这些原因
Excel清单建立指南:从入门到精通的17个步骤
创业公司管理中如何处理压力和挑战
霍英东家规森严,二房三房太太貌美得宠,都生了儿子却从不争家产
交城:持续深化移风易俗改革 全力打造乡风文明新样板
公司监控员工电脑能当证据吗?答案:可以!一文秒懂!
云计算中的权限管理系统
淮安古庄牛村:从宁静村落到旅游胜地的华丽转身