机器学习聚类评价指标:福尔克斯-马洛斯指数(FMI)详解
创作时间:
作者:
@小白创作中心
机器学习聚类评价指标:福尔克斯-马洛斯指数(FMI)详解
引用
CSDN
1.
https://blog.csdn.net/dundunmm/article/details/145081230
福尔克斯-马洛斯指数(Fowlkes-Mallows Index, FMI)是一种用于评估聚类结果与实际标签之间一致性的指标。FMI值可以用于衡量聚类的准确性,特别是在有真值标签的监督评估场景中。
计算公式
FMI的计算基于以下公式:
其中:
- TP(True Positive):聚类中正确地将同一类别的样本分到同一簇的对数。
- FP(False Positive):聚类中错误地将不同类别的样本分到同一簇的对数。
- FN(False Negative):聚类中错误地将同一类别的样本分到不同簇的对数。
FMI是基于样本对(pairwise)的评价方法,它考虑了聚类结果与实际标签在配对样本之间的一致性。
FMI的取值范围
- FMI∈[0,1]
- 值越接近1,表示聚类结果与实际标签越一致。
- 值越接近0,表示聚类结果与实际标签基本无关。
优点
- 平衡性:FMI通过结合精确率(Precision)和召回率(Recall)的平方根,能够综合反映聚类的性能。
- 可解释性强:与常见的分类指标类似,易于理解和分析。
- 适用于有标签数据:特别适用于监督学习场景下的聚类结果评估。
缺点
- 对类别不平衡敏感:当数据的类别分布不均衡时,FMI的结果可能会受到影响。
- 计算成本较高:在大规模数据集上,由于需要计算所有样本对之间的关系,计算开销可能较大。
应用场景
- 聚类性能评估:用于评价聚类算法在有真值标签数据集上的性能。
- 多模态数据对齐:在多模态单细胞分析中,FMI可用于衡量不同模态数据对齐结果的优劣。
- 模型比较:在聚类算法的对比实验中,FMI常作为关键评估指标之一。
常见的有监督评价方式
以下是一些典型的有监督聚类评价指标及其特点:
- 调整兰德指数(ARI, Adjusted Rand Index):衡量两个聚类(算法结果 vs. 真值标签)的一致性,调整了随机聚类带来的影响。
- 归一化互信息(NMI, Normalized Mutual Information):测量聚类结果与真值标签之间的信息共享,值越大表明聚类质量越高。
- 聚类准确率(CA, Clustering Accuracy):简单地计算聚类结果与真值标签匹配的准确率。
- 福尔克斯-马洛斯指数(FMI, Fowlkes-Mallows Index):衡量聚类中同类点和异类点的正确划分比例,尤其对簇大小不平衡问题敏感。
聚类评价中的注意事项
- 真值标签的质量:如果“真值”标签本身不可靠(如细胞类型标签的分类标准主观性较强),则评价结果可能存在偏差。
- 不依赖标签的无监督评价:除了上述有监督指标,还可以采用无监督指标,如轮廓系数(Silhouette Coefficient)或聚类内的平方误差(SSE),来评价聚类效果。
- 真实应用场景:在实际无标注场景中,我们无法依赖有监督指标,这时需要结合领域知识或其他方式验证聚类的意义。
热门推荐
破解课业压力难题:9种方法助孩子每天阅读半小时
38℃高温下绽放:七种耐热花卉养护指南
阳台种花选这4种:耐晒易养,光照足就开花
夏季阳台种植攻略:18种耐热花卉让你的花园持续绽放
五种食物加健康生活方式,让血管更年轻
纳豆激酶:溶栓降脂效果好,还能增强免疫力
口腔健康从饮食抓起:9种天然食物助你保护牙齿
探秘海棠区的千年古迹,你get了吗?
蜈支洲岛:中国的马尔代夫,海岛度假的完美选择
蜈支洲岛:三亚海棠湾的海岛度假胜地
日照市美术馆新展来袭,艺术迷们冲鸭!
“瘗玉埋香”:《红楼梦》中林黛玉悲剧命运的古典隐喻
从朝云暮雨到风流韵事:解密“云雨”的文学密码
婚礼致辞这样写:男方女方父母范例精选
弥勒旅游必去三地:艺术小镇、森林公园和最大笑佛
杭州古镇摄影指南:15个实用技巧,轻松拍出氛围感大片!
周末打卡塘栖古镇,拍出最美江南水乡
楼塔古镇摄影打卡,抓住杭州最美瞬间
杭州古镇探秘:乌镇、西塘、南浔的文化之旅
花形似蝶、净化空气,蝴蝶兰成家居养花新宠
怎么ping自己电脑的ip地址
从柚子到牛油果:10种适合控糖期食用的低糖水果
冬日橙子季:六大养生功效与挑选食用全指南
车厘子营养价值全解析:抗氧化助眠,但肾病患者需谨慎
每100克仅含7-9克糖,枇杷是名副其实的低糖水果
黑胡椒粉与白胡椒粉:从工艺到风味的差异解析
白胡椒粉配清汤,黑胡椒粉配麻辣:火锅调味全攻略
南航联手科大讯飞、中国卫通,科技赋能飞行新体验
南航机队调整背后的战略深意
南方航空宽体机占比低的秘密