问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

深度聚类技术综述:聚类模块详解

创作时间:
作者:
@小白创作中心

深度聚类技术综述:聚类模块详解

引用
CSDN
1.
https://blog.csdn.net/dundunmm/article/details/145113324

聚类是机器学习中的一项基本任务,其目标是将实例分配到不同的组中,以便相似的样本归属于同一个簇,而不同的样本归属于不同的簇。传统的浅层聚类方法通常假设数据以特征向量的形式收集和表示,并在其内部进行聚类。然而,在处理高维数据(如图像、文本、视频和图)的聚类任务时,往往面临诸多挑战,例如表示的不加区分性以及实例间复杂的关系。

在过去几十年中,深度学习在有效表示学习和复杂关系建模方面取得了显著成功。受到这些进展的启发,深度聚类(Deep Clustering)旨在通过深度学习技术提升聚类效果,并引起了学术界和工业界的广泛关注。尽管这一研究领域已取得了许多成果,但缺乏系统性的分析和全面的分类框架在一定程度上制约了其进一步发展。

在这篇综述中,首先探讨了如何将深度学习融入深度聚类,并识别出其两个核心组成部分:表示学习模块聚类模块。随后,总结并分析了这两个模块的代表性设计。此外,提出了一种基于这两个模块交互方式的全新深度聚类分类法,包括多阶段方法、生成式方法、迭代方法和同步方法。

除了理论分析,还介绍了知名的基准数据集、评估指标以及开源工具,以直观展示不同的实验方法。最后,探讨了深度聚类的实际应用场景,并提出了未来研究中亟待解决的关键挑战。

聚类模块

本节介绍了在深度聚类中使用的关键聚类模块,这些模块利用低维表示作为输入,并生成硬聚类的聚类标签或软聚类的聚类分配概率。尽管许多浅层聚类技术可以直接应用于聚类任务,但将它们与深度表示学习结合到单一框架中仍然具有挑战性。此外,这些方法通常未能有效地与表示学习模块结合,从而实现相互促进。有关浅层聚类方法的更多信息,建议参考之前的综述[13, 19]。

在深度聚类中,目标是遵循深度学习框架,其中聚类结果通过优化神经网络来获得。如图3所示,接下来的部分将讨论在深度聚类中构建聚类模块的五种流行方法。

1 关系匹配深度聚类

关系匹配技术通过将实例之间的连接(实例与实例,I2I)与聚类结果(实例与聚类中心,I2C)对齐,从而增强聚类结果。为了获得实例与聚类中心之间的关系,直接的方法是测量实例与聚类中心在低维空间中的距离或相似性。关系越紧密,表示属于特定聚类的概率越高。I2C 可以通过以下方式直接优化:

其中,si是分配向量,M 的第 k 列,即 mk,表示第 k 个聚类的中心,hi是实例在低维空间中的表示。通过固定 x 和 M,优化方程 (9) 输出聚类分配;仅固定 x 时,优化方程 (9) 等价于运行 K-means 的结果。

此外,聚类结果也可以通过匹配来自不同视角的实例关系来优化,公式如下:

其中,∥⋅∥是关系匹配的度量,例如余弦相似度或欧几里得距离,Rs和 Rt分别表示源空间和目标空间中的关系。这里,基于 I2C 的关系通常被视为源空间,而目标空间可能来自于实例的嵌入或原始特征之间的相似性。

分析:关系匹配深度聚类通过将嵌入空间与标签空间之间的关系进行匹配,明确地连接了表示学习和聚类,这种方法直接且易于实现。然而,对于 I2I 公式而言,计算 N2对实例之间的关系是计算上低效的。为了解决这个挑战,一些方法只保留每个实例的 k-最近邻关系[95, 96],或者保留高置信度的关系[95]。虽然这可以在一定程度上提高训练效率,但额外的超参数在无监督情况下很难设置。此外,在所有关系对中,许多关系在早期训练阶段具有噪声,尤其是当模型能力有限时。如何过滤出干净的关系以提升性能,同时丢弃噪声关系,仍然是一个开放的研究问题。

2 伪标签深度聚类

伪标签是半监督学习中常用的一种方法[97],最近也被应用于深度聚类。该方法可以看作是一种关系匹配,其特征是离散关系,这些关系依赖于标签的一致性。根据使用伪标签的方式,现有方法大致可以分为两类:实例级伪标签[95, 98, 99]和关系级伪标签[100, 101]。

实例级伪标签通过筛选出一部分具有高置信度的实例,并使用交叉熵损失进行监督训练,如公式 (11) 所示:

其中,LIPL表示实例级伪标签的损失,Xc表示具有高置信度的实例子集,yik∼ 和 zik 分别是预测的硬标签和软聚类分配。置信度通常通过熵或分配的概率分布的最大值来估算。

关系级伪标签的基本思想是将具有相同伪标签的实例拉近,而将具有不同伪标签的实例远离,在嵌入空间中构建离散的关系以指导表示学习:对于具有相同伪标签的实例对使用“必须连接”(must-link),而对于具有不同伪标签的实例对使用“不能连接”(cannot-link),如公式 (12) 所示:

其中,M 是“必须连接”关系的集合,C 是“不能连接”关系的集合,Rij是实例 xi和 xj在低维嵌入空间中的相似度。

分析:伪标签将半监督学习的优势引入到无监督聚类任务中。然而,其效果在很大程度上依赖于伪标签的质量,这些标签容易受到模型性能和超参数调整的影响,特别是在无监督环境下。现有方法[95, 98]通过预训练作为伪标签之前的初始步骤来解决这些问题,但这一领域仍需要进一步的关注。

3 自训练深度聚类

自训练策略被引入到深度聚类任务中[102],并开辟了一种新的方法分支,称为自训练深度聚类[9, 102–107]。更具体地说,聚类分配分布通过最小化KL散度与辅助分布之间的差异进行优化,如公式 (13) 所示:

其中,Q 是聚类分配分布,P 是辅助分布。qik和 pik分别表示实例 xi属于第 k 类的概率。聚类分配分布 Q 遵循 K-means 假设,通过实例与聚类中心之间的嵌入距离生成,如公式 (14) 所示:

其中,hi 是数据实例 xi 的表示,ck是第 k 聚类的表示,α 是学生 t 分布的自由度[108]。辅助分布 P 是聚类分配分布 Q 的变种,通过实例级和聚类级的归一化进行调整,如公式 (15) 所示:

其中,fk是软聚类频率。

分析:自训练深度聚类的成功依赖于以下几个特性:

首先,聚类分配概率的平方与聚类级归一化将鼓励模型更多地关注(梯度)置信度较高的实例,从而减少低置信度实例的影响。因此,聚类分配向量趋向于一热编码(one-hot)。

其次,软聚类频率 fk可以看作是实例属于第 k 类的概率之和。这可以防止所有实例都属于同一类的退化解。

尽管该目标方法有效,但它容易受到类别不平衡问题的影响,因此需要进一步的研究。

4 对比深度聚类

与对比表示学习类似,对比深度聚类的目标是将正样本对拉近,同时将负样本对推远。主要的区别在于正样本对和负样本对的定义,这些对可以进一步分为三类:

4.1 实例-实例对比

实例-实例对比将每个实例的聚类分配视为表示,并直接重用对比表示学习损失,如公式 (16) 所示:

其中,ziT1是由聚类模块预测的增强实例 xiT1的聚类分配。

4.2 聚类-聚类对比

聚类-聚类对比将每个聚类视为嵌入空间中的一个实例,目标是将该聚类及其增强版本拉近,同时将不同的聚类推远,这可以表示为公式 (17):

其中,ckT1和 ckT2 是聚类 k 在不同增强视图中的表示。需要注意的是,聚类-聚类对比满足聚类的基本要求,即每个聚类应该是不同的,这与【论文阅读】A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions之表示学习-CSDN博客中描述的有利于聚类的表示学习一致。

4.3 实例-聚类对比

实例-聚类对比类似于K-means,它利用聚类中心作为显式的指导。给定每个实例和聚类中心在相同低维空间中的表示,期望每个实例靠近其对应的聚类中心,同时远离其他聚类中心。这种相似性和不相似性可以通过对比学习自然建模,如公式 (18) 所示:

其中,ci是实例 xi对应的聚类中心,通常通过替代的聚类方法来估计。这也可以理解为通过数据增强最大化表示与聚类分配之间的互信息。

分析

除了继承自互信息最大化聚类的优点外,对比深度聚类的主要优势在于数据增强有助于提高聚类的鲁棒性,而这一点在大多数现有方法中被忽视了。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号