层次聚类——以凝聚型层次聚类为例讲解（易懂版）

创作时间:

作者:

@小白创作中心

层次聚类——以凝聚型层次聚类为例讲解（易懂版）

引用

CSDN

https://blog.csdn.net/weixin_74268817/article/details/143821824

层次聚类是一种将数据集逐步划分为层次结构的方法，是一种无监督学习方法最终形成一颗树状图（dendrogram），可以直观地表示不同数据点之间的聚类关系。它是一种无监督学习方法。

层次聚类的两种方法

凝聚型（自底向上）：这是最常见的方法，从每个数据点开始，将它们作为单独的簇。然后，逐步合并最相似的簇，直到所有数据点都被合并成一个簇，或者达到设定的停止条件。
分裂型（自顶向下）：与凝聚型相反，分裂型聚类从整个数据集开始，然后将其分割成更小的簇，逐步细分，直到每个簇只包含一个数据点或达到某个停止条件。

这里，我们详细讲解凝聚型层次聚类的原理。

凝聚型层次聚类

距离度量方法：

欧氏距离：是最常见的距离度量，用于度量两点之间的直线距离，常见于低维数据，尤其适用于球形簇结构。
曼哈顿距离：是另一个常用的距离度量，适合于矩形格局的数据（如网格结构的数据），计算的是两点在坐标轴上的绝对距离之和。
其他距离度量：如余弦相似度、马氏距离等，也可以在不同的应用场景中替代欧氏距离。

后文均以欧氏距离讲解。

聚合准则（合并策略）：

单链聚类：在此方法中，两个簇之间的距离是簇中任意两个点之间的最小距离：
这种方法容易受到离群点的影响。
全链聚类：在此方法中，两个簇之间的距离是簇中任意两个点之间的最大距离：
这种方法产生的簇较为紧凑，较不容易出现离群点。
均值链接：计算簇之间所有点对的平均距离：
这种方法是单链和全链的折中。
Ward法：该方法基于簇内的方差来判断合并的方式，目标是最小化每次合并所增加的方差。两个簇合并后，新的簇的总方差是最小的。对于两个簇 A 和 B，计算合并后的簇的总方差，其公式为：

主要步骤：

计算所有数据点之间的欧式距离。
将每个数据点作为一个独立的簇。
计算簇间的距离（相似度），合并距离最近（最相似）的两个簇。(贪心算法)
重复步骤3，直到所有数据点都合并成一个簇或达到终止条件。
绘制树状图，观察不同簇合并的层次结构。

树状图可视化：

# 导包
import numpy as np
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import matplotlib.pyplot as plt

# 创建示例数据
np.random.seed(42)
data = np.random.rand(10, 2)  # 10个样本，2个特征

# Ward聚类准则为例，进行层次聚类
linkage_matrix = linkage(data, method='ward')  

# 3. 绘制树状图（Dendrogram）
plt.figure(figsize=(8, 4))
dendrogram(linkage_matrix)
plt.title('Dendrogram')
plt.xlabel('Sample Index')
plt.ylabel('Distance')
plt.show()

树状图怎么看？
这样看，第2个和第7个样本点，他们距离最近，合并为同一簇，接着到3和5，合并为同一簇，...。整一个树状图为一个由所以样本点构成的簇，我们根据需要进行划分为k个簇。比如我们在distance=1.1这里截断树状图，那么就划分为035，2789617两个簇；如果在distance=0.7这里截断树状图，就可以划分为035，2789，614三个簇。我们一般选择距离差较大的来划分，比如1.2和0.4之间相差很大，我们需要从这里截断。截断处理一般通过设置一个阈值实现，比如0.5，两个簇之间的距离超过0.5这个阈值就截断，即不再进行合并簇。

簇的数量的选择

情况1（固定需求）：如果我们任务需求已经确定要分为3个类别，就直接将簇的数量设置为3个簇，不需要可视化树状图，默认按最佳划分直接得出分类结果。

情况2（不知道分几类）：我们不知道要分为几个类别时，就需要根据树状图分析，选择合适的阈值进行划分。

我们看代码实现：

# 或根据指定的簇数量分割（情况1）
num_clusters = 2
labels_by_cluster = fcluster(linkage_matrix, t=num_clusters, criterion='maxclust')

# 根据距离阈值分割（情况2）
threshold = 0.5  
labels = fcluster(linkage_matrix, t=threshold, criterion='distance')

# 输出聚类结果
print("基于簇数量的聚类结果:", labels_by_cluster)
print("基于距离阈值的聚类结果:", labels)

# 输出如下：
# 基于簇数量的聚类结果: [1 2 2 1 2 1 2 2 2 2]
# 基于距离阈值的聚类结果: [1 3 2 1 3 1 4 2 2 2]