K-means聚类的最优K值选取方法详解

创作时间:

作者:

@小白创作中心

K-means聚类的最优K值选取方法详解

引用

CSDN

https://blog.csdn.net/weixin_51484460/article/details/139484677

在机器学习领域，K-means聚类是一种广泛使用的无监督学习方法，其核心目标是将数据集划分为K个簇，使得簇内样本相似度高，而不同簇之间的样本相似度低。然而，选择合适的K值（即聚类数）对于聚类结果至关重要。本文将探讨几种确定最优K值的方法，包括肘部法则、轮廓系数法、Gap统计量和交叉验证方法。

一、肘部法则（Elbow Method）

肘部法则是一种直观的方法，通过绘制WCSS（簇内误差平方和）与K值的关系图来确定最优K值。随着K值的增加，WCSS通常会下降，然后在某个点之后下降速度会显著减慢，形成一个“肘部”。这个点通常被认为是最优K值。

手肘法的核心指标是SSE（误差平方和），其核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。

以下是使用Python实现肘部法则的代码示例：

import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

df_features = pd.read_csv(r'C:\预处理后数据.csv',encoding='gbk') # 读入数据
'利用SSE选择k'
SSE = []  # 存放每次结果的误差平方和
for k in range(1,9):
    estimator = KMeans(n_clusters=k)  # 构造聚类器
    estimator.fit(df_features[['R','F','M']])
    SSE.append(estimator.inertia_)
X = range(1,9)
plt.xlabel('k')
plt.ylabel('SSE')
plt.plot(X,SSE,'o-')
plt.show()

二、轮廓系数法

轮廓系数是一种评估样本聚类质量的指标，它综合考虑了样本与其簇内其他样本的距离以及与最近簇样本的距离。轮廓系数的值范围在-1到1之间，值越大表示样本聚类效果越好。

轮廓系数由以下两部分组成：

簇内凝聚度（a）：对于每个样本点，它计算了该样本与其簇内所有其他样本的平均距离。
簇间分离度（b）：对于每个样本点，它计算了该样本与最近簇中所有样本的平均距离。

以下是使用Python实现轮廓系数法的代码示例：

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成模拟数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 计算不同K值的轮廓系数
silhouette_scores = []
K_max = 15
for k in range(2, K_max):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    score = silhouette_score(X, kmeans.labels_)
    silhouette_scores.append(score)

# 绘制轮廓系数与K值的关系图
plt.plot(range(2, K_max), silhouette_scores, marker='o')
plt.title('Silhouette Coefficients')
plt.xlabel('Number of clusters')
plt.ylabel('Average silhouette score')
plt.show()

三、Gap统计量

Gap统计量基于以下假设：如果聚类是有意义的，那么数据集中的样本点应该比随机数据更紧密地聚集在一起。因此，Gap统计量计算了实际数据集的WCSS与随机数据集WCSS的期望值之间的差异。

以下是使用Python实现Gap统计量的代码示例：

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from scipy.spatial.distance import cdist
import numpy as np

# 生成模拟数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 定义函数来计算WCSS
def compute_wcss(X, kmeans):
    kmeans.fit(X)
    return kmeans.inertia_

# 定义函数来计算Gap统计量
def calculate_gap(X, K_range, B=10):
    gaps = []
    for k in K_range:
        kmeans = KMeans(n_clusters=k, init='k-means++', random_state=0)
        wcss_actual = compute_wcss(X, kmeans)
        
        wcss_reference = []
        for _ in range(B):
            X_reference = np.random.rand(X.shape[0], X.shape[1])
            kmeans_reference = KMeans(n_clusters=k, init='k-means++', random_state=0)
            wcss_reference.append(compute_wcss(X_reference, kmeans_reference))
        
        wcss_reference_mean = np.mean(wcss_reference)
        gap = np.log(wcss_actual) - np.log(wcss_reference_mean)
        gaps.append(gap)
    
    return gaps

# 计算Gap统计量
K_range = range(2, 15)
gaps = calculate_gap(X, K_range)

# 选择最优K值
optimal_K = np.argmax(gaps) + 2  # 加2是因为K_range从2开始
print(f"Optimal number of clusters (K): {optimal_K}")

四、交叉验证方法

交叉验证聚类的基本思想是将数据集分成多个部分，然后在一个部分上进行聚类，同时在其他部分上评估聚类的质量。这可以通过轮廓系数或其他聚类质量指标来实现。

以下是使用Python实现交叉验证方法的代码示例：

from sklearn.cluster import KMeans
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import silhouette_score
from sklearn.datasets import make_blobs
import numpy as np

# 生成模拟数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 定义交叉验证函数
def cross_validate_clustering(X, K_range, n_splits=5):
    silhouette_scores = []
    skf = StratifiedKFold(n_splits=n_splits)
    
    for k in K_range:
        score = 0
        for train_index, test_index in skf.split(X, X):
            X_train, X_test = X[train_index], X[test_index]
            kmeans = KMeans(n_clusters=k, random_state=0)
            kmeans.fit(X_train)
            score += silhouette_score(X_test, kmeans.labels_)
        silhouette_scores.append(score / n_splits)
    
    return silhouette_scores

# 计算交叉验证轮廓系数
K_range = range(2, 15)
scores = cross_validate_clustering(X, K_range)

# 选择最优K值
optimal_K = np.argmax(scores) + 2  # 加2是因为K_range从2开始
print(f"Optimal number of clusters (K): {optimal_K}")

通过以上四种方法，我们可以更准确地选择K-means聚类中的最优K值，从而获得更好的聚类效果。

热门推荐

如何查到外刊论文数据库