2025机器学习热门方向：SHAP可解释性+聚类分析

创作时间:

作者:

@小白创作中心

引用

CSDN

https://blog.csdn.net/d22800/article/details/145610568

SHAP（SHapley Additive exPlanations）可解释性与聚类分析的结合是当前机器学习可解释性研究的热门方向之一。这种结合不仅能深入理解模型的决策过程，还能通过聚类揭示数据中的潜在模式，进一步提升模型的可解释性和性能。

以下是精选的四篇相关论文：

标题：
Shapley-based Explainable AI for Clustering Applications in Fault Diagnosis and Prognosis
基于Shapley值的可解释人工智能在故障诊断和预测中的聚类应用

方法：

Shapley值分析：利用Shapley值对特征贡献进行量化，为聚类提供解释性支持。
UMAP降维：通过Uniform Manifold Approximation and Projection技术将高维数据降维到低维空间，便于可视化和聚类。
HDBSCAN聚类：采用层次密度基空间聚类算法，自动确定聚类数量，有效处理噪声数据。
SkopeRules规则学习：学习高精度的决策规则，用于描述聚类结果，提升聚类的可解释性。

创新点：

半监督聚类扩展：首次将Shapley值应用于半监督聚类问题，解决了传统聚类方法在处理不平衡数据集时的局限性。在半导体制造案例中，与完全无监督聚类相比，半监督Shapley聚类将未聚类样本比例从2%-7%降低到0.1%。
高精度决策规则：通过SkopeRules生成的决策规则能够以超过0.85的精确度描述16个故障簇中的12个，显著提升了聚类结果的可解释性。
性能提升：在PHM 2021数据挑战的案例中，基于Shapley值的聚类方法能够将健康和不健康的样本几乎完美分离，显著提高了聚类的准确性和可解释性。

标题：
Beyond explaining: XAI-based Adaptive Learning with SHAP Clustering for Energy Consumption Prediction
超越解释：基于XAI的自适应学习与SHAP聚类用于能源消耗预测

方法：

创新点：

自适应学习：通过SHAP聚类特性动态调整模型超参数，显著提高了模型对数据分布变化的适应性。在建筑能源消耗预测中，SCAL方法在测试集上的均方根误差（RMSE）比传统自适应超参数调整方法降低了0.05以上。
解释性增强：SHAP聚类不仅提高了模型性能，还提供了对模型决策过程的深入解释，帮助识别数据中的异常点和潜在问题。
跨领域适用性：该方法不仅适用于能源消耗预测，还在金融困境预测和电力消耗预测等其他领域展现了良好的适用性和性能提升。

标题：
K-SHAP: Policy Clustering Algorithm for Anonymous Multi-Agent State-Action Pair
K-SHAP：用于匿名多智能体状态-行为对的策略聚类算法

方法：

模仿学习（IL）：将问题建模为模仿学习任务，通过匿名状态-行为对学习一个能够模拟所有智能体行为的世界策略。
SHAP值计算：利用SHAP（SHapley Additive exPlanations）方法计算每个状态-行为对的特征贡献值，解释世界策略的决策过程。
聚类分析：通过K-Means算法对SHAP值进行聚类，识别出不同智能体策略对应的群体。
维度降维：使用UMAP（Uniform Manifold Approximation and Projection）对SHAP值进行降维，以便更好地进行聚类和可视化。

创新点：

匿名多智能体策略聚类：首次提出了一种能够处理匿名多智能体状态-行为对的策略聚类方法，解决了现有方法在处理匿名数据时的局限性。在模拟市场数据中，K-SHAP的性能比现有方法提高了约300%（以ARI和NMI衡量）。
SHAP值解释：通过SHAP值解释智能体行为，能够更好地揭示数据中的内在聚类结构，使得聚类结果更具解释性。在真实市场数据中，K-SHAP在Utility和Silhouette指标上均优于现有方法。
适应性与泛化能力：K-SHAP能够适应不同的市场环境和智能体策略，即使在只有部分标记数据的情况下也能有效工作。在多智能体合成数据中，K-SHAP在所有场景中均显著优于现有方法

标题：
Combining SHAP-driven Co-clustering and Shallow Decision Trees to Explain XGBoost
结合SHAP驱动的共聚类和浅决策树解释XGBoost

方法：

创新点：

全局解释与局部解释的结合：提出了一种新的全局解释方法，通过共聚类和浅决策树提供既准确又易于理解的解释。在20个真实世界数据集上的实验表明，XCCSHAP在保真度上与现有方法相当，但在解释的可读性（平均决策路径长度）上显著优于现有方法。
高保真度与高可读性的平衡：XCCSHAP在保真度和可读性之间取得了良好的平衡。与MaSDT相比，XCCSHAP在保真度上略低，但在可读性上显著更好；与XGBTA相比，XCCSHAP在可读性上显著更好，同时保真度相当。
计算效率与可扩展性：尽管SHAP值的计算较为耗时，但XCCSHAP通过优化算法和并行计算，能够在合理的时间内处理大规模数据集。在Adult数据集上，XCCSHAP的运行时间比XGBTA快了近100倍。

热门推荐