2025机器学习热门方向:SHAP可解释性+聚类分析
创作时间:
作者:
@小白创作中心
2025机器学习热门方向:SHAP可解释性+聚类分析
引用
CSDN
1.
https://blog.csdn.net/d22800/article/details/145610568
SHAP(SHapley Additive exPlanations)可解释性与聚类分析的结合是当前机器学习可解释性研究的热门方向之一。这种结合不仅能深入理解模型的决策过程,还能通过聚类揭示数据中的潜在模式,进一步提升模型的可解释性和性能。
以下是精选的四篇相关论文:
论文1
标题:
Shapley-based Explainable AI for Clustering Applications in Fault Diagnosis and Prognosis
基于Shapley值的可解释人工智能在故障诊断和预测中的聚类应用
方法:
- Shapley值分析:利用Shapley值对特征贡献进行量化,为聚类提供解释性支持。
- UMAP降维:通过Uniform Manifold Approximation and Projection技术将高维数据降维到低维空间,便于可视化和聚类。
- HDBSCAN聚类:采用层次密度基空间聚类算法,自动确定聚类数量,有效处理噪声数据。
- SkopeRules规则学习:学习高精度的决策规则,用于描述聚类结果,提升聚类的可解释性。
创新点:
- 半监督聚类扩展:首次将Shapley值应用于半监督聚类问题,解决了传统聚类方法在处理不平衡数据集时的局限性。在半导体制造案例中,与完全无监督聚类相比,半监督Shapley聚类将未聚类样本比例从2%-7%降低到0.1%。
- 高精度决策规则:通过SkopeRules生成的决策规则能够以超过0.85的精确度描述16个故障簇中的12个,显著提升了聚类结果的可解释性。
- 性能提升:在PHM 2021数据挑战的案例中,基于Shapley值的聚类方法能够将健康和不健康的样本几乎完美分离,显著提高了聚类的准确性和可解释性。
论文2
标题:
Beyond explaining: XAI-based Adaptive Learning with SHAP Clustering for Energy Consumption Prediction
超越解释:基于XAI的自适应学习与SHAP聚类用于能源消耗预测
方法:
- SHAP值计算:利用SHapley Additive exPlanations(SHAP)计算每个特征对模型预测的贡献值。
- SHAP聚类:基于SHAP值对数据进行聚类,识别出具有相似解释模式的子群体。
- 模型自适应调整:根据聚类结果调整模型的超参数,优化模型性能,同时减少过拟合风险。
- 质量指标评估:通过聚类数量、轮廓分数和噪声聚类的存在性等指标评估聚类质量。
创新点:
- 自适应学习:通过SHAP聚类特性动态调整模型超参数,显著提高了模型对数据分布变化的适应性。在建筑能源消耗预测中,SCAL方法在测试集上的均方根误差(RMSE)比传统自适应超参数调整方法降低了0.05以上。
- 解释性增强:SHAP聚类不仅提高了模型性能,还提供了对模型决策过程的深入解释,帮助识别数据中的异常点和潜在问题。
- 跨领域适用性:该方法不仅适用于能源消耗预测,还在金融困境预测和电力消耗预测等其他领域展现了良好的适用性和性能提升。
论文3
标题:
K-SHAP: Policy Clustering Algorithm for Anonymous Multi-Agent State-Action Pair
K-SHAP:用于匿名多智能体状态-行为对的策略聚类算法
方法:
- 模仿学习(IL):将问题建模为模仿学习任务,通过匿名状态-行为对学习一个能够模拟所有智能体行为的世界策略。
- SHAP值计算:利用SHAP(SHapley Additive exPlanations)方法计算每个状态-行为对的特征贡献值,解释世界策略的决策过程。
- 聚类分析:通过K-Means算法对SHAP值进行聚类,识别出不同智能体策略对应的群体。
- 维度降维:使用UMAP(Uniform Manifold Approximation and Projection)对SHAP值进行降维,以便更好地进行聚类和可视化。
创新点:
- 匿名多智能体策略聚类:首次提出了一种能够处理匿名多智能体状态-行为对的策略聚类方法,解决了现有方法在处理匿名数据时的局限性。在模拟市场数据中,K-SHAP的性能比现有方法提高了约300%(以ARI和NMI衡量)。
- SHAP值解释:通过SHAP值解释智能体行为,能够更好地揭示数据中的内在聚类结构,使得聚类结果更具解释性。在真实市场数据中,K-SHAP在Utility和Silhouette指标上均优于现有方法。
- 适应性与泛化能力:K-SHAP能够适应不同的市场环境和智能体策略,即使在只有部分标记数据的情况下也能有效工作。在多智能体合成数据中,K-SHAP在所有场景中均显著优于现有方法
论文4
标题:
Combining SHAP-driven Co-clustering and Shallow Decision Trees to Explain XGBoost
结合SHAP驱动的共聚类和浅决策树解释XGBoost
方法:
- SHAP值计算:计算训练数据实例的SHAP值,衡量每个特征对模型预测的贡献。
- 共聚类:基于SHAP值矩阵进行共聚类,优化特征和数据实例之间的关联强度。
- 浅决策树学习:为每个聚类的数据实例子集学习浅决策树,提供紧凑的决策路径作为解释。
创新点:
- 全局解释与局部解释的结合:提出了一种新的全局解释方法,通过共聚类和浅决策树提供既准确又易于理解的解释。在20个真实世界数据集上的实验表明,XCCSHAP在保真度上与现有方法相当,但在解释的可读性(平均决策路径长度)上显著优于现有方法。
- 高保真度与高可读性的平衡:XCCSHAP在保真度和可读性之间取得了良好的平衡。与MaSDT相比,XCCSHAP在保真度上略低,但在可读性上显著更好;与XGBTA相比,XCCSHAP在可读性上显著更好,同时保真度相当。
- 计算效率与可扩展性:尽管SHAP值的计算较为耗时,但XCCSHAP通过优化算法和并行计算,能够在合理的时间内处理大规模数据集。在Adult数据集上,XCCSHAP的运行时间比XGBTA快了近100倍。
热门推荐
养金鱼必备:高效过滤器+硝化细菌
金鱼健康大揭秘:松球病、穿孔病、白云病全解析!
新手养金鱼必踩的八大"致命"错误
北京爱栎教你冬季金鱼养殖技巧
太原龙城中医医院科普:肝腹水怎么消除 限制水的摄入很重要
摔伤康复吃啥?这些水果帮你加速恢复!
从柯文哲摔倒事件看肋骨骨折的治疗与康复
糖尿病患者控糖新招:全谷物大作战!
糖尿病晚餐主食新指南:全谷物杂粮成首选!
黄山五绝探秘:奇松、怪石、云海、温泉、冬雪。
浙江雷峰塔:传奇与美景并存之地
雷峰塔介绍,西湖边的传奇守望者!
危机情况下的卫生干预:红十字国际委员会的经验与实践
哈佛、哥大校长全辞职,美国大学反犹力量为什么这么强?
哈尔滨地铁3号线:探秘友谊宫站的中西合璧之美
亚冬会期间,乘地铁3号线打卡中华巴洛克
哈尔滨地铁3号线道里段8站开通!环线运营开启冰城交通新纪元
糖尿病患者如何健康饮酒?
特斯拉车主必看:充电系统故障解决指南
掌握这些技能,轻松应对电动车充电难题
驾考时该如何调整心态
长途驾车常感疲劳,科学的驾驶姿势你知道吗?
阿尔法:《影之诗》中的完美超人
探讨SVIP的含义及其在网络文化中的影响与价值
秋冬防眩晕,警惕BPPV发作!
眩晕症治疗新突破:从手术到VR训练,多种疗法助力患者重获平衡
百会穴:缓解眩晕的小妙招
徐福传说被DNA打破!揭秘日本祖先真相
晚餐时间决定你的血糖命运?
晚餐吃早点,血糖稳一点!