问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习模型解释利器:SHAP方法原理与应用详解

创作时间:
作者:
@小白创作中心

机器学习模型解释利器:SHAP方法原理与应用详解

引用
1
来源
1.
https://www.bilibili.com/read/mobile?id=36392177

SHAP(SHapley Additive exPlanations)方法是一种用于解释机器学习模型预测结果的重要工具。它基于合作博弈论中的Shapley值理论,能够为每个特征对模型预测结果的贡献度提供量化解释。本文将详细介绍SHAP方法的基本原理、应用场景以及如何解读其可视化结果。

为什么需要研究SHAP值?

树模型虽然自带特征重要性(feature importance)指标,但这些指标存在以下局限性:

  • 无法区分特征与目标变量之间的正相关和负相关关系
  • 忽略了特征之间的交互影响
  • 无法解释特征对个体样本的具体影响

SHAP值的基本概念

SHAP值表示第 i 个样本的第 j 个特征对这个样本的预测值 y_i 的贡献度。具体来说:

  • SHAP值 > 0:该特征的取值提升了样本的预测值
  • SHAP值 < 0:该特征的取值降低了样本的预测值

在多分类问题中,由于模型预测的是属于各个类别的可能性,因此实际上需要分析多个 y_i。

SHAP方法的数学基础

SHAP方法属于加性特征归因方法(Additive Feature Attribution Method),其基本公式如下:

其中:

  • M 个特征 x_i 建立的原始预测模型用 f(x_i) 表示
  • 解释模型用 g(x) 表示
  • φ_0 是基线值,通常取所有样本预测值的平均值
  • φ_i_j 是样本 i 的指标 j 的SHAP值

SHAP方法的可视化结果

1. 力图(Force Figure)

力图用于展示单个样本的特征贡献度。特征按照影响大小排序,正向影响用红色表示,负向影响用蓝色表示。

2. SHAP概述图(SHAP Summary Plot)

SHAP概述图展示了所有样本的特征贡献度分布。横轴表示SHAP值,纵轴表示特征。每个点代表一个样本的特征贡献度。

3. 部分依赖图(Partial Dependence Figure)

部分依赖图用于展示特征对预测结果的影响趋势。横轴表示特征值,纵轴表示预测值。

实际案例分析

1. 术中低氧血症预测

在一篇医学研究中,研究人员使用梯度提升机(Gradient Boosting Machine, GBM)模型预测术中低氧血症。通过SHAP分析发现:

  • 低潮气量(tidal volume)会增加低氧血症风险
  • 身高-体重比值也是重要影响因素

2. 黄金价格预测

在一篇基于XGBoost的黄金价格预测论文中,研究人员发现:

  • 在原油价格较低时,提高USD_CNY可以减小黄金价格上涨的可能性
  • SP_500和通货膨胀处于高值时,容易导致黄金价格上涨

结论

SHAP方法通过量化特征对模型预测结果的贡献度,为机器学习模型的可解释性提供了有力支持。通过可视化工具,研究人员可以直观地理解模型决策过程,从而提高模型的可信度和透明度。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号