因果推断总结
创作时间:
作者:
@小白创作中心
因果推断总结
引用
CSDN
1.
https://blog.csdn.net/china1000/article/details/125965710
因果推断是基于统计学方法刻画变量之间的因果关系。因果关系存在三个层级:
- 第一层级(关联):从数据中观察到哪些相关规律?是对历史数据的总结。
- 第二层级(干预):如果采取某个行动,会产生什么结果?是面向未来的推测。
- 第三层级(反事实):如果当时采取了另外一个行动,结果会是怎样?是面向过去的反思。
目前大部分机器学习模型还处在第一层级,仅仅实现了对历史数据的“曲线拟合”,这就导致:一是解释性差,拟合背后的作用机理处于黑盒状态;二是泛化性差,拟合得到规律只适用于训练数据。而因果推断方法能让我们站上第二、三层级,从而实现更好的解释性和泛化性,这也是因果推断在机器学习领域逐步兴起的一大原因。
因果推断的三个假设
- 稳定个体干预值假设(Stable Unit Treatment Value Assumption, SUTVA):即任意个体的潜在结果都不会因其他个体的干预发生改变而改变,且对于每个个体,其所接受的每种干预不存在不同的形式或版本,不会导致不同的潜在结果。
- 无混淆假设(Unconfoundedness):即给定特征变量X ,分配哪个Treatment独立于潜在结果,记为(Y0 ,Y1 ) ⊥ T | X,它等价于不存在观测不到的混淆因子。
- 正值假设(Positivity):即对于任意值的X ,Treatment的分配都不是确定的,即Treatment各种取值都能有一定量的观察数据。
因果性的常见谬误
- 伪关系:伪回归指的是自变量和因变量之间本来没有任何因果关系,但由于某种原因,回归分析却显示出它们之间存在统计意义上的相关性,让人错误地认为两者之间有关联,这种相关性称作伪关系(spurious relationship)。例如:吸烟导致肺癌;原因:存在干扰因素/两个变量之间存在局部随机趋势
- 幸存者偏差/选择偏差:幸存者偏差指的是只看到经过某种筛选之后的结果,忽略关键信息。例如:二战中,是否要加强飞机弹孔部位
- 遗漏变量偏差:遗漏某一重要变量,导致人们认为两者存在相关关系(可以理解为伪关系+幸存者偏差)。例如:夏天冰激淋销量上升,意外淹死的人也很多,是冰激淋导致更多人淹死吗?遗漏了天气的影响,天气变热会导致吃冰激淋的人变多和玩水的人变多
- 反向因果:反向因果关系是指与常见假设相反的因果方向或循环中的双向因果关系。例如:犯罪率高的城市警察也多,是否警察多导致犯罪率高,还是犯罪率高导致警察多?
因果推断偏差原因
事实上不存在平行时空,我们不能同时对一个群体既施加干预又不施加干预,而只能观察到其中的一种情况,对于未观察的情况我们称之为反事实的(Counterfactual)。理论上,可以通过随机控制实验(Random Control Trial,RCT)来解决这个问题:将群体随机分成两组,一组施加干预(实验组),另一组不施加干预(控制组/对照组)。这种方法称为实验性研究,广泛应用的AB实验方法其实就是同样的思路。
- 混杂偏差:同时对Treatment和结果有影响的因素叫混杂因子(Confounder),它的存在会导致偏差。消除混杂偏差的方法是将混杂因子控制住,再去度量Treatment和结果的关系。
- 选择偏差:不管是实验性研究还是观察性研究,评估通常都是在一个筛选出来的样本子集上进行,如果样本子集不能代表总体,则会导致选择偏差(或称样本偏差)。
因果推断的两种流派
- 结构因果模型(SCM, Structural causal model):大概思路是说通过一个有向无环图 表达因果关系,每个节点的值(准确说是内生节点)都可以通过一个关于其父节点的函数计算获得,从而得知干预某个节点(treatment)对目标节点(outcome)的影响(treatment effect)。
- 潜在结果框架(Potential outcomes framework):大概思路是认为每个观测到的样本在平行世界里都存在着另一个事实对应着另一个可能,称为潜在结果(Potential outcome)。只要把潜在的结果计算出来,跟观测到的结果进行对比(相减),就知道两种选择(做干预、不做干预)的区别了。
因果推断前提假设
- 稳定个体干预值假设(Stable Unit Treatment Value Assumption, SUTVA)
- 无混淆假设(Unconfoundedness)
- 正值假设(Positivity)
因果推断的流程
- 数据类型:观测数据、随机实验数据、观测数据+随机实验数据
- 去偏差
- 混淆偏差:PSM/IPW、DML(双重机器学习)、DRL(双重稳健学习)、SCM(因果图模型)
- 选择偏差:Reweighting、去除混淆因子
- 先验信息:可选
- 模型选择
- ITE:Meta learner(S-learner/T-learner/X-learner)、Tree based
- ATE:
- 弹性保序
- 评估方法
- 去偏评估:SMD
- 平稳性检查:SMD 的一种计算方式为:(实验组均值 - 对照组均值)/ 实验组标准差。一般如果一个变量的 SMD 不超过 0.2,一般就可以认为这个变量的配平质量可以接受。当一个变量的 SMD 超过 0.2 的时候,需要凭经验确认一下那个变量是不是没有那么重要。
- 模型评估:Qini Curve、AUUC
- 准确程度指标:Bias、MAE、RMSE
- 因果敏感度分析:安慰实验、添加未观察常识原因
因果推断常用方法
- re-weighting methods(IPW)
- stratification methods(分层)
- matching methods(匹配)
- tree based methods
- Casual Forest:因果推断最小化分裂点内部的uplift 差值,最大化各分裂点内部的 uplift 差值。同时引入诚实树主要是为了解决传统决策树或随机森林(Casual Forest)模型中可能存在的过拟合问题,并增强模型的泛化能力和可信度。
- 连续因果森林:有如下假设:
- 单调性:价格越高,需求越低 ;
- 局部线性:在局部价格区间内,价格与需求呈线性关系。
可以证明(https://z.didi.cn/CAPE),上述公式等价于Y对W和做简单线性回归后得到的斜率系数。通过将CAPE代替CATE作为节点统计值用作树分裂,我们就实现了通过单一模型估计多元/连续处理效应。
- representation based methods:通过学习一种新的表示来减少协变量不平衡的影响。
- multi-task methods
- meta-learning methods
- S-learner:直接把treatment作为特征放进模型来预测。
- T-learner:先对于 T=0 的control组和 T=1 的treatment组分别学习一个有监督的模型。
- X-learner:类似上一个,先对于 T=0 的control组和 T=1 的treatment组分别学习一个有监督的模型。然后基于反事实结果计算。
因果推断评估方法
- AUUC就是Uplift Curve下的面积,Qini coefficient 就是 Qini Curve下的面积,面积越大越好。
qini指数
Qini Curve在实际情况中通常会比Uplift Curve更好。 qini指数对实验组对照组干预样本数目做了缩放。 - ATE
工具和开源项目
- 微软的:dowhy
- 开源项目:CasualLM
热门推荐
牙疼没有药怎么止疼
坏情绪正在摧毁你的胃肠道!中医专家解析情绪与肠胃健康的关系及缓解方法
项目管理过程五个阶段的具体内容:从启动到收尾的详细解析
俄语外贸网站推广:Yandex SEO怎么做
直饮水免费使用合同条款解读:让用户放心享受健康水源
属牛与属虎的相性分析:传统生肖的奇妙碰撞
得了甲流别硬扛,收好奥司他韦用药指导
抗流感药物选择,奥司他韦为何仍占据全球抗流感治疗C位?
如何通过长期投资实现盈利?长期投资的策略有哪些潜在风险?
莫德里奇首发危机?皇马队长的传奇生涯是否接近尾声?
财产继承中的配偶权利如何保障
人体最大心率:概念、计算方法及运动应用
软件项目甲方如何做好需求管理
AI能让农作物重回“儿时的味道”吗?
学统计学可以做什么?就业方向与薪资水平解析
如何设置股票的技术分析指标
如何练习计算机二级C语言操作题:从基础到实战的全面指南
什么是股票大涨?股票大涨的原因有哪些?
A股爆发!时隔14年货币政策再提“适度宽松”,如何影响股债市?
设计师必备:将复杂逻辑做成可视化图表,别说你不会,看过来。
UX设计之概念设计
培训合同条款目的:确保双方权益与培训效果的明确约定
GIS究竟是什么,常见的GIS工具都有哪些?五分钟带你了解
“美式价值”的底层逻辑
如何辨别头痛的原因
电影《倒仓》:国粹青春物语里的成长与选择
Excel制作赛程图的完整指南:从基础到高级应用
2025.03.12马竞vs皇马数据前瞻
不死鸟有哪些特点?为什么寿命很长?是如何灭绝的呢?
全面解析:AI脚本插件多样化功能类型与实际应用场景