因果推断总结
创作时间:
作者:
@小白创作中心
因果推断总结
引用
CSDN
1.
https://blog.csdn.net/china1000/article/details/125965710
因果推断是基于统计学方法刻画变量之间的因果关系。因果关系存在三个层级:
- 第一层级(关联):从数据中观察到哪些相关规律?是对历史数据的总结。
- 第二层级(干预):如果采取某个行动,会产生什么结果?是面向未来的推测。
- 第三层级(反事实):如果当时采取了另外一个行动,结果会是怎样?是面向过去的反思。
目前大部分机器学习模型还处在第一层级,仅仅实现了对历史数据的“曲线拟合”,这就导致:一是解释性差,拟合背后的作用机理处于黑盒状态;二是泛化性差,拟合得到规律只适用于训练数据。而因果推断方法能让我们站上第二、三层级,从而实现更好的解释性和泛化性,这也是因果推断在机器学习领域逐步兴起的一大原因。
因果推断的三个假设
- 稳定个体干预值假设(Stable Unit Treatment Value Assumption, SUTVA):即任意个体的潜在结果都不会因其他个体的干预发生改变而改变,且对于每个个体,其所接受的每种干预不存在不同的形式或版本,不会导致不同的潜在结果。
- 无混淆假设(Unconfoundedness):即给定特征变量X ,分配哪个Treatment独立于潜在结果,记为(Y0 ,Y1 ) ⊥ T | X,它等价于不存在观测不到的混淆因子。
- 正值假设(Positivity):即对于任意值的X ,Treatment的分配都不是确定的,即Treatment各种取值都能有一定量的观察数据。
因果性的常见谬误
- 伪关系:伪回归指的是自变量和因变量之间本来没有任何因果关系,但由于某种原因,回归分析却显示出它们之间存在统计意义上的相关性,让人错误地认为两者之间有关联,这种相关性称作伪关系(spurious relationship)。例如:吸烟导致肺癌;原因:存在干扰因素/两个变量之间存在局部随机趋势
- 幸存者偏差/选择偏差:幸存者偏差指的是只看到经过某种筛选之后的结果,忽略关键信息。例如:二战中,是否要加强飞机弹孔部位
- 遗漏变量偏差:遗漏某一重要变量,导致人们认为两者存在相关关系(可以理解为伪关系+幸存者偏差)。例如:夏天冰激淋销量上升,意外淹死的人也很多,是冰激淋导致更多人淹死吗?遗漏了天气的影响,天气变热会导致吃冰激淋的人变多和玩水的人变多
- 反向因果:反向因果关系是指与常见假设相反的因果方向或循环中的双向因果关系。例如:犯罪率高的城市警察也多,是否警察多导致犯罪率高,还是犯罪率高导致警察多?
因果推断偏差原因
事实上不存在平行时空,我们不能同时对一个群体既施加干预又不施加干预,而只能观察到其中的一种情况,对于未观察的情况我们称之为反事实的(Counterfactual)。理论上,可以通过随机控制实验(Random Control Trial,RCT)来解决这个问题:将群体随机分成两组,一组施加干预(实验组),另一组不施加干预(控制组/对照组)。这种方法称为实验性研究,广泛应用的AB实验方法其实就是同样的思路。
- 混杂偏差:同时对Treatment和结果有影响的因素叫混杂因子(Confounder),它的存在会导致偏差。消除混杂偏差的方法是将混杂因子控制住,再去度量Treatment和结果的关系。
- 选择偏差:不管是实验性研究还是观察性研究,评估通常都是在一个筛选出来的样本子集上进行,如果样本子集不能代表总体,则会导致选择偏差(或称样本偏差)。
因果推断的两种流派
- 结构因果模型(SCM, Structural causal model):大概思路是说通过一个有向无环图 表达因果关系,每个节点的值(准确说是内生节点)都可以通过一个关于其父节点的函数计算获得,从而得知干预某个节点(treatment)对目标节点(outcome)的影响(treatment effect)。
- 潜在结果框架(Potential outcomes framework):大概思路是认为每个观测到的样本在平行世界里都存在着另一个事实对应着另一个可能,称为潜在结果(Potential outcome)。只要把潜在的结果计算出来,跟观测到的结果进行对比(相减),就知道两种选择(做干预、不做干预)的区别了。
因果推断前提假设
- 稳定个体干预值假设(Stable Unit Treatment Value Assumption, SUTVA)
- 无混淆假设(Unconfoundedness)
- 正值假设(Positivity)
因果推断的流程
- 数据类型:观测数据、随机实验数据、观测数据+随机实验数据
- 去偏差
- 混淆偏差:PSM/IPW、DML(双重机器学习)、DRL(双重稳健学习)、SCM(因果图模型)
- 选择偏差:Reweighting、去除混淆因子
- 先验信息:可选
- 模型选择
- ITE:Meta learner(S-learner/T-learner/X-learner)、Tree based
- ATE:
- 弹性保序
- 评估方法
- 去偏评估:SMD
- 平稳性检查:SMD 的一种计算方式为:(实验组均值 - 对照组均值)/ 实验组标准差。一般如果一个变量的 SMD 不超过 0.2,一般就可以认为这个变量的配平质量可以接受。当一个变量的 SMD 超过 0.2 的时候,需要凭经验确认一下那个变量是不是没有那么重要。
- 模型评估:Qini Curve、AUUC
- 准确程度指标:Bias、MAE、RMSE
- 因果敏感度分析:安慰实验、添加未观察常识原因
因果推断常用方法
- re-weighting methods(IPW)
- stratification methods(分层)
- matching methods(匹配)
- tree based methods
- Casual Forest:因果推断最小化分裂点内部的uplift 差值,最大化各分裂点内部的 uplift 差值。同时引入诚实树主要是为了解决传统决策树或随机森林(Casual Forest)模型中可能存在的过拟合问题,并增强模型的泛化能力和可信度。
- 连续因果森林:有如下假设:
- 单调性:价格越高,需求越低 ;
- 局部线性:在局部价格区间内,价格与需求呈线性关系。
可以证明(https://z.didi.cn/CAPE),上述公式等价于Y对W和做简单线性回归后得到的斜率系数。通过将CAPE代替CATE作为节点统计值用作树分裂,我们就实现了通过单一模型估计多元/连续处理效应。
- representation based methods:通过学习一种新的表示来减少协变量不平衡的影响。
- multi-task methods
- meta-learning methods
- S-learner:直接把treatment作为特征放进模型来预测。
- T-learner:先对于 T=0 的control组和 T=1 的treatment组分别学习一个有监督的模型。
- X-learner:类似上一个,先对于 T=0 的control组和 T=1 的treatment组分别学习一个有监督的模型。然后基于反事实结果计算。
因果推断评估方法
- AUUC就是Uplift Curve下的面积,Qini coefficient 就是 Qini Curve下的面积,面积越大越好。
qini指数
Qini Curve在实际情况中通常会比Uplift Curve更好。 qini指数对实验组对照组干预样本数目做了缩放。 - ATE
工具和开源项目
- 微软的:dowhy
- 开源项目:CasualLM
热门推荐
被打人医药费怎么办?一文详解法律赔偿范围
知识库的内容审核流程是怎样的
大力提振消费增强扩内需动力
绝地求生电脑硬件要求高吗?如何优化配置以满足游戏需求?
推荐5款减脂家常菜,地址低卡,营养全面
200ml等于多少g?精准换算方法一览
深度挖掘:金融数据分析在风险管理中的应用
数字化时代下IP内容体系的构建:策略与实践
土地使用证办理后土地权属纠纷如何处理?
冰糖葫芦制作方法全过程 冰糖葫芦的功效和作用禁忌
比特币交易中涉及的证券法规
农村宅基地查询指南及过户手续费详解
零拒签必看!新西兰旅游签证如何申请?
汽车百科:长途驾驶全攻略
必知!六个科学饮食习惯助力健康减肥
全身中毒症状定义
如何计算股票的风险溢价?这种计算在投资分析中有何作用?
益卦之九五:有孚惠心,勿问,元吉;有孚惠我德
智慧生活趋势:科技如何打造更便捷的未来
爱出头是什么生肖 喜欢出风头的生肖
经常喝番泻叶有副作用吗
专家解读:真性近视能否通过中医敷药和按摩提升视力?
2025年洛阳牡丹文化节:以"花YOUNG洛阳城"为主题,推出多项特色活动
重庆低压电工证怎么考?电工证报名注意事项
孙悟空的真实战力到底有多强?不要被影视剧误导了!
《魔兽世界》大秘境职业专精排行:惩戒圣骑士以绝对优势领跑
王者永恒钻石段位介绍 王者荣耀永恒钻石属于什么水平
高饱腹低热量的食物有哪些
认定工伤与视同工伤区别
蛇毒,既是致命毒药,也是救命良药丨蛇年说蛇