资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

倾向性得分匹配(PSM)详解：原理、步骤与应用案例

创作时间:

作者:

@小白创作中心

倾向性得分匹配(PSM)详解：原理、步骤与应用案例

引用

来源

https://juejin.cn/post/7372393716092698675

在数据分析和因果推断领域，倾向性得分匹配（PSM）是一种常用的方法，特别是在无法进行AB实验或AB实验效果不佳的情况下。本文将详细介绍PSM的基本原理、实现步骤以及实际应用案例，帮助读者理解如何使用PSM来准确评估干预效果。

一、背景

1. 混淆变量对因果推断产生干扰

因果推断的目标是测算干预对结果产生的真实影响，即干预效果。然而，在很多情况下，混淆变量的存在会干扰因果推断的准确性。

案例1：学历对收入的影响

现象：高学历人群收入更高
问题：能否说明学历对收入有正面影响？
不能，也许是更强的能力同时导致了高学历及高收入，学历本身并不提升收入

案例2：服用药物对死亡率的影响

现象：服药人群死亡率更高
问题：能否说明药物导致了更高的死亡率？
不能，也许是更大的年龄的同时导致了更高的服药率和更高的死亡率，服药本身对死亡率的影响未知

案例3：参与活动对完单量的影响

现象：参与活动的人群完单量更高
问题：能否说明活动促进了用户完单？
不能，也许是更强的完单需求导致了更高的活动参与率和活动期间的完单量，活动本身并未促进完单

以上案例中，「能力、年龄、完单需求」为混淆变量（Confounders），指对干预（Treatment：学历，药物，活动）和结果（Outcome：收入、死亡率、完单量）同时产生影响的变量。混淆变量的存在导致「干预和结果的相关关系」（或干预样本和未干预样本的差异）无法代表「干预和结果的因果关系」。想要获得准确的因果关系，需要剔除混淆变量的干扰。

2. 如何剔除混淆变量干扰？

需要“阻断”混淆变量对干预的影响，使混淆变量和干预从相关变为不相关/正交，进而准确测量干预效果。

2.1 AB实验——最有效
例如，通过进行关于药物的随机试验，是否用药便和年龄或其他混淆变量无关了（阻断了年龄等混淆变量对是否用药这一干预的影响），从而得出药物对死亡率的真实影响。AB实验能最有效地剔除混淆变量的干扰，是因果推断的黄金准则。

2.2 非AB实验——当无法进行AB实验或AB实验不够有效
场景

无法进行AB实验：如学历和收入，这种场景无法无法进行AB实验
实验无法有效评估干预效果：即便有AB实验，实验组也可能因用户“不依从”（Non-Compliance，例如虽然对实验组用户开放了某个功能，但实验组用户不一定都会去使用），导致只有少数用户真正受到干预（干预覆盖率低），干预即使对这部分用户有效，但从整体看效果往往不显著

方法
匹配：以药物-死亡率的案例为例，一种很自然的想法是比较不同年龄层内服药和死亡率的关系，每个年龄层内相对同质。这其实是一种匹配（Matching），即将同质（混淆变量近似）样本放到一起比较，避免因不同质而不可比。通过这种方式阻断了年龄对服药的影响

年龄	不服药死亡率	服药死亡率
20	1‱	0.8‱
21	1.2‱	1.1‱
22	1.4‱	1.2‱
...	...	...
59	2.5‱	2.1‱
60	3.1‱	2.8‱

倾向性得分匹配（Propensity Score Matching）：PSM是一种使用倾向性得分进行匹配的因果推断方法，由Paul R. Rosenbaum和Donald Rubin两位统计学家在1983年首次提出，可以降低或消除混淆变量的干扰，从而更准确地测算干预的效果

二、整体框架

1. 倾向性得分计算

建立机器学习模型，模型预测每个样本“受干预概率”（Propensity Score），即倾向性得分

2. 样本匹配

匹配：为「受干预样本」寻找倾向性得分接近的「未受干预样本」
检验匹配样本同质性

3. 干预效果计算

对比匹配样本差异，计算干预效果

三、使用步骤

TTT: 受干预样本集合，以下简称干预组
CCC: 未受干预样本集合，以下简称空白组
: 第i个受干预的样本
: 第i个未受干预的样本
: 配对的受干预样本
:配对的未受干预样本

1. 倾向性得分计算

Y：关注的结果指标，如单量、GTV
X：混淆变量集合，同时也是模型特征。数据时间需要在T发生之前
T：是否受到干预，1-是，0-否

1.1 构建模型
样本：
特征：需要尽可能包含所有对 T 和 Y 都有重要影响的混淆变量（X）
标签：样本是否受到干预（T：1-受到干预，0-未受干预）

年龄（X1）	性别（X2）	区域（X3）	...	是否服药（T）
21	男	广东	...	1
34	女	河北	...	1
...	...	...	...	...
25	女	上海	...	0

a. 样本筛选：
如果是观察性数据（无AB实验），则使用所有样本
如果是AB实验数据，则只使用实验组数据（因为对照组无法受到干预，如果包含对照组数据，则会导致模型学习到有偏的 X 和 T 的因果关系）

b. 模型训练：
以X为自变量，T为因变量，训练二分类模型（如逻辑回归、Xgb等）
模型效果要求: 没有明确要求。PSM的最终目标并非训练一个AUC很高的模型，模型的预测结果是为下一步的匹配服务的，关键在于匹配的样本是否同质

1.2 倾向性得分输出：
使用模型预测所有样本的受干预概率，这个概率就是倾向性得分

2. 匹配

匹配：从空白组中为干预组样本匹配倾向性得分接近的样本
以最常用的卡尺最邻近匹配（Nearest Neighbor Caliper Matching）为例，过程为：对每个干预组样本，从空白组中寻找一个（通常为一个，但也可以是多个）与其倾向性得分最接近的样本，且两者差异小于某阈值

倾向性得分∈[0，1]，下面例子为了表述方便没有做这一限制

2.1 卡尺最近邻匹配
根据使用细节的不同有以下细分类型：

是否能重复和多个匹配：
否：不重复抽样（without replacement），更常用
是：可重复抽样（with replacement）
与几个产生匹配：
1个：1对1匹配（one-to-one matching），更常用
大于1个：1对多匹配（one-to-many matching）

此外，还有一些其他匹配算法（相对不常用），如核函数匹配、半径内匹配等。

2.2 匹配的偏差与方差
不同算法的主要差异在于匹配到的空白组样本数量的多少。一般来说，匹配到的空白组样本越多，Bias（估计值和实际值的系统性偏差）越大，Variance（估计值本身的波动）越小

Bias小，Variance大	Bias大，Variance小
卡尺最近邻匹配、最近邻匹配、全局最优匹配	半径内匹配、核函数匹配、局部线性匹配、分层匹配
是否重复抽样	是
匹配个数	1对1匹配