AAAI 2024 | 面向神经网络的全贝叶斯显著性检验方法
AAAI 2024 | 面向神经网络的全贝叶斯显著性检验方法
显著性检验是判断一个命题在给定观察数据下是否为真的重要工具。然而,传统的显著性检验方法在处理复杂非线性关系时存在局限性。针对这一问题,北航BIGSCity实验室的研究团队提出了面向神经网络的全贝叶斯显著性检验方法(nFBST),这是首次将深度神经网络引入显著性检验的研究工作。
引言
显著性检验可以用于判断一个命题在给定观察数据下是否为真,在许多科学领域得到了非常广泛的应用,比如社会科学、医药研究。例如,评估新的治疗方法或药物的疗效:第一步,进行临床试验,将接受新疗法治疗的患者与对照组的反应进行比较;第二步,显著性检验作为分析工具确定接受新疗法治疗后效果的改善是否显著,这为新疗法的评估提供了证据。
显著性检验的前提是要恢复出数据背后蕴含的分布关系,也即确定真实的数据生成模型,然后基于证明一个命题的正确性与否,对的不同假设也自然而然地衍生出了不同的显著性检验方法。然而,对的假设过于简单(比如线性关系)会使其不能很好地表示真实情况,而复杂的假设则又使推导检验统计量的理论分布形式变得非常困难。
近期,斯坦福大学团队提供了一种在非线性场景下进行显著性检验的解决方案,但它在计算检验统计量分布形式时仍面临困难(近似),而且只能解决有限的函数空间(实际应用时受限于单隐藏层神经网络)。
从另一方面考虑,现有的显著性检验方法只关注于对全局的检验,然而,一些全局成立/不成立的命题在局部仍可能不成立/成立(尤其在非线性假设下)。比如,临床试验表明一种药物对治疗癌症有效但却对某类人群不起作用。因此,显著性检验应该在总体分布和子群体分布分别验证命题的正确性。
为了更好地应对真实场景中复杂的数据类型,我们将深度神经网络引入显著性检验以建模非线性关系。我们从贝叶斯角度进行显著性检验以克服在复杂关系下计算检验统计量理论分布的困难,并提出了一种面向神经网络的全贝叶斯显著性检验方法,称为nFBST (neural FBST)。
在给定检验统计量之后,nFBST 可以通过比较该命题及其相反命题的后验概率来检验一个命题的正确性。我们可以对总体分布进行检验,也可以对子群体分布进行检验,这取决于我们对检验统计量的不同定义。此外,nFBST 是一个通用框架,可以选择不同的特征重要性度量进行扩展,比如 Grad-nFBST、LRP-nFBST、DeepLIFT-nFBST、LIME-nFBST。
我们的主要贡献可以总结为以下几点:
- 我们是首篇将深度神经网络引入显著性检验的工作,我们的方法通过贝叶斯的方式拟合检验统计量分布从而替代了复杂的理论推导,并且深度神经网络不需要对的形式做特定假设。
- 我们设计了面向神经网络进行全贝叶斯显著性检验的完整流程,它是一个通用的框架,可以选择不同的实现方式以及不同的特征重要性度量进行扩展,比如 Grad-nFBST、LRP-nFBST、DeepLIFT-nFBST、LIME-nFBST。
- 我们提出的nFBST 既可以解决全局的显著性检验问题,也可以解决之前方法所忽视的局部显著性检验,在非线性假设下,一个命题在全局和局部的表现可能并不一致。
- 我们进行了丰富的实验验证我们方法的优越性。
理论方法
频率学派显著性检验方法
我们定义是总体分布蕴含的真实函数关系,假设数据生成过程为
其中为随机噪声满足期望值为0,即。
显著性检验首先要定义检验统计量,然后针对提出两个对立的命题(假设),分别为零假设和备择假设。频率学派显著性检验方法通过计算值来判断数据和零假设是否一致,具体步骤如下:
- 首先对数据的整体分布作出假设,并将其参数记作,即;然后基于该假设推导检验统计量的理论分布形式。
- 给定观察数据,并通过拟合数据优化得到参数最优解,即。
- 假设零假设成立计算,然后结合第1步中得到的理论分布形式计算值,判断此时计算出的是否合理;可以看作从分布采样的一个样本,小概率事件在一次试验中几乎不可能发生。
对于检验特征重要性这个具体任务而言,显著性检验问题可以形式化为:
其中是对特征重要性的一个度量,比如梯度或SHAP值等。然而,频率学派显著性检验方法存在两个主要问题:
- 频率学派显著性检验方法的有效性依赖于对的合理假设,然而,当真实的数据分布非常复杂时,我们很难做出贴近实际情况的精确假设。
- 深度学习模型这类模型具有很强的拟合能力(万能逼近定理),但随着对的假设更加复杂,的理论分布形式也会变得非常复杂,这使得其难以计算,因此频率学派显著性检验方法经常假设线性或某种核函数。
全贝叶斯显著性检验
全贝叶斯显著性检验(FBST,Full Bayesian Significance Testing)是一种在贝叶斯框架下检验假设是否成立的统计学方法,其中,“全”指的是我们仅需要利用参数的后验分布而无需对的形式做出具体的假设。与频率学派计算值判断零假设是否成立不同,FBST 根据先验知识和观测数据提供一个支持或反对零假设的证据(evidence)。
令代表假设的先验概率,代表给定观测数据下的似然概率,假设的后验概率可以通过贝叶斯定理计算得到:
我们可以将公式中的替换为具体的零假设和备择假设。上述公式与人们的认知过程是一致的,先验概率代表了我们根据经验得到的概率,通过不断地观测数据来纠正我们的认知,最终得到后验概率。上述公式的关键是确定一个好的估计器来拟合。
检验统计量分布的近似
根据万能逼近定理,神经网络在理论上可以无限逼近任意函数。在本文中,我们采用贝叶斯神经网络拟合。贝叶斯神经网络(BNN,Bayesian Neural Network)是将贝叶斯定理和神经网络相结合的一项技术,它可以拟合复杂的关系,其参数服从某种概率分布用来表示我们对网络参数取不同值的信念。
贝叶斯神经网络的训练:给定数据集,nFBST 利用贝叶斯神经网络拟合数据集。首先,贝叶斯神经网络的参数具有先验概率,然后根据贝叶斯定理,参数分布逐渐修正为适应观测数据的后验概率:
其中是参数可以取值的整个参数空间。
贝叶斯神经网络的预测:给定一个新的样例,通过贝叶斯神经网络得到的预测结果是在整个参数后验概率分布上的积分,也即所有参数的加权平均:
在训练完贝叶斯神经网络之后,基于参数的后验概率分布,我们进一步获得检验统计量的后验概率分布。此时,显著性检验问题表示为如下形式:
我们定义为整个取值空间,即。然后,定义的概率分布中大于零点处概率的区域表示为:
在零假设下,应该是后验概率最大的情况。根据[Stern 1999]提出的方法,我们可以通过如下公式获得支持零假设的贝叶斯证据:
根据 Monte Carlo 方法,上述公式可以进一步简化为
其中,是基于的概率分布随机采样得到的个样本点。贝叶斯证据取值介于0到1之间,越接接近于1,越倾向于接受零假设;越接近于0,越倾向于拒绝零假设。
具体实现
计算检验统计量的分布
完整的检验流程基于参数的后验概率分布。然而,公式(6)中的积分在实际中很难求解,常用的一种方法是变分推断(VI,Variational Inference)。变分推断的核心是通过易于处理的变分分布来近似代替难以求解的后验分布。具体而言,首先指定变分族,包含了变分分布所有可能的情况,即,其中是变分分布的参数,是其取值空间。最优的变分分布通过最小化变分分布与后验分布之间的“距离”得到:
两个分布之间的距离采用 KL 散度衡量。
本文采用了在现有工作中广泛应用的对角高斯分布作为变分族,公式(6)在化简之后为
第一项代表和数据相关的损失,比如在回归任务中与按比例因子缩放之后的均方误差损失(MSE,Mean Squared Error)等价;第二项是只与参数相关的项,类似于损失函数中的正则化项;第三项在确定数据集之后为常数。
至此,我们得到了用于近似参数的后验分布。我们采用核密度估计(KDE,Kernel Density Estimation)来估计检验统计量的概率分布,具体步骤如下:
- 从参数的变分分布中随机采样次得到参数的个样本。
- 基于第1步得到的个样本计算检验统计量的个样本。
- 基于第2步得到的个样本,采用核密度估计方法近似检验统计量的概率密度函数
其中,是核函数,是窗口大小(也称为带宽)。
至此,我们得到了检验统计量的概率密度函数。最后,通过计算公式(11)中的贝叶斯证据,我们完成了整体流程。
在上述实现中,我们采用了变分推断和核密度估计两种方法,它们的目的分别是得到参数的概率分布以及进而得到检验统计量的概率密度函数。我们推导出了采用变分推断的损失函数具体形式,变分分布与后验分布之间的近似程度可以通过预测误差来衡量;此外,KDE坚实的理论基础也保证了它的收敛性和一致性;因此,我们方法的整体误差维持在一个合理范围内。
检验统计量的设计
为了检验一个特征的显著性,我们需要设计相应的检验统计量来表示和之间的关系。nFBST 足够灵活可以用来检验全局、局部和逐样本的显著性,因此支持设计不同类型的检验统计量。
在[Horel 2020]论文中,采用对偏导数的加权平均值作为检验统计量:
该统计量反应的是整个数据集上全局显著性,当数据确定之后它的值也随之确定。
在非线性场景下,一个特征的显著性随着所取子集范围的不同也可能不同。考虑一个简单的例子:
其中。此时,公式(14)对应的检验统计量为而无需考虑的具体取值。
如果我们定义,随着范围的不同得到的检验统计量值也会变化,即
在公式(14.1)的例子中,如果我们定义,那么我们可以得到。可以发现,随着取值范围的的不同,局部显著性也会有所不同:在的设定下,对的影响不显著;而在的设定下,对的影响显著。
进一步地,如果我们取仅包含一个数据,那么对应得到逐样本显著性检验,对应统计量为:
此外,nFBST 除了支持上述检验统计量不同粒度的设计,还可以选取不同的指标作为特征重要性度量,比如将公式(14,15,16)中的偏导数换为 SHAP值、DeepLIFT 值、LRP 值等。
实验
Toy Example
一个简单的仿真数据集场景下比较检验效果,数据生成过程服从如下公式:
- 对比频率学派显著性检验方法,只有Bootstrap准确识别无意义,而另外两种未能准确识别;通常情况下,我们会设置一个显著性水平(比如),然后将其与值进行比较,如果值小于显著性水平就拒绝零假设,反之则无法拒绝。
- 采用不同重要性度量的nFBST 均表现良好,所有的nFBST 对都提供了很强的证据支持零假设,但对于其他特征则没有。
- 逐样本显著性检验要比全局显著性检验粒度更细,我们挑选了这个特征来具体研究。Figure 2绘制了通过 Grad-nFBST 获得的贝叶斯证据分布,通过散点图和直方图可以发现其分布基本与相符。
仿真实验
数据生成过程服从以下公式:
其中,是随机化的一个神经网络,但对于后50个特征我们控制第一层的权重全为0从而保证它们始终无意义。
在本节的实验中,我们将检验结果视作一个二分类任务,然后采用二分类任务中常用的指标(如Precision,Recall,F1-score)来比较。具体而言,特征有意义为正类,无意义为负类。我们从两个粒度进行比较:
Global.(Table 2) ① Bootstrap更倾向于将特征判断为有意义,因此Recall很高,但Precision很低;② likelihood ratio test更倾向于将特征判断为无意义,因此Precision很高,但Recall很低;③ 综合来看,t-test要比另外两种频率学派检验方法表现更好,而我们本文提出的方法更是在所有情况下均表现最优。
Instance-wise.(Figure 3)对于 instance-wise 粒度,我们首先根据求导的结果设置一个阈值 eps 来对每个数据的每个特征是否有意义打标签。
- 在各种阈值 eps 设置下,我们本文提出的方法均优于在应用显著性检验方法之前的特征重要性方法,nFBST 增强了判别有意义和无意义特征的能力。
- LIME 和 LIME-nFBST 要相比其他方法表现稍微差些,这是因为其他方法都是基于反向传播的方法,而 LIME 是基于扰动采样构建局部线性模型的方法,和采样效率有很大关系。
真实数据集实验
我们在 UCI 标准数据集 Energy Efficiency 数据集上进行实验,重点分析(玻璃面积)在不同(玻璃朝向)取值下的检验结果。(Figure 4)
时与另外五种取值的情况检验情况有明显区别:当 时,它的实际含义是没有玻璃,因此不论此时是什么值都没有什么关系,这与检验结果相符。
我们在 MNIST 数据集上进行实验,根据特征重要性生成显著性图和根据检验结果标注有意义特征,可以发现在应用nFBST 之后识别效果更加显著。
总结
在本文中,我们提出面向神经网络的全贝叶斯显著性检验方法,称为nFBST。它是一个通用框架,可以基于不同的重要性度量进行扩展。据我们所知,本篇工作首次将显著性检验引入深度神经网络,对于探索数据生成过程的真实关系具有重要意义。
实验室介绍:BIGSCity 实验室是北京航空航天大学大学计算机学院下属的北航智慧城市兴趣组,其负责人为北京航空航天大学计算机学院王静远教授。BIGSCity 小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术,包括城市计算,时空数据挖掘,机器学习可解释性,以及 AI 在交通、健康、金融等领域的应用等。详细情况参见研究组主页:https://www.bigscity.com/。
更多阅读