孟德尔随机化:一种基于遗传变异的因果推断方法
孟德尔随机化:一种基于遗传变异的因果推断方法
孟德尔随机化(Mendelian Randomization,简称MR)是一种基于遗传变异的因果推断方法,其基本原理是利用自然界中的随机分配的基因型对表型的影响来推断生物学因素对疾病的影响。
什么是孟德尔随机化?
在19世纪,孟德尔用豌豆花作为实验材料,通过对豌豆花颜色、形状等特征的观察和统计分析,发现了遗传的基本规律,这就是孟德尔定律。不过,孟德尔定律只适用于单基因的遗传性状,并且无法解释复杂的多基因遗传疾病。此外,孟德尔定律也无法解释环境因素对基因表达的影响,以及基因与环境的相互作用。为了解决这个问题,著名统计学家Fisher提出了孟德尔随机化的概念。
孟德尔随机化(Mendelian randomization,简称MR)是一种基于遗传变异的因果推断方法,其基本原理是利用自然界中的随机分配的基因型对表型的影响来推断生物学因素对疾病的影响。
MR方法的基本原理
假设我们想了解体重(BMI)对冠心病发病的影响。但是对冠心病影响的因素太多啦,比如高血压、高血糖等,我们怎么才能够排除混杂,确定为体重(BMI)对冠心病有影响呢?我们先要先要选定一个工具基因变量M(假设它为M),这个M要和我们研究的变量X相关,和我们结局变量和混杂因素无关。最后我们通过MR分析得出M基因对Y有影响,因为M基因对Y没有直接关联,所以M基因是通过影响暴露因素X而后从而对Y产生影响。这一联成线的过程可以看做是一个中介效应,暴露因素X(体重)就是中介变量,基因M通过对中介变量X的影响达到对Y的影响。
要做孟德尔随机化要有3个假设前提:
- 基因M要和体重(暴露因素)强相关联。(关联性假设)
- 基因M和结局变量冠心病和其他混杂因素没有关联。(独立性假设)
- 基因M只能通过影响体重对冠心病造成影响,不能通过其他途径对冠心病造成影响。(排他性假设)
MR方法的应用步骤
获取数据:首先需要获取暴露因素(如体重BMI)和结局变量(如冠心病)的SNP数据。这些数据通常可以通过各种GWAS数据库或GWAS文献获得。例如,可以使用ieu-a-835数据集来获取体重BMI的SNP数据,使用ieu-a-7数据集来获取冠心病的SNP数据。
数据预处理:使用TwoSampleMR包对获取的数据进行预处理。这包括去除连锁不平衡的SNP,确保效应等位基因与效应量保持统一等。
MR分析:使用mr函数进行MR分析,该函数默认使用五种方法(MR Egger、Weighted median、Inverse variance weighted、Simple mode、Weighted mode)。主要关注Inverse variance weighted方法的P值,如果P值小于0.05,则表明暴露因素与结局变量之间存在统计学意义。
敏感性分析:进行异质性检验、水平多效性检验和Leave-one-out分析等敏感性分析,以评估结果的稳健性。
结果可视化:通过散点图、森林图和漏斗图等可视化方法展示分析结果。
结语
孟德尔随机化是一种强大的因果推断方法,可以帮助研究人员在复杂的生物医学研究中识别因果关系。虽然MR方法具有许多优点,但也存在一些局限性,例如需要满足三个基本假设、数据可获得性限制等。因此,在使用MR方法时,需要谨慎地设计研究方案,并对结果进行合理的解释。