孟德尔随机化理论知识一站式学习
孟德尔随机化理论知识一站式学习
孟德尔随机化(Mendelian Randomization, MR)是一种利用遗传变异作为工具变量来推断暴露因素与健康结局之间因果关系的统计方法。这种方法通过利用遗传变异的随机分配特性,可以有效控制混杂因素的影响,为流行病学研究提供了一种新的思路和方法。本文将详细介绍孟德尔随机化的理论基础、方法论、应用模型、研究设计、工具变量选择、常见偏倚及处理策略、数据库和生信工具介绍,以及MR研究的优势和局限性。
临床研究方法
因果与因果推断是流行病学研究的核心问题。例如,打流感疫苗与未打流感疫苗的人群在得新冠的可能性上存在差异。这表明打不打疫苗和得新冠之间存在关联,但不能确定是否是因果关系。因果关系才能干预,关联只能提供线索。
目前,最常用的研究方法是分析性研究和实验性研究。分析性研究用于产生假设,样本量较大的分析性研究可用于检验假设。推断因果关系最可靠的方法是临床试验中的随机对照试验(randomised controlled trial, RCT)。观察性研究执行难度低,但证据等级弱;实验性研究证据等级强,但执行难度高。孟德尔随机化的执行难度和证据等级都介于观察性和实验性研究之间。
孟德尔随机化方法的介绍
基本思想
孟德尔随机化方法基于孟德尔第二定律(自由组合定律)。在生物的体细胞中,控制同一性状的遗传因子成对存在,不相融合;在形成配子时,成对的遗传因子发生分离,分离后的遗传因子分别进入不同的配子中,随配子遗传给后代。当具有两对(或更多对)相对性状的亲本进行杂交,在子一代产生配子时,在等位基因分离的同时,非同源染色体上的非等位基因表现为自由组合。
应用模型
选择合适的遗传变异作为工具变量,替代无法进行实验性研究的待暴露因素(研究因素)。测量遗传变异与中间表型(暴露)、遗传变异与疾病结局之间的关联,进而推断暴露与结局疾病之间的关联。
孟德尔随机化与随机对照试验的对比
随机对照试验通过随机分组校正了已知和未知的混杂因素。孟德尔随机化则利用等位基因的随机分离特性,基因与疾病结局的关联不会受到出生后的环境、社会经济地位、行为因素等常见混杂因素的干扰,因果顺序也正确。
核心假设
MR设计的最关键步骤是寻找合适的遗传变异作为工具变量。合适的工具变量应满足以下假设:
- G must be reliably associated with E --关联性假设
- G should be not associated with U --独立性假设
- G should be not independently associated with O,except through E -- 排他性假设
工具变量的选择
选择工具变量的方法一般包括两种:
- 选择与目标暴露因素有直接强关联的遗传变异,如与血清CRP水平直接相关的CRP基因变异(SNPs),与酒精代谢直接相关的乙醇脱氢酶1b(ADH1B)基因变异,与白介素6受体水平相关的IL6R基因变异等;
- 从全基因组关联研究(genomic wide association study,GWAS)数据库获得遗传工具变量,目前全球GWAS研究目录显示(http://www.ebi.ac.uk/gwas/)超过1万条有潜在功能学意义的SNP,其中4 000个以上的SNPs与相应表型有唯一关联,可以从中筛选合适的工具变量。
常见的MR研究设计方法及特点
单样本MR
- 特点:暴露和结局来自同一样本;直接计算一两阶段最小二乘法(2SLS, 2 stage least squared method);根据结局变量类型,采用不同统计方法:连续型结局-线性回归/二分类结局-logistic回归
- 优点:采用个体级别数据,可控制混杂因素
- 缺点:样本量有限,影响统计效能
两样本MR
- 特点:暴露和结局来自相同人群的两个独立样本;要求两样本具有相似的年龄,性别和种族分布持征
- 优点:样本量较大(几十万上百万),统计效能更高
- 缺点:混杂偏倚
双向MR
- 目的:解决因果关联的方向问题
- 应用场景:例如睡眠和糖尿病的关系
- 注意事项:防止被双向MR的结果误导;注意统计效能不足的问题
两阶段MR
- 特点:涉及中间变量(mediator),如表观遗传指标
- 要求:满足exposure-mediator和exposure-outcome之间的关联呈线性以及同质性的假设前提
- 应用:已被延伸为分析复杂因果网络关系的基础,如网络MR设计(network MR)
多变量MR
- 特点:有多个暴露因素,且他们之间存在关联,由共同的遗传变异决定
Factorial MR
- 概念:根据genetic score是否高于中位数、是否干预,最终分为了4个组
- 解释:多基因评分(Polygenic Risk Scores)是与特定性状(包括行为、特征或疾病)相关的有效等位基因作用(即遗传基因影响)的加权和,可用于估计一个人出现某种生理/心理特征、罹患某种疾病的风险
工具变量假设的常见偏倚及处理策略
标准的方法需要完全满足三大核心假设。实际情况需要一些降低偏倚的策略。
名词解释
- 弱工具变量:当遗传变异与暴露因素不具有强相关关系,或者遗传变异仅能解释小部分的表型变异时,称为“弱工具变量”
- 碰撞偏倚:当暴露和结局(或导致结局发生的因素)都影响第三个共同变量,并且该变量/碰撞变量在研究设计或统计分析中被控制时,就会发生碰撞偏倚
- 水平多效性:遗传变异通过影响其他性状而影响结局,与暴露因素无关
- 连锁不平衡:LD是人群中遗传变异的非随机发生,由于遗传物质的染色体部分遗传而产生,因此基因组位置相近的遗传变异总是共同遗传的,而不是通过重组随机分离
- 人群分层:是指遗传变异频率在不同遗传背景的人群间存在差异,导致遗传变异与结局之间出现虚假关联
工具变量的多效性
基因多效性的存在违反了独立性假设和排他性假设。鉴于所有表型都存在遗传成分,而表型变异远超基因型变异,因此,多效性(单一遗传变异影响多个表型)的现象非常普遍。为了可靠的因果推理,推测多效性作用的模式至关重要。
两样本MR常用的因果效应估计方法
一致性假设就是使用该方法的要求。用IVW作主效分析,其他方法作为敏感性分析
工具变量的异质性和多效性检验方法
MR数据库及生信工具
MR-Base
- 网址:https://www.mrbase.org/
- 功能:GWAS summary database of more than 1100 GWAS traits and online platfom to automate MR
MR-PRESSO
- 网址:https://github.com/rondolab/MR-PRESSO
- 功能:R package that allows for the evaluation of pleiotropy in mult-instrument Mendelian Randomization
TwoSampleMR
- 网址:https://github.com/mrcieu/TwoSampleMR
- 功能:R package for MR analysis,directly links to MR-Base database via API
MendelianRandomization
- 网址:https://cran.r-project.org/web/packages/MendelianRandomization/
- 功能:R package for MR analysis.links to Phenoscanner database
mrrobust
- 网址:https://github.com/remlapmot/mrrobust
- 功能:STATA package for MR analysis
summary-data-based Mendelian Randomization(SMR)
- 网址:https://yanglab.westlake.edu.cn/software/smr/#Overview
- 功能:linux package for MRanalysis for testing expression QTL on complex diseases
PHESANT
- 网址:https://github.com/MRCIEU/PHESANT
- 功能:R package for performing phenome scans in UK Biobank, including MR phenome-wide association studies (MR-pheWAS)
PhenoSpD
- 网址:https://github.com/MRCIEU/PhenoSpd
- 功能:R scripts to estimate multiple testing correction for hypothesis free MR
MR研究的优势和局限性
优势
- 控制混杂因素
- 可研究长期效应
- 设计可与RCT相媲美
局限性
- 不符合孟德尔遗传定律
- 多基因遗传病
- 基因型不外显
- 表型的环境修饰
- 遗传基因的异质性
总结
- MR研究可克服混杂和反向因果所带来的偏倚,工具变量在满足3个核心假设的前提下,可为推断暴露和结局的因果关系提供可靠证据
- MR的解读需谨慎:研究设计是否合理;工具变量是否合适;统计效能是否充足;生物学复杂性是否使结果的解读复杂化
- 即使以上条件均满足,MR结果的解读仍要基于"综合证据",多项研究结果一致性越高,结论越可靠
MR写作指南
The guidelines are divided into nine sections:
- motivation and scope
- data sources
- choice of genetic variants
- variant harmonization
- primary analysis
6-7. supplementary and sensitivity analyses (one section on robust statistical methods and one on other approaches) - data presentation
- interpretation
STROBE-MR (strengthening the reporting of observational studies in epidemiology using mendelian randomization), a check list of 20 reporting items, assists authors in reporting their MR research clearly and transparently. Adopting STROBE-MR should help readers, reviewers, and journal editors evaluate the quality of published MR studies.