孟德尔随机化在生物医学研究中的应用概述
创作时间:
作者:
@小白创作中心
孟德尔随机化在生物医学研究中的应用概述
引用
CSDN
1.
https://blog.csdn.net/weixin_41368414/article/details/146003917
孟德尔随机化(Mendelian Randomization, MR)是一种利用遗传变异作为工具变量(Instrumental Variables, IVs)推断暴露因素(Exposure)与结局(Outcome)之间因果关系的统计方法。其核心思想基于孟德尔遗传定律,通过基因型随机分配的特性模拟随机对照试验(RCT),从而减少混杂偏倚和反向因果的影响。
概述
孟德尔随机化(Mendelian Randomization, MR) 是一种利用遗传变异作为工具变量(Instrumental Variables, IVs)推断暴露因素(Exposure)与结局(Outcome)之间因果关系的统计方法。其核心思想基于孟德尔遗传定律,通过基因型随机分配的特性模拟随机对照试验(RCT),从而减少混杂偏倚和反向因果的影响。
发展历程
- 1990年代:Katan 提出遗传变异可作为工具变量研究疾病风险。
- 2003年:Gray 和 Wheatley 首次提出“孟德尔随机化”术语,用于流行病学研究。
- 2000s中期:两阶段最小二乘法(2SLS)和 GWAS 数据的结合推动方法标准化。
- 2010s:基于汇总数据的 MR(Two-Sample MR)兴起,支持跨队列数据整合。
- 2020s:多变量 MR、双向 MR 和贝叶斯 MR 等扩展方法快速发展,结合多组学数据。
核心假设与分析方法
核心假设
- 关联性:工具变量与暴露因素强相关(F统计量 >10)。
- 独立性:工具变量与混杂因素无关。
- 排他性限制:工具变量仅通过暴露影响结局。
常用分析方法
- 两阶段最小二乘法(2SLS):传统方法,适用于个体水平数据。
- 基于汇总数据的 MR:利用 GWAS 汇总统计量(如 Wald Ratio、IVW)。
- 多变量 MR(MVMR):同时分析多个暴露因素的因果效应。
- 双向 MR:检验暴露与结局间的反向因果关系。
- 加权方法:如 MR-Egger、加权中位数(Weighted Median)和 MR-PRESSO。
- 贝叶斯 MR:结合先验分布处理复杂多效性。
常用 R 包与工具
R 包 | 功能描述 |
|---|---|
TwoSampleMR | 支持双样本 MR 和汇总数据分析,集成 IVW、MR-Egger 等方法。 |
MRPRESSO | 检测和校正水平多效性(Horizontal Pleiotropy)。 |
MendelianRandomization | 提供多种 MR 方法(如 Lasso MR)和可视化工具。 |
ivpack | 基于工具变量的回归分析,支持 2SLS 和敏感性分析。 |
MVMR | 多变量 MR 分析,解析多暴露的独立效应。 |
BayesianMR | 贝叶斯框架下的 MR 分析,处理复杂不确定性。 |
实际应用案例
心血管疾病
- 研究问题:LDL-C 是否与冠心病(CHD)存在因果关系?
- 方法:IVW 和 MR-Egger 分析 GWAS 汇总数据。
- 结论:LDL-C 升高显著增加 CHD 风险(OR=1.5, p<1e-10)[参考文献1]。
癌症
- 研究问题:BMI 对乳腺癌风险的影响。
- 方法:双向 MR 分析 UK Biobank 数据。
- 结论:BMI 升高增加绝经后乳腺癌风险(β=0.12, p=0.003),但无反向因果[参考文献2]。
COVID-19
- 研究问题:维生素 D 缺乏是否增加 COVID-19 感染风险?
- 方法:MR-PRESSO 校正多效性后分析。
- 结论:无显著因果关联(OR=1.05, p=0.23)[参考文献3]。
心血管疾病:LDL-C与冠心病(CHD)
- 研究设计:
使用 GWAS汇总数据(n=188,577),选取 PCSK9 和 HMGCR 基因的SNP作为工具变量(IVs),F统计量均 >20。 - 方法:
- 逆方差加权法(IVW):主分析
- MR-Egger回归:检测多效性
- MR-PRESSO:剔除异常SNP(p<0.05)
- 结果:
LDL-C每升高1 mmol/L,CHD风险增加52%(OR=1.52, 95% CI:1.44–1.60, p=3×10⁻²³)[^1]。
癌症:BMI与乳腺癌
- 数据来源:
- 暴露数据:UK Biobank(n=450,000)中BMI相关SNP
- 结局数据:乳腺癌GWAS Consortium(n=228,951)
- 方法:
- 双向MR:检验BMI→乳腺癌 vs. 乳腺癌→BMI
- 多变量MR(MVMR):调整雌激素水平的影响
- 结果:
BMI每增加1 SD,绝经后乳腺癌风险上升12%(OR=1.12, 95% CI:1.04–1.21,p=0.003),反向因果无显著性(p=0.38)[^2]。
COVID-19:维生素D与感染风险
- 工具变量:
4个SNP(GC, CYP2R1, DHCR7, CYP24A1)解释维生素D水平变异的2.5%(F=28)。 - 分析挑战:
样本重叠(部分COVID-19数据与维生素D GWAS重叠)→采用 MR-RAPS(稳健调整轮廓评分) 校正。 - 结果:
维生素D水平与COVID-19感染(OR=1.05, p=0.23)、住院(OR=1.06, p=0.41)均无显著关联[^3]。
挑战与展望
水平多效性的最新进展
- 检测工具:
- MR-PRESSO Global Test:识别多效性SNP(p<0.05时剔除)
- MR-Egger截距检验:截距显著(p<0.05)提示多效性存在
- 案例:
在IL-6与冠心病研究中,MR-PRESSO剔除3个多效性SNP后,效应值从β=0.15变为β=0.09[^5]。
多组学整合
- 新兴技术:
- 蛋白质孟德尔随机化(PheWAS-MR):利用血浆蛋白QTL数据(如SomaScan平台)
- 单细胞MR:结合单细胞ATAC-seq数据推断细胞类型特异性效应
- 案例:
Pietzner et al. (2021) 发现 GDF15蛋白 通过下丘脑调控食欲(Nature Metabolism)[^6]。
工具变量弱偏倚的解决方案
- 方法改进:
- Lasso-MR:通过Lasso回归筛选强IVs(Burgess et al., 2020)
- Steiger滤波:排除解释结局方差大于暴露的SNP(Hemani et al., 2017)
- 案例:
在BMI与2型糖尿病研究中,Lasso-MR将偏倚降低40%(SE=0.08→0.05)。
Reference
- Ference BA, et al. (2017). Association Between Lowering LDL-C and Cardiovascular Risk Reduction: A Mendelian Randomization Analysis. JAMA Cardiology.
- Sun YQ, et al. (2020). Body mass index and breast cancer risk: A two-sample Mendelian randomization study. Int J Epidemiol.
- Butler-Laporte G, et al. (2021). Vitamin D and COVID-19 susceptibility and severity: A Mendelian randomization study. PLOS Med.
热门推荐
东平知政丨国家历史文化名城佛山:30年,练就保护传承历史文化真功夫
为什么说跨里海际运输走廊将成为连接东西方的桥梁?
幽门螺旋杆菌感染,你了解多少?
甲状腺治疗费用详解
隋炀帝杨广:功过交织的悲剧帝王,毁灭自己,成就大唐!
想要种植林下黄精?这些关键技术一定要知道!
肠易激综合征的四种类型及其症状表现
肠易激综合征
生理期时,喝红糖水真的能缓解痛经吗?真相是……
上吐下泻怎么缓解
派出所不给出具立案回执怎么办
“天价墨宝”直播间卖出“白菜价”,这些“书画大师”都啥来头
“王某教授胜诉,深圳禁摩全面叫停”说法有误(附判例、法规)
如何正确修剪蓝莓——剪枝时间和技术详解(从剪枝时间到技术,教你成为蓝莓专家)
如何正确修剪蓝莓——修剪时间和技术详解(从修剪时间到技术,教你成为蓝莓专家)
历代全球票房前五变迁史(1984年至今)
函授获得的学历国家承认吗认可度高吗
如何构建一个可扩展的模块化系统架构?
仁怀:“巡回法庭+法治讲座”为青少年成长护航
新三板:中国资本市场的"创新试验田"
全国多地中小学探索“躺平式”午睡,超九成小学生睡眠不足?
硬盘格式化后的数据拯救:数之寻软件实战指南
如何定期跟踪和评估投资绩效以优化投资策略
如何设置合理的止盈策略?这种策略的实施需要考虑哪些因素?
晚上热醒出汗是怎么回事
看,首张来自海洋最深处的生态系统图,由中国科学家绘制
黄酒质量检验需要检验哪些指标?
用修复胶带给巴塔哥尼亚羽绒服打补丁
贺州旅游攻略:十大景点全解析
什么是羊皮纸?了解羊皮纸的历史与应用