问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

全基因组关联分析(GWAS)-统计方法与模型简介

创作时间:
作者:
@小白创作中心

全基因组关联分析(GWAS)-统计方法与模型简介

引用
CSDN
1.
https://m.blog.csdn.net/wyhua2008/article/details/143434651

全基因组关联分析(GWAS)是一种在全基因组范围内检测遗传变异与表型关联的研究方法。它通过对大量个体的基因型和表型数据进行统计分析,识别出与特定性状或疾病相关的遗传标记。本文将详细介绍GWAS的基本统计方法、模型、群体结构与亲缘关系的影响,以及GWAS的具体应用流程。

基本统计学概念

假设检验

  • 零假设(H0):即原假设
  • 备择假设(H1):与零假设对立的假设
  • 计算零假设(H0)成立的概率
  • 如果H0成立的概率很低(e.g. 5% or 1%),则拒绝原假设,接受备择假设
  • 否则接受原假设

两类错误与统计功效

  • I类错误(Type I error):拒绝真实的H0,即假阳性,概率α为显著性水平
  • II类错误(Type II error):接受错误的H0,即假阴性,概率为β
  • 功效(Power):拒绝错误H0的概率, (1-β)

Case/Control关联分析

病例对照分析

  • Case/control,一般可以用Pearson’s X2检验来分析
  • 等位基因关联,检测性状与等位基因的关联性
  • 假设一个标记有两种等位基因,分别为1和2,令Nca为病例,Nco为对照,列联表如下
  • H0:列变量与行变量无关,即该位点等位基因的分布与病例-对照无关
  • H1:列变量与行变量有关,即该位点等位基因的分布与病例-对照有关

卡方检验

当H0成立时,总体趋向卡方分布,且自由度为(r−1)(c−1) =(2−1)(2−1) = 1

Note:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方检验针对分类变量。

卡方检验计算示例

逻辑回归(可以加入群体结构协变量)

  • 令Yi为第i个个体的质量性状的表型值Yi = {0,1}; 0为其中一种表现型(controls),1为另一种表现型(cases)
  • Yi = 0; controls; Yi = 1; cases
  • 令Xi为第i个个体某个位点的基因型,Xi = {0,1,2}; 0为其中一种纯合基因型(TT),1为杂和基因型(如GT),2为另一种纯合基因型(如GG)
  • Xi = 0; TT; Xi = 1; GT; Xi = 2; GG
  • 逻辑回归:
  • pi = E(Yi|Xi);在Xi条件下Yi的期望
  • logit(pi) = loge[pi /(1- pi) ]
  • logit(pi) ~ β0 + β1Xi
  • 检验β1与0是否存在显著的差异,即为关联p值
  • 增加协变量(性别,群体结构矩阵,环境因素等):
  • pi = E(Yi | Xi,Ci, Di,…)
  • logit(pi)~β0 + β1Xi + β2Ci + β3Di +…

质量性状-卡方检验-逻辑回归结果比较

复杂性状使用简单统计方法是否可行?

数量性状与QTL

  • 数量性状(quantitative characters):是指在一个群体内的各个体间表现为连续变异的性状,遗传上一般由多个微效基因控制
  • 数量性状基因座(quantitative trait locus,QTL):它指的是控制数量性状的基因在基因组中的位置
  • QTL定位:发掘影响数量性状变异的遗传位置的过程

单位点简单回归模型

结论:

  1. 简单的统计方法可以用于GWAS
  2. 但是方法本身考虑的影响因素比较少,因而假阳性比较高
  3. 在标记量比较少,针对特定区间的或个别位点进行分析时,可以使
    用t测验、相关性分析等简单的方法进行

复杂统计模型简介

主要为 GLM 和 MLM (不做详细介绍)

全基因组关联分析(GWAS)-群体结构与亲缘关系

群体结构及其对 GWAS 的影响

群体结构的来源
群体结构对GWAS的影响--混淆变量

Ancestry可以导致混淆变量(confounding variable)

混淆变量:统计学中,混淆变量是指既与因变量相关又与自变量相关的无关变量。混淆变量其实就是群体结构变量,是潜在的第三者每个亚群的样本共享一种生长习惯和生活方式,导致许多感兴趣的性状直接与亚群或世系相关。

群体结构对GWAS的影响--假阳性

群体结构的推断方法

群体结构评估三宝刃

系统发育树
model-base的群体结构分析

分析的大致原理:将大群体分成K个服从Hardy-Weinberger平衡的亚群,将各材料归到每个亚群,计算第i个材料其基因组变异源于第k个亚群的可能性(Pritchard et al. 2000),用Q值表示,Q值越大,表明该材料来自这个亚群的可能性越大

用于GWAS的主要结果
PCA(数学上的计算)
EIGENSOFT-smartPCA主要结果图示
基因型与群体结构关联

亲缘关系及其对GWAS的影响

Kinship的主要来源
  1. 血缘( Blood relationship):
  • 家庭关系( Family ties)
  • 血亲关系( Blood ties)
  1. 共同祖先( Common Ancestry)
  2. Sharing of characteristics or origins
度量方式
  • 亲缘系数( Coefficient of Kinship)
  • 共祖率( Coancestry)
  • 血缘一致性 ( Identical By Decent (IBD))
Kinship的主要方法

计算方法--根据系谱推断

根据标记基因型推断

  • 标记基因型欧式距离
  • Nel's Distance
  • SPAGeDi(我钟爱的方法)
  • VanRaden方法
  • Zhang方法

各种方法均可使用

全基因组关联分析(GWAS)

全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。

关联定位的相对优势

  1. 分辨率高(单碱基水平)
  2. 研究材料来源广泛,可捕获的变异丰富
  3. 节省时间

关联分析的基础-连锁不平衡(LD)

当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)

r2 和 D'

  1. r2和D’反映了LD的不同方面。r2包括了重组和突变,而D’只包括重组史。
  2. D’能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法
    观测到,导致LD强度被高估,所以D’不适合小样本群体研究;
  3. LD衰减作图中通常采用r2来表示群体的LD水平;
  4. Haplotype Block中通常采用D’来定义Block;
  5. 迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素都会引起LD的改变。

LD衰减

LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;
LD的衰减距离决定关联分析时所需标记密度,也在一定程度上决定关联分析的精度。

Haplotype Block

单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域
单体型块分析可以用于筛选 tag SNP、确定候选基因的范围等

材料选择与群体设计

材料选择的基本原则

基本原则

  1. 遗传变异和表型变异丰富
  2. 群体结构分化不能过于明显(如亚种以上,发生生殖隔离是不能做GWAS的)

样本量

非稀有变异中,对中等变异解释率(10%左右)的位点的检测功效要达到80%以上时,需要的样本量在400左右
位点的效应越低,需要的样本量越大

群体类型

一.种质资源材料

  1. 遗传变异丰富,可以同时对多个性状进行分析
  2. 群体结构复杂,稀有变异多,遗传信息丢失明显

二.人工群体

  1. 包括F2、半同胞家系、动物远交群体、NAM群体、MAGIC群体和ROAM等群体类型。
    背景单纯,检测功效高;可以放大稀有变异
  2. 遗传变异不够丰富,重组事件有限,定位精度可能较低

表型调查

精确的表型检测是关联分析的关键
GWAS对数量性状和质量性状都适用

1.数量性状:

多基因控制,能够测量得到具体数值,符合正态分布;考虑到数量性状受环境影响大,建议将所有材料在同一环境下培育或养殖,或者用多年多点的数据分开分析后综合结果或取BLUP值作为性状值进行关联分析。

2. 质量性状

单基因控制,无法用具体数值衡量,可转换成0、1等表示,需注意每个群体选取近似的样本。

3.分级性状:

表型分布类似质量性状,但实际受多基因控制(数量性状),如抗性性状,因此需要提供每一个个体精确的测量数据。

4.多指标性状:

有多个指标可以同时度量时,找出代表原表型数据变异的主成分因子,作为关联分析的表型数据

标记开发与分型

  • 实验室常用标记(SSR等)
  • SNP芯片
  • NGS开发SNP、small Indel、CNV、SV标记

纵深研究--基因克隆示例

材料:381份粳稻品种(热带和温带品种)

  1. 关于水稻谷粒大小的性状,GWAS定位到7号染色体,SNP峰值所在地方注释到11个基因;
  2. 对11个基因分别在稻穗、叶片和根系中做RT-PCR,只有第9个基因OsSPL13在稻穗中表达有差异;
  3. OsSPL13基因蛋白表达的进一步验证;
  4. 分析OsSPL13基因在水稻大粒和小粒之间的序列差异,包括SNP位点和小的indel;
  5. 通过转基因找到影响OsSPL13基因表达相关的相关区域(5’UTR中的一个串联重复序列);
  6. 通过RNA干扰的方法将大粒品种GP579和小粒品种Dongjing中OsSPL13的表达量下调后会使水稻籽粒的长度和粒重都显著降低;
  7. 筛选出1个Dongjing来源的glw7突变体,粒长和粒重比野生型均明显降低;
  8. 通过chip-seq进行OsSPL13调节下游基因的验证(结果未示)SRS5和DEP1。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号