资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

什么是GWAS全基因组关联分析？

创作时间:

作者:

@小白创作中心

什么是GWAS全基因组关联分析？

引用

CSDN

https://blog.csdn.net/ZaoJewin/article/details/142214167

全基因组关联分析（GWAS）是一种在全基因组范围内搜索遗传变异（通常是单核苷酸多态性，SNP）与复杂性状之间关联的方法。通过比较群体中不同个体的基因型与表型，识别出与目标性状显著相关的基因位点。

其核心思想是通过比较群体中不同个体的基因型与表型，识别出与目标性状显著相关的基因位点。GWAS基于连锁不平衡（LD）的原理，即相邻的遗传变异倾向于一起遗传，因此可以通过标记SNP间接捕获致病变异。

GWAS的应用场景

复杂性状解析：用于揭示控制复杂农艺性状（如产量、品质、抗病性等）的遗传基础，探索遗传学机理。
疾病抗性研究：发现与植物病害抗性相关的基因，为育种提供候选基因，其他性状也以此类推。
分子育种：辅助分子标记辅助选择（MAS）和基因组选择（GS）。

数据分析过程与原理

表型数据收集：精确、可靠的表型测定是关键。需在多环境、多重复下评估表型特征等数据，以减少环境误差。

基因型数据获取：利用SNP芯片或高通量测序技术获取全基因组SNP数据。

数据质量控制（QC）

标记过滤：删除缺失率高、次等位基因频率（MAF）低、偏离哈迪-温伯格平衡的SNP。
个体过滤：剔除基因型缺失率高或有杂合度异常的个体。

群体结构和亲缘关系分析

主成分分析（PCA）：识别和校正群体结构。
STRUCTURE或ADMIXTURE分析：确定群体的组分。
亲缘关系矩阵（Kinship Matrix）：估计个体间的亲缘关系。

关联分析模型构建

一般线性模型（GLM）：y=Xβ+ϵ

y：表型值向量
X：基因型矩阵
β：效应量向量
ϵ：误差项

GLM未考虑群体结构易产生假阳性

混合线性模型（MLM）：y=Xβ+Zu+ϵ

Z：随机效应的设计矩阵
u：随机效应向量，通常包括亲缘关系

MLM同时考虑了群体结构和亲缘关系，降低了假阳性率。

混合线性模型的原理

在全基因组关联分析（GWAS）中，混合线性模型（MLM）是一种广泛应用的统计方法，用于控制群体结构和亲缘关系对关联分析的干扰。MLM通过同时考虑固定效应和随机效应，提高了关联分析的准确性和可靠性。

基本概念

固定效应（Fixed Effects）：指感兴趣的因素，其效应是固定的、可重复的。在GWAS中，通常是SNP的基因型效应和群体结构等协变量。
随机效应（Random Effects）：指来自总体的随机样本，其效应是随机的、不可重复的。在GWAS中，个体间的亲缘关系被视为随机效应。

模型构建

MLM的基本形式：y=Xβ+Zu+ϵ

y：表示个体的表型值（向量长度与个体数相同）
x：固定效应矩阵，包括截距、SNP基因型和协变量（例如群体结构等组分）
β：固定效应系数向量，通过统计估计计算而得
Z：随机效应矩阵，通常为亲缘关系矩阵
u：随机效应向量，服从正态分布
ϵ：残差向量

固定效应部分（𝑋β）：解释了SNP基因型和协变量对表型的线性效应。

随机效应部分（𝑍𝑢）：捕捉了个体间由于亲缘关系导致的表型相似性。

误差项（𝜖）：无法解释的随机误差。

亲缘关系矩阵（Kinship Matrix）

描述了个体间的遗传相似性，通常通过基因型数据计算，公式如下：

公式左边K表示个体的亲缘关系系数，m表示总的SNP数量，g表示SNP等位基因的编码，p表示SNP等位基因的频率。

举例

用一个简单的示例来解释吧，假设我们有一个研究，目标是寻找影响植物株高的基因位点。我们有10个样本，每个样本都有测量的高度和一个SNP的基因型数据。例如1号样本株高121CM，SNP基因型为0，2号样本株高97CM，SNP基因型为1

接下来构建一个模型，包括固定效应（由SNP引起的基因型效应）和随机效应（由个体亲缘关系引起的效应）

Step 1：构建固定效应设计矩阵𝑋

第一列为截距项，第二列为SNP基因型编码，这是一个10行2列行矩阵。

Step 2：计算亲缘关系矩阵𝐾

由于示例样本简单数量少，我们假设个体间的亲缘关系均等，即𝐾为单位矩阵（每个元素都为1的矩阵，10行×10列单位矩阵）

Step 3：应用MLM进行分析

使用软件（如R中的lme4包）进行参数估计，得到效应的估计值。

结果解释

固定效应估计：截距项是植株的基础高度，SNP效应是斜率，固定效应部分告诉我们，SNP基因型与植物高度之间是否存在关联。随机效应部分控制了个体间由于遗传背景相似性导致的高度相似，避免将这种相似性误认为是SNP的效应。

混合线性模型（MLM）在GWAS中起着关键作用，通过同时考虑固定效应和随机效应，MLM能够有效地控制群体结构和亲缘关系对关联分析的干扰。理解MLM的原理和细节，有助于研究者正确应用该模型，提高关联分析的准确性。

多重检验校正

Bonferroni校正：严格控制假阳性，但过于保守。
FDR（False Discovery Rate）控制：如Benjamini-Hochberg方法，平衡了假阳性和假阴性。

结果可视化和解释

曼哈顿图：展示每个SNP的关联显著性，直观识别显著关联区域。

QQ图（Quantile-Quantile Plot）：评估模型是否存在系统性偏差。

候选基因挖掘

连锁不平衡块分析：确定显著SNP所在的LD区域。
基因注释和功能预测：结合基因组注释，筛选可能的候选基因。
生物学验证：通过qPCR、基因编辑等手段验证候选基因功能。

注意事项

样本量和统计功效：足够大的样本量有助于检测小效应基因。

环境互作效应：考虑基因×环境（G×E）互作，提高关联分析的准确性。

遗传背景复杂性：在多倍体植物如小麦中，基因组复杂，需要更精细的分析方法。

GWAS的优点

高通量性：能够在全基因组范围内同时分析数百万个SNP。
无偏见性：无需预先设定候选基因或区域，具有探索性。
高分辨率：在连锁不平衡的基础上，可以精细定位关联信号。

GWAS的缺点

多重检验问题：大量的统计检验增加了假阳性率，需要严格的校正，降低了检测功效。
群体结构干扰：未校正的群体结构可能导致假关联。
效应大小限制：对小效应等位基因的检测能力有限，需更大样本量。

GWAS是一种强有力的工具，可用于关键基因的挖掘。然而，其有效性取决于高质量的表型和基因型数据、适当的统计模型以及对多重检验和群体结构的校正。理解其原理、优势和局限性，有助于更有效地设计研究、解释结果，并将发现应用于实际育种中。

参考文献：

Yu et al., 2006. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness.

Price et al., 2006. Principal components analysis corrects for stratification in genome-wide association studies.

Wang et al., 2014. Genomic association mapping of quantitative traits in plants.

Yu, J., et al. (2006). A unified mixed-model method for association mapping that accounts for multiple levels of relatedness. Nature Genetics, 38(2), 203-208.

Zhang, Z., et al. (2010). Mixed linear model approach adapted for genome-wide association studies. Nature Genetics, 42(4), 355-360.

Bradbury, P. J., et al. (2007). TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics, 23(19), 2633-2635.

Lipka, A. E., et al. (2012). GAPIT: genome association and prediction integrated tool. Bioinformatics, 28(18), 2397-2399.