资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

GO富集分析（上）

创作时间:

作者:

@小白创作中心

GO富集分析（上）

引用

简书

https://www.jianshu.com/p/31cae549d4d4

GO富集分析是生物信息学中常用的一种方法，用于分析基因表达数据中差异表达基因的功能富集情况。本文将详细介绍GO的基本概念、分析原理、步骤、参数设置以及P-value和Q-value的区别，帮助读者深入理解这一重要分析方法。

一、原理

Gene Ontology（GO）是一个国际标准化的基因功能分类体系，提供了一套动态更新的标准词汇表，用于全面描述生物体中基因和基因产物的属性。

1）GO包含三个主要的本体（ontology），分别为：

分子功能（Molecular Function）：描述基因产物的分子活动，例如催化作用或结合功能。
细胞组分（Cellular Component）：描述基因产物在细胞中的位置，如细胞膜、细胞核等。
生物过程（Biological Process）：描述基因产物参与的生物学活动或过程，如细胞分裂、信号转导等。

2）GO分析的目标是通过将差异表达基因（DEGs）与GO数据库中的term（词条）进行映射，找出在差异表达基因中显著富集的GO条目。

具体步骤如下：

将差异表达基因映射到GO数据库(http://www.geneontology.org/)，统计每个GO term的基因数目。
通过超几何检验，计算每个GO term的显著性，找出与整个基因组背景相比，在差异表达基因中显著富集的GO条目。

注意：

GO的基本单位是term（词条、节点），每个term都对应一个属性。
GO功能分析一方面给出差异表达基因的GO功能分类注释
另一方面给出差异表达基因的GO功能显著性富集分析。

P值计算公式：

N：所有Unigene中具有GO注释的基因数目
n：差异表达基因中具有GO注释的基因数目
M：所有Unigene中注释为某特定GO term的基因数目
m：差异表达基因中注释为某特定GO term的基因数目

计算得到的P值经过FDR校正后，若校正后的P值（corrected-pvalue）≤0.05，则认为该GO term在差异表达基因中显著富集。

3）GO分析可以帮助我们了解差异表达基因的功能

输入基因集或差异基因集，进行GO富集分析。
通过可视化图形呈现分析结果，输出图形包括富集气泡图、条形图、圈图、z-score气泡图（需要Log2(FC)数据）、网络图、二级分类图等。

4）文件类型及格式：

无差异基因列：包含基因ID列表。
基因ID
有差异基因列：包含基因ID和对应的差异表达值。
基因ID和对应的差异表达值
背景基因文件：
两类
一类：第一列为基因ID，第二列为GO注释。
二类：同一基因的所有GO term列在同一行。

5）参数设置：

选择P值或Q值作图：选择P-value或Q-value作为显著性检验的标准。
选择前N个通路作图：选择绘制前15~30个GO条目。

注：

P-value (概率值)

1）定义：P-value 是假设检验中的一个统计量，表示在零假设（null hypothesis）成立的前提下，观测到当前或更极端数据的概率。简言之，P-value 反映了结果的“偶然性”或“显著性”。

2）计算方法：P-value 是根据实验数据计算得到的，用于判断实验结果是否支持零假设（即没有差异或关联）。小的 P-value（通常小于 0.05）意味着结果不太可能是偶然发生的，因此拒绝零假设，认为差异或关联是显著的。

P-value ≤ 0.05：一般认为差异具有统计学显著性。
P-value > 0.05：表示结果不显著，无法拒绝零假设。

3）局限性：

P-value 只能反映一个假设检验的显著性，但在多次比较的情况下，可能会导致假阳性结果的增加。
它没有考虑多个假设检验时的错误率控制。

Q-value (假发现率，FDR调整后的P值)

1）定义：Q-value 是针对多重假设检验进行调整后的 P-value，考虑了多个比较中的错误发现率（False Discovery Rate, FDR）。它是在 P-value 的基础上，通过控制假阳性比例来调整的。

2）计算方法：Q-value 是通过多个假设检验中的 P-value 调整得到的，它给出的是在所有测试中拒绝零假设时，错误发现的期望比例。Q-value 的计算方法通常使用 Benjamini-Hochberg (BH) 校正，即通过调整每个 P-value 来控制 FDR。

Q-value ≤ 0.05：表示在多重假设检验中，结果是显著的，并且假阳性（错误发现）的概率较低。
Q-value > 0.05：表示在多次比较中，结果并不显著，假阳性风险较高。

3）优势：

Q-value 能更好地处理多个假设检验带来的问题，它通过控制假发现率（FDR）来减少假阳性（False Positive）的出现。
在基因富集分析、转录组分析等涉及多个假设检验的生物学研究中，Q-value 更为可靠。

总结：

P-value 是单次假设检验的显著性指标，表示观察到的结果是否显著。
Q-value 是经过多重比较校正后的显著性值，考虑了多个假设检验中的假阳性风险，在多重假设检验中更为可靠。

6）GO分析图形示例：

P-value 和 Q-value 是统计分析中常用的显著性检验指标，尤其在基因富集分析等生物信息学研究中，它们用于判断结果是否显著，且在多重假设检验时有不同的作用。

7）什么时候使用 P-value，什么时候使用 Q-value？

P-value 适用于小规模富集分析，样本量较小或假设检验较少时，可以直接使用 P-value 来判断显著性。Q-value 适用于大规模富集分析，特别是在涉及多个 GO term 或多个假设检验时，Q-value 更适合用于控制假阳性率，是推荐的显著性标准。

1. 使用 P-value：

适用于：小样本或少量假设检验。

情境：如果你进行的富集分析涉及的 GO term 数量相对较少（例如，只测试了几十个 GO term），或者你的基因集规模较小，且假设检验的数量不大，这时可以使用 P-value 作为显著性标准。

原因：在这种情况下，多重比较的影响较小，使用 P-value 直接判断每个 GO term 是否显著即可，假阳性（False Positive）的风险不会显著增加。

阈值：通常设定 P-value ≤ 0.05 作为显著性的标准。这样，你可以直接看哪些 GO term 的 P-value 小于 0.05，认为这些 GO term 在你的基因集中富集。

例如：
假设你仅分析了 10 个 GO term，P-value 小于 0.05 时，表示该 GO term 在差异基因中显著富集。

2. 使用 Q-value（更推荐）：

适用于：大样本或大量假设检验。

情境：如果富集分析涉及大量 GO term（例如数百到上千个 GO term），这种情况下必须考虑多重比较校正的问题，因为随着假设检验的数量增加，假阳性的概率也会增大。

原因：多重假设检验（Multiple Hypothesis Testing）会增加拒绝零假设的机会，即使这些拒绝的假设可能并不显著，这就引入了假阳性（False Positive）问题。Q-value 通过控制假发现率（FDR）来解决这个问题，从而避免过多的假阳性。

3. Q-value的优点：

控制假阳性率：Q-value 校正了多个检验时的假阳性，能够在较大样本和较多假设检验的情况下，可靠地控制假阳性的比例。

更适合大规模数据分析：对于高通量数据（如基因表达数据），使用 Q-value 能够更有效地筛选显著富集的 GO term，避免错误发现。

阈值：通常设定 Q-value ≤ 0.05 作为显著性标准。如果 Q-value 小于 0.05，表示该 GO term 在差异基因中显著富集，并且控制了假阳性率。

例如：
假设你分析了上千个 GO term，Q-value 小于 0.05 的 GO term 认为是显著富集的，并且假阳性风险较低。

4. P-value 和 Q-value 的关系：

P-value 是初步计算出来的原始统计值，表示在零假设下，观察到数据的极端程度。但它没有考虑多次检验的影响。
Q-value 是 P-value 在经过多重比较校正（如 Benjamini-Hochberg 校正）后的结果，表示在进行多重检验时，假阳性率的期望值。
在多重检验时，Q-value 比 P-value 更加可靠，因此通常推荐在富集分析中使用 Q-value，尤其是在涉及大量 GO term 或基因的情况下。

生物信息学领域非常广泛，难以一次说尽。我们下次继续更新，一起深入学习生物信息学的内容！