GO富集分析(上)
GO富集分析(上)
GO富集分析是生物信息学中常用的一种方法,用于分析基因表达数据中差异表达基因的功能富集情况。本文将详细介绍GO的基本概念、分析原理、步骤、参数设置以及P-value和Q-value的区别,帮助读者深入理解这一重要分析方法。
一、原理
Gene Ontology(GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表,用于全面描述生物体中基因和基因产物的属性。
1)GO包含三个主要的本体(ontology),分别为:
- 分子功能(Molecular Function):描述基因产物的分子活动,例如催化作用或结合功能。
- 细胞组分(Cellular Component):描述基因产物在细胞中的位置,如细胞膜、细胞核等。
- 生物过程(Biological Process):描述基因产物参与的生物学活动或过程,如细胞分裂、信号转导等。
2)GO分析的目标是通过将差异表达基因(DEGs)与GO数据库中的term(词条)进行映射,找出在差异表达基因中显著富集的GO条目。
具体步骤如下:
- 将差异表达基因映射到GO数据库(http://www.geneontology.org/),统计每个GO term的基因数目。
- 通过超几何检验,计算每个GO term的显著性,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目。
注意:
- GO的基本单位是term(词条、节点),每个term都对应一个属性。
- GO功能分析一方面给出差异表达基因的GO功能分类注释
- 另一方面给出差异表达基因的GO功能显著性富集分析。
P值计算公式:
- N:所有Unigene中具有GO注释的基因数目
- n:差异表达基因中具有GO注释的基因数目
- M:所有Unigene中注释为某特定GO term的基因数目
- m:差异表达基因中注释为某特定GO term的基因数目
计算得到的P值经过FDR校正后,若校正后的P值(corrected-pvalue)≤0.05,则认为该GO term在差异表达基因中显著富集。
3)GO分析可以帮助我们了解差异表达基因的功能
- 输入基因集或差异基因集,进行GO富集分析。
- 通过可视化图形呈现分析结果,输出图形包括富集气泡图、条形图、圈图、z-score气泡图(需要Log2(FC)数据)、网络图、二级分类图等。
4)文件类型及格式:
- 无差异基因列:包含基因ID列表。
基因ID - 有差异基因列:包含基因ID和对应的差异表达值。
基因ID和对应的差异表达值 - 背景基因文件:
两类
一类:第一列为基因ID,第二列为GO注释。
二类:同一基因的所有GO term列在同一行。
5)参数设置:
- 选择P值或Q值作图:选择P-value或Q-value作为显著性检验的标准。
- 选择前N个通路作图:选择绘制前15~30个GO条目。
注:
- P-value (概率值)
1)定义:P-value 是假设检验中的一个统计量,表示在零假设(null hypothesis)成立的前提下,观测到当前或更极端数据的概率。简言之,P-value 反映了结果的“偶然性”或“显著性”。
2)计算方法:P-value 是根据实验数据计算得到的,用于判断实验结果是否支持零假设(即没有差异或关联)。小的 P-value(通常小于 0.05)意味着结果不太可能是偶然发生的,因此拒绝零假设,认为差异或关联是显著的。
- P-value ≤ 0.05:一般认为差异具有统计学显著性。
- P-value > 0.05:表示结果不显著,无法拒绝零假设。
3)局限性:
- P-value 只能反映一个假设检验的显著性,但在多次比较的情况下,可能会导致假阳性结果的增加。
- 它没有考虑多个假设检验时的错误率控制。
- Q-value (假发现率,FDR调整后的P值)
1)定义:Q-value 是针对多重假设检验进行调整后的 P-value,考虑了多个比较中的错误发现率(False Discovery Rate, FDR)。它是在 P-value 的基础上,通过控制假阳性比例来调整的。
2)计算方法:Q-value 是通过多个假设检验中的 P-value 调整得到的,它给出的是在所有测试中拒绝零假设时,错误发现的期望比例。Q-value 的计算方法通常使用 Benjamini-Hochberg (BH) 校正,即通过调整每个 P-value 来控制 FDR。
- Q-value ≤ 0.05:表示在多重假设检验中,结果是显著的,并且假阳性(错误发现)的概率较低。
- Q-value > 0.05:表示在多次比较中,结果并不显著,假阳性风险较高。
3)优势:
- Q-value 能更好地处理多个假设检验带来的问题,它通过控制假发现率(FDR)来减少假阳性(False Positive)的出现。
- 在基因富集分析、转录组分析等涉及多个假设检验的生物学研究中,Q-value 更为可靠。
总结:
- P-value 是单次假设检验的显著性指标,表示观察到的结果是否显著。
- Q-value 是经过多重比较校正后的显著性值,考虑了多个假设检验中的假阳性风险,在多重假设检验中更为可靠。
6)GO分析图形示例:
P-value 和 Q-value 是统计分析中常用的显著性检验指标,尤其在基因富集分析等生物信息学研究中,它们用于判断结果是否显著,且在多重假设检验时有不同的作用。
7)什么时候使用 P-value,什么时候使用 Q-value?
P-value 适用于小规模富集分析,样本量较小或假设检验较少时,可以直接使用 P-value 来判断显著性。Q-value 适用于大规模富集分析,特别是在涉及多个 GO term 或多个假设检验时,Q-value 更适合用于控制假阳性率,是推荐的显著性标准。
1. 使用 P-value:
适用于:小样本或少量假设检验。
情境:如果你进行的富集分析涉及的 GO term 数量相对较少(例如,只测试了几十个 GO term),或者你的基因集规模较小,且假设检验的数量不大,这时可以使用 P-value 作为显著性标准。
原因:在这种情况下,多重比较的影响较小,使用 P-value 直接判断每个 GO term 是否显著即可,假阳性(False Positive)的风险不会显著增加。
阈值:通常设定 P-value ≤ 0.05 作为显著性的标准。这样,你可以直接看哪些 GO term 的 P-value 小于 0.05,认为这些 GO term 在你的基因集中富集。
例如:
假设你仅分析了 10 个 GO term,P-value 小于 0.05 时,表示该 GO term 在差异基因中显著富集。
2. 使用 Q-value(更推荐):
适用于:大样本或大量假设检验。
情境:如果富集分析涉及大量 GO term(例如数百到上千个 GO term),这种情况下必须考虑 多重比较校正 的问题,因为随着假设检验的数量增加,假阳性的概率也会增大。
原因:多重假设检验(Multiple Hypothesis Testing)会增加拒绝零假设的机会,即使这些拒绝的假设可能并不显著,这就引入了假阳性(False Positive)问题。Q-value 通过控制 假发现率(FDR) 来解决这个问题,从而避免过多的假阳性。
3. Q-value的优点:
控制假阳性率:Q-value 校正了多个检验时的假阳性,能够在较大样本和较多假设检验的情况下,可靠地控制假阳性的比例。
更适合大规模数据分析:对于高通量数据(如基因表达数据),使用 Q-value 能够更有效地筛选显著富集的 GO term,避免错误发现。
阈值:通常设定 Q-value ≤ 0.05 作为显著性标准。如果 Q-value 小于 0.05,表示该 GO term 在差异基因中显著富集,并且控制了假阳性率。
例如:
假设你分析了上千个 GO term,Q-value 小于 0.05 的 GO term 认为是显著富集的,并且假阳性风险较低。
4. P-value 和 Q-value 的关系:
- P-value 是初步计算出来的原始统计值,表示在零假设下,观察到数据的极端程度。但它没有考虑多次检验的影响。
- Q-value 是 P-value 在经过多重比较校正(如 Benjamini-Hochberg 校正)后的结果,表示在进行多重检验时,假阳性率的期望值。
- 在多重检验时,Q-value 比 P-value 更加可靠,因此通常推荐在富集分析中使用 Q-value,尤其是在涉及大量 GO term 或基因的情况下。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!