问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

GO富集分析(上)

创作时间:
作者:
@小白创作中心

GO富集分析(上)

引用
简书
1.
https://www.jianshu.com/p/31cae549d4d4

GO富集分析是生物信息学中常用的一种方法,用于分析基因表达数据中差异表达基因的功能富集情况。本文将详细介绍GO的基本概念、分析原理、步骤、参数设置以及P-value和Q-value的区别,帮助读者深入理解这一重要分析方法。

一、原理

Gene Ontology(GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表,用于全面描述生物体中基因和基因产物的属性

1)GO包含三个主要的本体(ontology),分别为:

  • 分子功能(Molecular Function):描述基因产物的分子活动,例如催化作用或结合功能。
  • 细胞组分(Cellular Component):描述基因产物在细胞中的位置,如细胞膜、细胞核等。
  • 生物过程(Biological Process):描述基因产物参与的生物学活动或过程,如细胞分裂、信号转导等。

2)GO分析的目标是通过将差异表达基因(DEGs)与GO数据库中的term(词条)进行映射,找出在差异表达基因中显著富集的GO条目。

具体步骤如下:

  • 将差异表达基因映射到GO数据库(http://www.geneontology.org/),统计每个GO term的基因数目。
  • 通过超几何检验,计算每个GO term的显著性,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目。

注意:

  • GO的基本单位是term(词条、节点),每个term都对应一个属性。
  • GO功能分析一方面给出差异表达基因的GO功能分类注释
  • 另一方面给出差异表达基因的GO功能显著性富集分析。

P值计算公式:

  • N:所有Unigene中具有GO注释的基因数目
  • n:差异表达基因中具有GO注释的基因数目
  • M:所有Unigene中注释为某特定GO term的基因数目
  • m:差异表达基因中注释为某特定GO term的基因数目

计算得到的P值经过FDR校正后,若校正后的P值(corrected-pvalue)≤0.05,则认为该GO term在差异表达基因中显著富集。

3)GO分析可以帮助我们了解差异表达基因的功能

  • 输入基因集或差异基因集,进行GO富集分析。
  • 通过可视化图形呈现分析结果,输出图形包括富集气泡图、条形图、圈图、z-score气泡图(需要Log2(FC)数据)、网络图、二级分类图等。

4)文件类型及格式:

  • 无差异基因列:包含基因ID列表。
    基因ID
  • 有差异基因列:包含基因ID和对应的差异表达值。
    基因ID和对应的差异表达值
  • 背景基因文件:
    两类
    一类:第一列为基因ID,第二列为GO注释。
    二类:同一基因的所有GO term列在同一行。

5)参数设置:

  • 选择P值或Q值作图:选择P-value或Q-value作为显著性检验的标准。
  • 选择前N个通路作图:选择绘制前15~30个GO条目。

注:

  1. P-value (概率值)

1)定义:P-value 是假设检验中的一个统计量,表示在零假设(null hypothesis)成立的前提下,观测到当前或更极端数据的概率。简言之,P-value 反映了结果的“偶然性”或“显著性”。

2)计算方法:P-value 是根据实验数据计算得到的,用于判断实验结果是否支持零假设(即没有差异或关联)。小的 P-value(通常小于 0.05)意味着结果不太可能是偶然发生的,因此拒绝零假设,认为差异或关联是显著的。

  • P-value ≤ 0.05:一般认为差异具有统计学显著性。
  • P-value > 0.05:表示结果不显著,无法拒绝零假设。

3)局限性:

  • P-value 只能反映一个假设检验的显著性,但在多次比较的情况下,可能会导致假阳性结果的增加。
  • 它没有考虑多个假设检验时的错误率控制。
  1. Q-value (假发现率,FDR调整后的P值)

1)定义:Q-value 是针对多重假设检验进行调整后的 P-value,考虑了多个比较中的错误发现率(False Discovery Rate, FDR)。它是在 P-value 的基础上,通过控制假阳性比例来调整的。

2)计算方法:Q-value 是通过多个假设检验中的 P-value 调整得到的,它给出的是在所有测试中拒绝零假设时,错误发现的期望比例。Q-value 的计算方法通常使用 Benjamini-Hochberg (BH) 校正,即通过调整每个 P-value 来控制 FDR。

  • Q-value ≤ 0.05:表示在多重假设检验中,结果是显著的,并且假阳性(错误发现)的概率较低。
  • Q-value > 0.05:表示在多次比较中,结果并不显著,假阳性风险较高。

3)优势:

  • Q-value 能更好地处理多个假设检验带来的问题,它通过控制假发现率(FDR)来减少假阳性(False Positive)的出现。
  • 在基因富集分析、转录组分析等涉及多个假设检验的生物学研究中,Q-value 更为可靠。

总结:

  • P-value 是单次假设检验的显著性指标,表示观察到的结果是否显著。
  • Q-value 是经过多重比较校正后的显著性值,考虑了多个假设检验中的假阳性风险,在多重假设检验中更为可靠。

6)GO分析图形示例:

P-value 和 Q-value 是统计分析中常用的显著性检验指标,尤其在基因富集分析等生物信息学研究中,它们用于判断结果是否显著,且在多重假设检验时有不同的作用。

7)什么时候使用 P-value,什么时候使用 Q-value?

P-value 适用于小规模富集分析,样本量较小或假设检验较少时,可以直接使用 P-value 来判断显著性。Q-value 适用于大规模富集分析,特别是在涉及多个 GO term 或多个假设检验时,Q-value 更适合用于控制假阳性率,是推荐的显著性标准。

1. 使用 P-value:

适用于:小样本或少量假设检验。

情境:如果你进行的富集分析涉及的 GO term 数量相对较少(例如,只测试了几十个 GO term),或者你的基因集规模较小,且假设检验的数量不大,这时可以使用 P-value 作为显著性标准。

原因:在这种情况下,多重比较的影响较小,使用 P-value 直接判断每个 GO term 是否显著即可,假阳性(False Positive)的风险不会显著增加。

阈值:通常设定 P-value ≤ 0.05 作为显著性的标准。这样,你可以直接看哪些 GO term 的 P-value 小于 0.05,认为这些 GO term 在你的基因集中富集。

例如:
假设你仅分析了 10 个 GO term,P-value 小于 0.05 时,表示该 GO term 在差异基因中显著富集。

2. 使用 Q-value(更推荐):

适用于:大样本或大量假设检验。

情境:如果富集分析涉及大量 GO term(例如数百到上千个 GO term),这种情况下必须考虑 多重比较校正 的问题,因为随着假设检验的数量增加,假阳性的概率也会增大。

原因:多重假设检验(Multiple Hypothesis Testing)会增加拒绝零假设的机会,即使这些拒绝的假设可能并不显著,这就引入了假阳性(False Positive)问题。Q-value 通过控制 假发现率(FDR) 来解决这个问题,从而避免过多的假阳性。

3. Q-value的优点:

控制假阳性率:Q-value 校正了多个检验时的假阳性,能够在较大样本和较多假设检验的情况下,可靠地控制假阳性的比例。

更适合大规模数据分析:对于高通量数据(如基因表达数据),使用 Q-value 能够更有效地筛选显著富集的 GO term,避免错误发现。

阈值:通常设定 Q-value ≤ 0.05 作为显著性标准。如果 Q-value 小于 0.05,表示该 GO term 在差异基因中显著富集,并且控制了假阳性率。

例如:
假设你分析了上千个 GO term,Q-value 小于 0.05 的 GO term 认为是显著富集的,并且假阳性风险较低。

4. P-value 和 Q-value 的关系:

  • P-value 是初步计算出来的原始统计值,表示在零假设下,观察到数据的极端程度。但它没有考虑多次检验的影响。
  • Q-value 是 P-value 在经过多重比较校正(如 Benjamini-Hochberg 校正)后的结果,表示在进行多重检验时,假阳性率的期望值。
  • 在多重检验时,Q-value 比 P-value 更加可靠,因此通常推荐在富集分析中使用 Q-value,尤其是在涉及大量 GO term 或基因的情况下。

生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号