富集分析结果表和图表详解:从GO到KEGG的全面解析
富集分析结果表和图表详解:从GO到KEGG的全面解析
富集分析是生物信息学中常用的一种方法,用于识别在特定基因集合中显著富集的生物学过程、分子功能或细胞组分。通过富集分析,研究人员可以将基因表达数据与已知的生物学知识库(如GO和KEGG)进行关联,从而获得更深入的生物学解释。本文将详细介绍富集分析中常见的结果表和图表,帮助读者更好地理解和解读富集分析的结果。
一、两种结果表
1. GO富集分析结果表
GO(Gene Ontology)富集分析结果表通常包含以下列:
- ONTOLOGY:表示GO分类的种类,通常有三个主要的类别:
- BP:生物过程(Biological Process)
- CC:细胞组成(Cellular Component)
- MF:分子功能(Molecular Function)
ID:GO条目的编号,唯一标识某个GO术语(例如GO:0008150代表生物过程类别中的“生物学过程”)。
Description:GO条目的描述,通常会简要说明该GO条目所涉及的生物学概念或功能。
GeneRatio:基因比率,指的是在某一GO条目富集的基因数与输入基因总数的比值。
BgRatio:背景比率,指的是在所有背景基因(通常是参考基因集)中属于某一GO条目的基因数与所有背景基因总数的比值。
RichFactor:富集因子,表示基因比率与背景比率的比值(GeneRatio / BgRatio)。
FoldEnrichment:富集倍数,类似于富集因子,用来衡量目标基因集在某一GO条目中的富集程度。
zScore:Z得分,反映某GO条目富集的统计显著性。
pvalue:P值,表示某个GO条目富集的统计显著性。
p.adjust:经过多重检验校正后的P值。
qvalue:调整后的P值,主要用于控制假阳性率的影响。
geneID:富集在该GO条目中的基因列表。
Count:在该GO条目中富集的基因数量。
2. KEGG富集分析结果表
KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析结果表通常包含以下列:
category:KEGG路径分类。
subcategory:KEGG路径的二级分类。
ID:KEGG通路的ID(编号)。
Description:KEGG通路的描述。
GeneRatio:基因比率。
BgRatio:背景比率。
RichFactor:富集因子。
FoldEnrichment:富集倍数。
zScore:Z得分。
pvalue:P值。
p.adjust:经过多重检验校正后的P值。
qvalue:调整后的P值。
geneID:富集在该KEGG通路中的基因列表。
Count:富集在该KEGG通路中的基因数量。
二、各种富集图的说明
1. KEGG条形图(Barplot)
- X轴:显示的是KEGG通路上的基因数目。
- Y轴:显示的是KEGG通路的名称。
- 条形的颜色:表示调整后的p值(p.adjust),颜色越深表示p值越小。
- 显示数量:showCategory = 15表示只显示排名前15的 KEGG 通路。
2. KEGG气泡图(Dotplot)
- X轴:基因比率。
- Y轴:表示每个通路的富集程度。
- 气泡的大小:表示该通路中的富集基因数量。
- 气泡的颜色:根据p.adjust值来表示,颜色越深表示该通路的富集越显著。
- 显示数量:showCategory = 15表示仅显示排名前15的通路。
3. KEGG小弦图(Cnetplot)
- 基因节点(Gene Nodes):展示了参与KEGG通路富集的基因。
- 通路节点(Category Nodes):展示了被富集的KEGG通路。
- 边缘:连接基因和KEGG通路,表示基因和通路之间的关系。
- 圆形布局:整个图呈现圆形布局,通路节点和基因节点通过边缘连接。
- 节点标签:可以选择显示通路名称或基因名称。
4. GO条形图(Barplot)和气泡图(Dotplot)
GO的气泡图和条形图分为三类:
- BP:生物过程(Biological Process)
- CC:细胞组成(Cellular Component)
- MF:分子功能(Molecular Function)
5. GO小弦图(Cnetplot)
解析与KEGG小弦图类似,但展示的是GO通路的富集情况。
6. 富集圈图(Enrichment Circle Plot)
GO的圈图
从外到内共4个track:
- 分类track:不同颜色表示不同分类(BP、MF等)。
- term里边的基因数:矩形长度表示该term中包含的基因数。
- 重叠基因数:矩形长度表示与输入基因的重叠基因数。
- 富集分数bar:表示重叠基因数占总基因数的比例。
KEGG的圈图
圆圈从外向内:
- 第1圈是通路编号和分类。
- 第2圈表示这个通路有多少个基因。
- 第3圈表示高表达基因的数目。
- 第4圈是富集因子。
7. Z-score气泡图(Z-score Bubble Plot)
- 气泡的大小:代表富集的基因数或GeneRatio。
- 气泡的颜色:表示z-score值,反映富集的显著性。
生物信息学领域非常广泛,本文主要介绍了富集分析的相关内容。希望这些信息能帮助读者更好地理解和应用富集分析方法。