KEGG数据库数据深入挖掘解析
KEGG数据库数据深入挖掘解析
在微生物测序技术迅猛发展的今天,宏基因组测序作为16S测序的升级版,其数据分析显得尤为重要。KEGG数据库作为宏基因组测序产品中关键的功能注释工具,对于解读组间功能基因及代谢通路差异至关重要。本文将深入解析KEGG数据库,并结合诺禾致源宏基因组结题报告,详细介绍如何利用KEGG数据库进行代谢通路分析和基因差异分析。
KEGG数据库的简介
KEGG数据库(Kyoto Encyclopedia of Genes and Genomes)是一个综合性数据库,主要用于系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能。它广泛应用于物种的基因组或转录组的功能注释。
KEGG数据库分类
KEGG数据库全面整合了基因组、化学分子和生化系统等方面的数据,主要包括以下分类:
- 代谢通路(KEGG Pathway)
- 药物(KEGG Drug)
- 疾病(KEGG Disease)
- 功能模型(KEGG Module)
- 基因序列(KEGG Genes)
- 基因组(KEGG Genome)
KEGG Pathway
KEGG数据库最核心的部分是KEGG Pathway和KEGG Orthology数据库。在KEGG Orthology数据库中,将行使相同功能的基因聚在一起,称为Ortholog Groups (KO entries)。每个KO包含多个基因信息,并在一至多个pathway中发挥作用。KEGG Pathway数据库将生物代谢通路划分为6类:
- 细胞过程(Cellular Processes)
- 环境信息处理(Environmental Information Processing)
- 遗传信息处理(Genetic Information Processing)
- 人类疾病(Human Diseases)
- 新陈代谢(Metabolism)
- 生物体系统(Organismal Systems)
诺禾致源宏基因组KEGG数据库中代谢通路分析及基因差异分析解析
诺禾致源宏基因组分析报告中,KEGG部分主要分为两部分:
- 两个分组共有及特有的代谢通路信息
- 所有分组中注释到的Pathway代谢通路图
第一部分:两个分组共有及特有的代谢通路信息
点击“please click”即可查看两个分组具体的代谢通路信息。例如,点击map 00350(Metabolism,Amino acid metabolism,Tyrosine metabolism),结果如下图所示:
图中节点代表各种化合物,边代表一系列的酶类反应。不同颜色代表不同分组的酶类反应:
- 红色:两个分组共有的酶类反应
- 蓝色:分组A独有的酶类反应
- 绿色:分组B独有的酶类反应
点击酶边框,可以链接到KEGG官网,直接查看该酶的信息。
第二部分:所有分组中注释到的Pathway代谢通路图
点击任一Pathway ID,即可得到如下所示通路图:
在代谢通路图中:
- 节点代表各种化合物
- 方框代表酶类信息(默认边框为黑色,背景为白色)
- 不同颜色的方框代表注释为该酶类的基因数目的多少
- 黄色背景的酶类代表在分组间具有显著差异的酶类
- 鼠标移动至该酶类,可显示差异酶类在不同分组间的丰度分布箱图
如何在KEGG数据库中查找Pathway、Gene、KO
方法1:综合搜索
在KEGG首页,最上方提供了一个综合搜索界面,输入Pathway、Gene、KO的英文关键字即可进行搜索。注意,这是综合搜索,会搜索KEGG中所有的数据库。
方法2:专门数据库搜索
也可以直接进入对应的专门数据库界面,在这些数据库的界面中,会含有该数据库的搜索栏,直接输入关键字进行搜索。
结语
熟练掌握KEGG数据库的使用方法对于生物信息学和微生物组学研究至关重要。除了掌握查询功能外,更重要的是结合自身的研究背景,关联所发现的差异基因或差异功能,从而得出有意义的科学结论。