单基因分析在线数据库使用指南
单基因分析在线数据库使用指南
单基因分析是生物医学研究中的重要环节,涉及基因表达、生存分析、相关性分析等多个方面。本文将详细介绍多个常用的在线数据库及其功能,包括TIMER、GEPIA2、LinkedOmics、DepMap、HPA、STRING、KEGG和BioPlex等,重点展示如何使用这些数据库进行单基因分析。
数据库检索
TCGA
TCGA数据比较全,所以在线分析网站比较多,我们主要列举其中广泛使用的几个。
TIMER
TIMER2网站主要提供了基因表达、CNV、突变以及临床数据的分析,还是比较全的。还有一个比较有特色的功能,可以分析基因与免疫细胞浸润水平之间的相关性,有很多解卷积的算法所计算出来的不同类型的免疫细胞浸润水平。网站访问比较慢,可能需要试试翻墙。
- 基因与免疫细胞浸润水平
点击Immune分析模块,选择需要检索的基因以及想要计算与哪些免疫细胞浸润水平的相关性,然后提交即可。也可以选择是否根据肿瘤细胞的纯度进行相关性的矫正,默认是选中的。
分析完后,会返回一个表格。表示不同癌症类型中,目标基因与对应免疫细胞浸润水平的相关性,会展示不同算法的计算结果。点击其中某个值,会弹出一个窗口,显示基因表达与肿瘤纯度及免疫细胞浸润水平的相关性散点图。
- 基因组变异与免疫细胞浸润水平
类似地,可以根据基因是否突变或拷贝数变异分组,并比较不同分组之间免疫细胞浸润水平的差异是否具有显著性
- 突变
- 拷贝数变异
右侧结果图展示泛癌中基因的基因组变异情况,下方的表格展示分组之间的logFC。点击其中的值,可以看到具体分组之间的差异
- 免疫细胞浸润水平与生存分析
Outcome可以分析基因表达与免疫细胞浸润水平及临床信息的多变量Cox回归
点击结果表中的值Z-score值可以看到在某一个癌症中,多分组K-M生存曲线(高低表达与高低浸润水平之间的组合)
- 基因在泛癌中的表达
在Exploration中选择Gene_DE可以查看基因在泛癌中癌和正常的表达情况。这里有一个问题,它将配对的癌症和正常样本都放进去检验了,不符合样本的独立性假设。应该在癌症样本中,把那些和正常样本配对的癌症样本去掉。
- 基因表达与生存的关系
在Gene_Outcome模块中可以分析基因表达(可以加上临床特征)与患者的生存时间的相关性。
- 基因突变与基因表达之间的关系
可以选择同一个基因的突变和表达,或者一个基因的突变与另一个基因的表达是否具有显著相关结果表中会展示基因突变分组之间基因表达的差异(logFC)
- 基因之间表达的相关性
Gene_Corr可以计算一个基因与其他基因在泛癌中的相关性水平
- 评估样本中免疫细胞浸润水平
最后一个功能是上传自己的表达谱,让它来计算样本中免疫细胞的浸润水平
GEPIA2
GEPIA2是整合了TCGA癌症样本以及GTEx的正常样本在首页,选择单基因分析,首先会跳出基因在肿瘤和正常的不同组织器官中的表达情况,颜色越深表达越高。
然后是泛癌与正常样本表达的点图
- 基因表达结果绘制
左侧选择Expression Analysis,选择Expression DIY,然后选择基因以及对应的癌症类型这个只是上面泛癌单图的加强版,用处不大可以换成箱线图结果好看了不少
- 查看基因在不同临床分期中的表达情况
- 基因表达的生存分析
基因表达与生存的关系,可以选择使用均值、分位数等对样本分组,也可以看OS或DFS生存信息,选择比TIMER多一点结果图就比较方正,信息都挤一块了,不太好看
- 不同转录本的表达情况
Isoform Details可以查看基因的转录本表达情况
- 表达相关性分析
Correlation Analysis可以选择不同的相关性计算方法
但是虽然可以选择不同的样本类型,但是在图中并没有用颜色区分
- Similar Genes Detection
可以寻找在某些癌症中,和目标基因的表达具有相关性的基因。
LinkedOmics
LinkedOmics网站主要提供了对基因的相关性分析,并对相关性结果进行富集分析。进入主页之后,不需要注册,直接游客登录即可分析主要包括5个步骤:选择癌型,选择数据集,选择基因或其他特征,选择目标数据集,最后选择统计方法。
例如,我们选择BRCA,点击选中后会自动跳出下一步第二步,选择mRNA表达数据
第三步,输入目标基因(2b用于过滤样本的,可选)
第四步,选择目标数据,一般是同一种类型的数据看相关性,也可以mRNA和miRNA之间的相关性,看具体情况
第五步,选择分析方法,我们选择Spearman相关性算法选完之后就可以点击提交了,等待分析完成
完成之后,选择这个分析任务可以看到分析结果,表格展示了与每个基因的相关性,并根据相关系数从大到小排序。右边是相关系数与P值的火山图,最下面两张是正负显著相关基因的表达热图。
选择LinkInterpreter,可以进行基因富集分析,有ORA和GSEA两种富集方式。可以选择不同的通路数据库以及正负相关基因,还有一些显著性指标等
分析完成之后,会展示出一个通路列表信息点击GO Slim summary for the user uploaded IDs可以看到GO通路富集结果的柱状图
细胞系
DepMap
DepMap数据库主要提供了细胞系多组学数据的检索和分析。查询目标基因会返回很多信息图表,比如基因在细胞系中的表达、拷贝数变异、突变以及细胞依赖性等翻到最小面可以看到基因的共依赖性最显著的几个基因点击plot就可以看到两个基因在不同细胞系中的影响分数散点图点击Show pre-computed associations可以看到一些根据相关性从大到小排序的基因,以及对象的数据类型。可以看到TP53的依赖性与EDA2R的表达相关性很高我们也可以自由选择X轴和Y轴的数据,例如选择表达数据计算与药物之间的相关性也可以选择不同的细胞类型等这个网站一般只能看基因和其他特征的相关性,在多组学层面进行探索。
蛋白质
HPA
HPA数据库提供了丰富的基因或蛋白信息,包括组织、单细胞、病例图形、免疫荧光图片、细胞系等多种数据的检索。查询完目标基因之后,首先是基因的一些简单的摘要信息,对哪个感兴趣就可以点击相应的链接
- 组织中的表达情况
点击TISSUE可以查看基因在组织中的表达情况,还有相应的病例图像及蛋白表达等
往后面翻可以看到在不同数据集中的表达情况,数据非常的丰富
- 单细胞表达情况
点击SINGLE CELL查看在单细胞中的表达情况每种组织的每类细胞中的表达情况
- 免疫荧光图像
对于部分基因,还会包含不同细胞周期中基因表达的变化。可以看到蛋白表达与细胞周期有关,mRNA表达与细胞周期无关
- 基因互作
最后一个INTERACTION可以查看与目标基因互作的基因,并且可以根据亚细胞定位和预测位置等对基因进行着色。可以看到,TP53与很多基因在核内共定位。后面的表格可以查看与每个基因的互作情况
互作网络
互作网络分析,可以快速搜索与目标基因存成互作关系的基因,通过其他基因的功能来说明目标基因可能存在的一些功能作用
STRING
STRING数据库主要收录了一些从数据库、文章或算法预测的蛋白质互作网络。检索目标基因并选择物种查看互作网络图
下方可以选择对应的分析模块
共表达分析
分析模块可以看网络中的基因在通路、蛋白质数据库等中的富集情况
也可以将数据导出,用其他软件绘制互作网络图
KEGG
KEGG Mapper – Color工具是KEGG提供的用于检索基因在通路中的位置,可以输入多个基因或上传文件。
注意,要输入基因名称,人类要选择hsa,以及是否支持别名等选项。然后可以看到基因出现的通路列表
选择其中一个,查看基因所在通路中的位置。目标基因将会标注上对应的颜色方便查看目标基因在通路中的功能。
BioPlex
BioPlex是蛋白质谱分析生成的基因互作网络,可以检索与目标基因直接互作的基因。检索之后会有三个网络,分别是在两种细胞系中检测到的基因互作关系,以及合并两个结果的互作图。点击网页下方的GO Ontology可以查看互作网络富集到的通路Interaction Table可以查看更具体的互作信息