问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

全球蛋白质及基因组经典数据库汇总

创作时间:
作者:
@小白创作中心

全球蛋白质及基因组经典数据库汇总

引用
CSDN
1.
https://m.blog.csdn.net/Fumingouge/article/details/141637500

生物信息学是生命科学领域的重要分支,涉及大量数据的存储、分析和解读。为了帮助研究人员更好地利用这些数据资源,本文汇总了全球范围内一些经典的蛋白质、基因组、转录因子、ChIP-seq以及癌症相关的数据库。这些数据库不仅为科学研究提供了丰富的数据支持,也为相关领域的学者提供了便捷的查询和分析工具。

全球蛋白质及基因组经典数据库

UniProt——最全面最好用的综合数据库

UniProt(Universal Protein Resource)是一个综合性的蛋白质数据库,提供了全球范围内已知的蛋白质序列和功能信息。其中,UniProtKB(UniProt Knowledgebase)是最核心的组成部分,包含了经过注释和分类的蛋白质序列和功能信息。它提供了详细的蛋白质注释,包括序列特征、结构域、功能、亚细胞定位、酶活性等。

UniProtKB分为三个子数据库:UniProtKB/Swiss-Prot、UniProtKB/TrEMBL和UniProtKB/PIR。其中,UniProtKB/Swiss-Prot是手工注释的高质量蛋白质数据库,提供了丰富的注释信息;UniProtKB/TrEMBL是通过自动注释和预测获得的蛋白质数据库,注释水平相对较低;UniProtKB/PIR是由Protein Information Resource(PIR)提供的蛋白质数据库。

蛋白三维结构数据库

PDB

Protein Data Bank(PDB) 为存储蛋白质3D结构的数据库,提供蛋白的结构解析和功能注释。我们可以通过PDB查找蛋白的3D结构信息。

Google,神奇的Alphafold 2

网址:http://www.alphafold.ebi.ac.uk

基因组数据库

Ensembl——动物基因组的百科全书

Ensembl是一个由欧洲生物信息学研究所和英国桑格研究院联手打造的数据库,收录了各种动物的基因组信息,让你在比较基因组学、演化生物学研究、序列变异和转录调控等领域游刃有余!

UCSC Genome Browser——你的基因组浏览器

UCSC Genome Browser是一个强大的浏览器,不仅能展示任何规模基因组的任意部分,还提供了丰富的注释信息,让你的研究更加便捷高效!

转录因子数据库

AnimalTFDB——动物转录因子和转录辅因子的宝库

AnimalTFDB是一个收录了动物转录因子和转录辅因子(transcription cofactors)信息的数据库。无论你是想了解转录因子的家族分类,还是想探索它们在基因表达调控中的作用,AnimalTFDB都能为你提供详尽的信息!

PlantTFDB——植物转录因子的宝库

PlantTFDB涵盖了156个物种的基因组数据,收录了315,099个转录因子。从结合位点到调控元素,再到它们之间的相互作用,这里应有尽有!

JASPAR——转录因子在DNA上的结合位点的数据库

JASPAR是一个免费公开的转录因子数据库,在该数据库中收录了转录因子的motif信息,通过JASPAR数据库,我们能获取转录因子偏好结合的motif序列信息,然后通过软件进行序列比对来判断和预测基因组中可能结合该转录因子的基因。

TRANSFAC——关于转录因子、它们在基因组上的结合位点的数据库

TRANSFAC是gene-regulation.com旗下的子数据库。 TRANSFAC数据库收录了真核生物转录因子信息,包括实验证明的结合位点、潜在的结合位点、调控的基因等信息。TRANSFAC是真核转录调控DNA序列元件和转录因子数据库,已经有30多年的历史了,其数据量不仅稳步增加,利用它开发的生物信息学工具也越来越多,例如PATCH可用于分析转录因子结合位点的序列相似性,MATCH可用于识别潜在的TFBS。

ChEA3——一个预测多基因转录因子调控网络的数据库

前述讲到转录因子调控预测的时候,通常都是基于单一基因来做的,随着测序技术的成熟,在做完组学数据分析的时候,经常可以得到很多的基因。如果要寻找这么多基因的共同转录因子的话,要怎么办呢?那这个数据库就可以排上用场了。

ChIP-seq的数据库

Cistrome DB——人类和小鼠ChIP-seq及染色质开放性信息数据库

Cistrome DB是一个较为全面且公开的人类和小鼠ChIP-seq及开放染色质信息资源数据库。总共收录了30451人和26013小鼠的转录因子、组蛋白修饰和染色质可及性样本,可以说是目前最全面的研究ChIP-seq和DNase-seq的数据库。我们可在Cistrome DB查看转录因子调控的基因,详细的数据注释、分析结果和单个数据集的详细信息(数据的QC情况、motif分析结果、潜在的靶基因预测)、同时还可以在基因组浏览器中查看数据的分布及下载分析的结果文件。

ENCODE数据库

ENCODE: Encyclopedia of DNA Elements,DNA元件百科全书

目标:按不同组织,收集人类、小鼠、蠕虫和苍蝇四个物种基因组里面的所有功能元件的解释

所包含的数据如下图所示:

目前的ENCODE数据库通过多种测序数据来反映解读基因组,分别是通过下列实验技术:

  • Hi-C 来研究三维基因组
  • ATAC-seq来研究染色质的开放性
  • ChIP-seq 研究基因的转录调控和组蛋白修饰情况
  • 甲基化芯片来研究甲基化的调控作用
  • RNA-seq 来研究基因转录组的变化
  • RIP-seq 研究在转录后RNA与Protein互作的信息

癌症数据库

TCGA------The Cancer Genome Atlas(癌症基因组图谱)

这个数据库收集的信息特别全。

首先,对于研究病种而言,这个数据库包括了33种肿瘤的数据。

其次,数据库检测的数据类型多。对于同一个癌种,我们可以获得这个癌种的: 表达数据、miRNA表达数据、甲基化数据、突变数据和拷贝数数据。如果我们使用GEO数据库检索某一个癌种,同样也可以得到这些相关的数据。但是TCGA数据库珍贵的地方是,这个数据都是出自同一个人的。这样的话,我们就可以研究不同组学之间的交叉反应了。比如突变对于表达的影响、甲基化和表达的关系等等。

第三,TCGA除了包括了不同测序的数据,同时对于每一个纳入的患者还包括了其临床的信息。更难能可贵的是,临床信息当中还包括了预后随访的信息。这个我们就可以来分析以上的测序数据集和临床信息之间的关系了,比如分析基因表达和预后的关系等等。

正常人组织的数据库

GTEx ------ Genotype-Tissue Expression

这个数据库和TCGA和ICGC不同的是:TCGA和ICGC是肿瘤相关的数据,而GTEx收集的是正常人身上的组织来进行的测序数据,所以GTEx数据库是正常人的数据。

这个数据库的独特用处,一方面是可以研究正常人不同组织之间的基因表达的区别;另外一方面,就是和TCGA联合使用。由于TCGA重点收集的还是癌症组织的数据,对于其正常的数据收集的相对来说较少,由于正常样本少所以对于差异表达的结果可能就不是很准确。这个时候如果把GTEx的数据纳入进来,这样分析的结果就会更有效更准确。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号