UniProt数据库使用指南:蛋白质信息查询与挖掘
UniProt数据库使用指南:蛋白质信息查询与挖掘
UniProt数据库是生命科学研究领域中一个重要的蛋白质信息资源库,由欧洲生物信息研究所(EMBL-EBI)、瑞士苏黎世大学的Swiss Institute of Bioinformatics(SIB)和美国国家生物技术信息中心(NCBI)三家机构合作维护。该数据库整合了来自全球的蛋白质序列及相关功能信息,为研究人员提供了全面、权威的数据支持。本文将详细介绍UniProt数据库的各个组成部分及其使用技巧。
UniProt数据库概述
UniProt数据库全称Universal Protein,是由欧洲生物信息研究所(EMBL-EBI)、瑞士苏黎世大学的Swiss Institute of Bioinformatics(SIB)和美国国家生物技术信息中心(NCBI)三家机构合作维护的知识库,旨在整合、注释和提供全面的蛋白质序列及相关功能信息。
该数据库由四个主要部分组成:
UniProtKB
是UniProt的核心组成部分,分为Reviewed(Swiss-Prot)和Unreviewed(TrEMBL)。Reviewed包含专家手动注释的高质量蛋白质数据,包括蛋白质的功能描述、域结构、变异信息、文献引用等详细资料;TrEMBL则收集自国际核酸序列数据库(GenBank/DDBJ/EMBL),包含了自动注释的蛋白质序列数据,主要用于那些未经过人工审核的序列信息。
Proteomes
用于集中展示特定物种的完整蛋白质组信息。聚焦于那些已经完成了全基因组测序的物种,通过将基因组预测出的所有蛋白质编码基因的产物进行编目和注解,形成了全面的物种蛋白组图谱。
UniRef
是一个聚类数据库,通过算法将相似的蛋白质序列归类在一起,生成代表性的序列集合,提高数据检索效率。细分为UniRef100、UniRef90和UniRef50三种不同层次的聚类标准,分别对应于97%、90%和50%的序列一致性阈值。
UniParc
这个数据库汇集了来自多个来源的全部蛋白质序列,包括但不限于UniProtKB、PIR、PRF、NCBI RefSeq等,它作为一个综合存储库,确保每个序列只被收录一次,即便同一序列出现在多个来源中,也只保留一份,有效防止重复。
数据库使用方法
我们以人源的IL-6为例,演示UniProt数据库的使用方法:
基本搜索
- 关键词搜索:直接在首页搜索框中输入蛋白质名称、ID、物种名、功能描述等关键词进行快速检索。
- 高级搜索:点击“Advanced”链接进入高级搜索页面,这里可以通过构建复杂的逻辑语句(AND、OR、NOT)和使用特定字段(如gene、protein name、organism等)进行精准查询。
详细信息查看
- 打开官网主页:www.uniprot.org/,搜索栏输入IL-6,点击Search或键盘回车,然后左侧栏选择Human
- 查看蛋白质基本信息:
- Entry:Uniprot给每个蛋白质赋予的ID(由此进入查看具体信息)
- Entry name:蛋白ID的简要名字
- Protein names:蛋白质的名字
- Gene names:编码这个蛋白的Gene名字
- Organism:蛋白质的种属来源
- Length:氨基酸长度
- 进入详情页面,左侧栏为目录,点击即可查看,包含丰富的信息板块,如蛋白功能、亚细胞定位、序列特征、蛋白表达与互作、文献引用、相似性蛋白、结构域预测等。
高级功能使用
BLAST
BLAST(Basic Local Alignment Search Tool)是一种用于比较核酸或蛋白质序列与大型数据库中存储的所有序列的软件工具包。UniProt提供的Blast工具专门针对其收录的蛋白质序列进行优化,使用户能够搜索相似序列、蛋白功能预测、物种进化分析、结构建模。
具体步骤:
- 以人类的IL-6为例,复制粘贴或输入刚刚选择的IL-6的Entry标识符,会自动跳出相应的序列信息,或直接粘贴已有的序列。
- 选择目标数据库。默认情况下,搜索所有参考蛋白质组 + UniProtKB/Swiss-Prot,但您可以选择仅针对 UniProtKB/Swiss-Prot 中已审阅的序列运行。
- 限制物种选项让你精准定位搜索范围,只需输入特定代码,例如,输入“9606”,搜索便只针对人类蛋白质;若想涵盖整个哺乳动物界,则使用“哺乳动物 [40674]”。也可以选择自动完成功能,轻松完成,确保你的查询更贴合研究需求。
- 点击RUN blast,等待结果。
Align
用于两个或多个序列的信息比对,以识别相似区域,这些区域可能是序列之间功能、结构或进化关系的结果。
具体步骤:
- 将准备好的两段(或两段以上)序列输入进去,或输入Uniprot的Entry标识符,会自动识别序列。
- 点击RUN Align,等待结果
Tree
通过系统发育树来表示序列之间的进化关系。
Search with list map IDs
“检索/ID 映射”工具,您可以在其中提交标识符列表以检索相应的 UniProt 条目,或将 UniProt 标识符映射到外部数据库,UniProt条目中包含指向GenBank、PubMed、KEGG、GO等外部资源的链接,方便获取更多相关信息。
Search peptides
多肽搜索”工具,允许您提交至少 3 个残基的短肽序列,并找到与查询序列完全匹配的所有 UniProtKB 序列
总结
UniProt数据库是一个功能强大且全面的蛋白质信息资源库,对于生命科学研究人员来说,掌握其使用方法和技巧至关重要。通过本文的介绍,相信读者能够更好地利用UniProt数据库进行蛋白质信息查询和分析。