问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

基因功能注释和富集分析详细教程

创作时间:
作者:
@小白创作中心

基因功能注释和富集分析详细教程

引用
CSDN
1.
https://blog.csdn.net/weixin_44562189/article/details/133910611

基因功能注释和富集分析是生物信息学研究中的重要环节,通过将未知功能的基因与已知功能的基因进行比对,可以推断出基因的功能。本文将详细介绍如何使用各种数据库和工具进行基因功能注释,包括NR、Swiss-Prot、COG/KOG、eggNOG、Interpro、GO、KEGG、CAZY、Pfam等数据库,以及如何进行分泌蛋白注释。

基因功能注释概述

基因功能注释依赖于上一步的基因结构预测,根据预测结果从基因组上提取翻译后的蛋白序列,并与主流数据库进行比对,以完成功能注释。常用数据库包括:

  • Nr:NCBI官方非冗余蛋白数据库,包括PDB, Swiss-Prot, PIR, PRF等
  • Pfam:蛋白结构域注释的分类系统
  • Swiss-Prot:高质量的蛋白数据库,蛋白序列得到实验的验证
  • KEGG:代谢通路注释数据库
  • GO:基因本体论注释数据库

基本流程包括:下载数据库,构建BLASTP索引,数据库检索,结果整理。其中结果整理需要根据BLASTP的输出格式调整。

1. NR 注释

1.1 下载真菌的refseq数据库

mkdir -p ~/Qxy/ncbi-blast-qxy/db/
cd ~/Qxy/ncbi-blast-qxy/db/
wget -4  -nd -np -r 1 -A *.faa.gz ftp://ftp.ncbi.nlm.nih.gov/refseq/release/fungi/
mkdir -p ~/Qxy/ncbi-blast-qxy/RefSeq
zcat *.gz > ~/Qxy/ncbi-blast-qxy/RefSeq/fungi.protein.faa
~/anaconda3/bin/makeblastdb -in fungi.protein.faa -dbtype prot -parse_seqids -title RefSeq_fungi -out fungi

1.2 正式分析

cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir Nr
cd Nr
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./ 
nohup diamond blastp --db ~/Qxy/ncbi-blast-qxy/RefSeq/fungi.protein.faa --query Umbilicaria_antarctica.proteins.fasta --out Nr.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-5 --id 10 --index-chunks 1 &
~/Qxy/qxyjiaoben/parsing_blast_result.pl --out-hit-confidence --suject-annotation Nr.xml > Nr.tab
~/Qxy/qxyjiaoben/nr_species_distribution.pl Nr.tab > Nr_species_distribution.txt
~/Qxy/qxyjiaoben/gene_annotation_from_Nr.pl Nr.tab > Nr.txt

2. Swiss-Prot 注释

2.1 下载数据库

mkdir -p ~/Qxy/Swiss-Prot
cd ~/Qxy/Swiss-Prot
wget -4 -q ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
gzip -d uniprot_sprot.fasta.gz
~/anaconda3/bin/makeblastdb -in uniprot_sprot.fasta -dbtype prot -title swiss_prot -parse_seqids

2.2 正式分析

cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir Swiss-Prot
cd Swiss-Prot
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./ 
diamond blastp --query Umbilicaria_antarctica.proteins.fasta --db ~/Qxy/Swiss-Prot/uniprot_sprot.fasta  --out uniprot_sprot.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-5 --id 10 --index-chunks 1
~/Qxy/qxyjiaoben/parsing_blast_result.pl --out-hit-confidence --suject-annotation uniprot_sprot.xml > uniprot_sprot.tab
~/Qxy/qxyjiaoben/gene_annotation_from_SwissProt.pl uniprot_sprot.tab > SwissProt.txt

3. COG / KOG 注释

3.1 下载数据库

wget https://ftp.ncbi.nih.gov/pub/COG/KOG/kyva 
wget https://ftp.ncbi.nih.gov/pub/COG/KOG/fun.txt 
wget https://ftp.ncbi.nih.gov/pub/COG/KOG/kog 
makeblastdb -in kyva -input_type fasta -dbtype prot 
diamond makedb --in kyva -d kyva.diamond 

3.2 正式分析

cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir kog
cd kog
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
diamond blastp --db ~/Qxy/KOG/kyva.diamond --query Umbilicaria_antarctica.proteins.fasta --out kog.xml --outfmt 5 --sensitive --max-target-seqs 200 --evalue 1e-5 --id 10 --tmpdir /dev/shm --index-chunks 1
~/Qxy/qxyjiaoben/cog_from_xml.pl --coverage 0.2 --evalue 1e-5  --db-fasta ~/Qxy/KOG/kyva --db-class ~/Qxy/KOG/kog --fun-txt ~/Qxy/KOG/fun.txt kog.xml
cut -f 1,3,4 out.annot | ~/Qxy/qxyjiaoben/gene_annotation_from_table.pl - > KOG.txt
~/Qxy/qxyjiaoben/cog_R.pl --title "KOG Function Classification of Whole Genome Genes of Umbilicaria antarctica" --y-name "Number of Genes" out.class

3.3 结果解读

KOG注释分为25个类别A-Z(没有X),结果文件是kog.xml,经过处理得到out.tab、out.annot、out.class。这些类别包括:

  • A: RNA加工和修饰
  • B: 染色质结构和动力学
  • C: 能源生产和转换
  • D: 细胞周期调控,细胞分裂,染色体分裂
  • E: 氨基酸运输和代谢
  • F: 核苷酸转运和代谢
  • G: 碳水化合物运输和代谢
  • H: 辅酶运输和代谢
  • I: 脂质转运和代谢
  • J: 翻译、核糖体结构和生物发生
  • K: 转录
  • L: 复制、重组和修复
  • M: 细胞壁/膜/包膜生物发生
  • N: 细胞运动
  • O: 翻译后修饰,蛋白质周转,伴侣
  • P: 无机离子运输和代谢
  • Q: 次生代谢物的生物合成、运输和分解代谢
  • R: 一般功能预测
  • S: 功能未知
  • T: 信号转导机制
  • U: 细胞内运输、分泌和囊泡运输
  • V: 防御机制
  • W: 细胞外结构
  • Y: 核结构
  • Z: 细胞骨架

4. eggNOG 注释

在eggNOG官网提交蛋白序列进行注释:http://eggnog-mapper.embl.de/

下载结果文件out.emapper.annotations,其中包含以下信息:

  1. query:输入序列的名称
  2. seed_ortholog:匹配到的种子序列的注释信息
  3. evalue:输入序列与种子序列的匹配E-value阈值
  4. score:输入序列与种子序列的匹配得分
  5. eggNOG_OGs:与输入序列匹配的EggNOG orthologous groups(OGs)
  6. max_annot_lvl:在输入序列的注释中提供的最大注释级别
  7. COG_category:Clusters of Orthologous Groups(COG)分类
  8. Description:该序列的功能描述
  9. Preferred_name:该序列的首选或标准名称
  10. GOs:Gene Ontology(GO)注释信息
  11. EC:对应的酶学注释号
  12. KEGG_ko:对应的KEGG Orthology(KO)号
  13. KEGG_Pathway:KEGG通路信息
  14. KEGG_Module:KEGG模块信息
  15. KEGG_Reaction:KEGG反应信息
  16. KEGG_rclass:KEGG反应分类信息
  17. BRITE:BRITE功能层次结构注释
  18. KEGG_TC:KEGG传输物质分类信息
  19. CAZy:碳水化合物活性酶家族注释信息
  20. BiGG_Reaction:输入序列与BiGG数据库中的反应匹配的信息
  21. PFAMs:序列中与PFAM数据库匹配的信息

5. Interpro 注释

5.1 在线网站操作

进入Interpro网站:http://www.ebi.ac.uk/interpro/search/sequence/

5.2 服务器操作

mkdir interpro
cd interpro
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
sed 's/\*//g' Umbilicaria_antarctica.proteins.fasta  > cleanseq.fa 
nohup python3 ~/Qxy/interpro5/iprscan5.py --multifasta Umbilicaria_antarctica.proteins.fasta --maxJobs 25 --useSeqId --email qiuxuyun21@mails.ucas.ac.cn --outformat tsv &

6. GO注释分析和富集分析

6.1 整合eggNOG和InterPro中的GO注释结果

go_from_eggNOG_and_interpro.pl ../04.eggNOG/eggNOG.emapper.annotations ../05.InterPro/interpro.tsv > go.annot
go_reducing_go_number_para.pl /opt/biosoft/go_class/bin/go-basic.obo go.annot 8 > go_reduced.annot
sort go_reduced.annot > go.annot; rm go_reduced.annot
gene_annotation_from_table.pl go.annot > GO.txt

6.2 GO分类

6.3 GO富集分析

7. KEGG注释及Pathway富集分析

7.1 在线提交序列注释

KAAS网址:http://www.genome.jp/kaas-bin/kaas_main

7.2 富集分析

8. CAZY annotation

使用在线网站进行注释:https://bcb.unl.edu/dbCAN2/

9. Pfam注释

9.1 下载安装Pfam数据库

wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam33.1/Pfam-A.hmm.gz
gunzip -d Pfam-A.hmm.gz
hmmpress Pfam-A.hmm

9.2 使用hmmscan进行Pfam注释

cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir Pfam
cd Pfam
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
~/Qxy/qxyjiaoben/para_hmmscan.pl --outformat --cpu 4 --hmm_db ~/Qxy/Pfam/Pfam-A.hmm Umbilicaria_antarctica.proteins.fasta > Pfam.tab
cut -f 1,2,7 Pfam.tab | perl -e '<>; print <>' | ~/Qxy/qxyjiaoben/gene_annotation_from_table.pl - > Pfam.txt

10. 真菌的 Transcription Factor 注释

cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir TF
cd TF
interpro2tf_for_Fungi.pl ../functional_annotation.InterPro.tab --out_prefix TF

11. 分泌蛋白注释

11.1 信号肽注释

cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir secreted_protein
cd secreted_protein
mkdir singalp
cd singalp
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
signalp -batch 30000 -org euk -fasta Umbilicaria_antarctica.proteins.fasta -gff3 -mature

11.2 跨膜区分析

在线网站DeepTmhmm分析跨膜区:https://dtu.biolib.com/DeepTMHMM

11.3 分析GPI锚定位点

在线网站Predgpi:https://busca.biocomp.unibo.it/predgpi/

11.4 进行亚细胞定位

在线网站:http://busca.biocomp.unibo.it/

最后得到的Umbilicaria_antarctica.proteins_BUSCA.fasta即为分泌蛋白的名称和序列。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号