基因功能注释和富集分析详细教程
基因功能注释和富集分析详细教程
基因功能注释和富集分析是生物信息学研究中的重要环节,通过将未知功能的基因与已知功能的基因进行比对,可以推断出基因的功能。本文将详细介绍如何使用各种数据库和工具进行基因功能注释,包括NR、Swiss-Prot、COG/KOG、eggNOG、Interpro、GO、KEGG、CAZY、Pfam等数据库,以及如何进行分泌蛋白注释。
基因功能注释概述
基因功能注释依赖于上一步的基因结构预测,根据预测结果从基因组上提取翻译后的蛋白序列,并与主流数据库进行比对,以完成功能注释。常用数据库包括:
- Nr:NCBI官方非冗余蛋白数据库,包括PDB, Swiss-Prot, PIR, PRF等
- Pfam:蛋白结构域注释的分类系统
- Swiss-Prot:高质量的蛋白数据库,蛋白序列得到实验的验证
- KEGG:代谢通路注释数据库
- GO:基因本体论注释数据库
基本流程包括:下载数据库,构建BLASTP索引,数据库检索,结果整理。其中结果整理需要根据BLASTP的输出格式调整。
1. NR 注释
1.1 下载真菌的refseq数据库
mkdir -p ~/Qxy/ncbi-blast-qxy/db/
cd ~/Qxy/ncbi-blast-qxy/db/
wget -4 -nd -np -r 1 -A *.faa.gz ftp://ftp.ncbi.nlm.nih.gov/refseq/release/fungi/
mkdir -p ~/Qxy/ncbi-blast-qxy/RefSeq
zcat *.gz > ~/Qxy/ncbi-blast-qxy/RefSeq/fungi.protein.faa
~/anaconda3/bin/makeblastdb -in fungi.protein.faa -dbtype prot -parse_seqids -title RefSeq_fungi -out fungi
1.2 正式分析
cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir Nr
cd Nr
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
nohup diamond blastp --db ~/Qxy/ncbi-blast-qxy/RefSeq/fungi.protein.faa --query Umbilicaria_antarctica.proteins.fasta --out Nr.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-5 --id 10 --index-chunks 1 &
~/Qxy/qxyjiaoben/parsing_blast_result.pl --out-hit-confidence --suject-annotation Nr.xml > Nr.tab
~/Qxy/qxyjiaoben/nr_species_distribution.pl Nr.tab > Nr_species_distribution.txt
~/Qxy/qxyjiaoben/gene_annotation_from_Nr.pl Nr.tab > Nr.txt
2. Swiss-Prot 注释
2.1 下载数据库
mkdir -p ~/Qxy/Swiss-Prot
cd ~/Qxy/Swiss-Prot
wget -4 -q ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
gzip -d uniprot_sprot.fasta.gz
~/anaconda3/bin/makeblastdb -in uniprot_sprot.fasta -dbtype prot -title swiss_prot -parse_seqids
2.2 正式分析
cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir Swiss-Prot
cd Swiss-Prot
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
diamond blastp --query Umbilicaria_antarctica.proteins.fasta --db ~/Qxy/Swiss-Prot/uniprot_sprot.fasta --out uniprot_sprot.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-5 --id 10 --index-chunks 1
~/Qxy/qxyjiaoben/parsing_blast_result.pl --out-hit-confidence --suject-annotation uniprot_sprot.xml > uniprot_sprot.tab
~/Qxy/qxyjiaoben/gene_annotation_from_SwissProt.pl uniprot_sprot.tab > SwissProt.txt
3. COG / KOG 注释
3.1 下载数据库
wget https://ftp.ncbi.nih.gov/pub/COG/KOG/kyva
wget https://ftp.ncbi.nih.gov/pub/COG/KOG/fun.txt
wget https://ftp.ncbi.nih.gov/pub/COG/KOG/kog
makeblastdb -in kyva -input_type fasta -dbtype prot
diamond makedb --in kyva -d kyva.diamond
3.2 正式分析
cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir kog
cd kog
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
diamond blastp --db ~/Qxy/KOG/kyva.diamond --query Umbilicaria_antarctica.proteins.fasta --out kog.xml --outfmt 5 --sensitive --max-target-seqs 200 --evalue 1e-5 --id 10 --tmpdir /dev/shm --index-chunks 1
~/Qxy/qxyjiaoben/cog_from_xml.pl --coverage 0.2 --evalue 1e-5 --db-fasta ~/Qxy/KOG/kyva --db-class ~/Qxy/KOG/kog --fun-txt ~/Qxy/KOG/fun.txt kog.xml
cut -f 1,3,4 out.annot | ~/Qxy/qxyjiaoben/gene_annotation_from_table.pl - > KOG.txt
~/Qxy/qxyjiaoben/cog_R.pl --title "KOG Function Classification of Whole Genome Genes of Umbilicaria antarctica" --y-name "Number of Genes" out.class
3.3 结果解读
KOG注释分为25个类别A-Z(没有X),结果文件是kog.xml,经过处理得到out.tab、out.annot、out.class。这些类别包括:
- A: RNA加工和修饰
- B: 染色质结构和动力学
- C: 能源生产和转换
- D: 细胞周期调控,细胞分裂,染色体分裂
- E: 氨基酸运输和代谢
- F: 核苷酸转运和代谢
- G: 碳水化合物运输和代谢
- H: 辅酶运输和代谢
- I: 脂质转运和代谢
- J: 翻译、核糖体结构和生物发生
- K: 转录
- L: 复制、重组和修复
- M: 细胞壁/膜/包膜生物发生
- N: 细胞运动
- O: 翻译后修饰,蛋白质周转,伴侣
- P: 无机离子运输和代谢
- Q: 次生代谢物的生物合成、运输和分解代谢
- R: 一般功能预测
- S: 功能未知
- T: 信号转导机制
- U: 细胞内运输、分泌和囊泡运输
- V: 防御机制
- W: 细胞外结构
- Y: 核结构
- Z: 细胞骨架
4. eggNOG 注释
在eggNOG官网提交蛋白序列进行注释:http://eggnog-mapper.embl.de/
下载结果文件out.emapper.annotations,其中包含以下信息:
- query:输入序列的名称
- seed_ortholog:匹配到的种子序列的注释信息
- evalue:输入序列与种子序列的匹配E-value阈值
- score:输入序列与种子序列的匹配得分
- eggNOG_OGs:与输入序列匹配的EggNOG orthologous groups(OGs)
- max_annot_lvl:在输入序列的注释中提供的最大注释级别
- COG_category:Clusters of Orthologous Groups(COG)分类
- Description:该序列的功能描述
- Preferred_name:该序列的首选或标准名称
- GOs:Gene Ontology(GO)注释信息
- EC:对应的酶学注释号
- KEGG_ko:对应的KEGG Orthology(KO)号
- KEGG_Pathway:KEGG通路信息
- KEGG_Module:KEGG模块信息
- KEGG_Reaction:KEGG反应信息
- KEGG_rclass:KEGG反应分类信息
- BRITE:BRITE功能层次结构注释
- KEGG_TC:KEGG传输物质分类信息
- CAZy:碳水化合物活性酶家族注释信息
- BiGG_Reaction:输入序列与BiGG数据库中的反应匹配的信息
- PFAMs:序列中与PFAM数据库匹配的信息
5. Interpro 注释
5.1 在线网站操作
进入Interpro网站:http://www.ebi.ac.uk/interpro/search/sequence/
5.2 服务器操作
mkdir interpro
cd interpro
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
sed 's/\*//g' Umbilicaria_antarctica.proteins.fasta > cleanseq.fa
nohup python3 ~/Qxy/interpro5/iprscan5.py --multifasta Umbilicaria_antarctica.proteins.fasta --maxJobs 25 --useSeqId --email qiuxuyun21@mails.ucas.ac.cn --outformat tsv &
6. GO注释分析和富集分析
6.1 整合eggNOG和InterPro中的GO注释结果
go_from_eggNOG_and_interpro.pl ../04.eggNOG/eggNOG.emapper.annotations ../05.InterPro/interpro.tsv > go.annot
go_reducing_go_number_para.pl /opt/biosoft/go_class/bin/go-basic.obo go.annot 8 > go_reduced.annot
sort go_reduced.annot > go.annot; rm go_reduced.annot
gene_annotation_from_table.pl go.annot > GO.txt
6.2 GO分类
6.3 GO富集分析
7. KEGG注释及Pathway富集分析
7.1 在线提交序列注释
KAAS网址:http://www.genome.jp/kaas-bin/kaas_main
7.2 富集分析
8. CAZY annotation
使用在线网站进行注释:https://bcb.unl.edu/dbCAN2/
9. Pfam注释
9.1 下载安装Pfam数据库
wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam33.1/Pfam-A.hmm.gz
gunzip -d Pfam-A.hmm.gz
hmmpress Pfam-A.hmm
9.2 使用hmmscan进行Pfam注释
cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir Pfam
cd Pfam
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
~/Qxy/qxyjiaoben/para_hmmscan.pl --outformat --cpu 4 --hmm_db ~/Qxy/Pfam/Pfam-A.hmm Umbilicaria_antarctica.proteins.fasta > Pfam.tab
cut -f 1,2,7 Pfam.tab | perl -e '<>; print <>' | ~/Qxy/qxyjiaoben/gene_annotation_from_table.pl - > Pfam.txt
10. 真菌的 Transcription Factor 注释
cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir TF
cd TF
interpro2tf_for_Fungi.pl ../functional_annotation.InterPro.tab --out_prefix TF
11. 分泌蛋白注释
11.1 信号肽注释
cd ~/Qxy/qxycexu/U.antarctica/funannotate
mkdir secreted_protein
cd secreted_protein
mkdir singalp
cd singalp
ln -s /ifs1/User/wuqi/Qxy/knowngenome/orthofinder/Umbilicaria_antarctica.proteins.fasta ./
signalp -batch 30000 -org euk -fasta Umbilicaria_antarctica.proteins.fasta -gff3 -mature
11.2 跨膜区分析
在线网站DeepTmhmm分析跨膜区:https://dtu.biolib.com/DeepTMHMM
11.3 分析GPI锚定位点
在线网站Predgpi:https://busca.biocomp.unibo.it/predgpi/
11.4 进行亚细胞定位
在线网站:http://busca.biocomp.unibo.it/
最后得到的Umbilicaria_antarctica.proteins_BUSCA.fasta即为分泌蛋白的名称和序列。