问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

NCBI推荐:高效物种注释新方法

创作时间:
作者:
@小白创作中心

NCBI推荐:高效物种注释新方法

引用
CSDN
9
来源
1.
https://m.blog.csdn.net/qq_43372150/article/details/124913800
2.
https://www.ncbi.nlm.nih.gov/refseq/annotation_euk/process/
3.
https://www.sciencedirect.com/science/article/abs/pii/S1673852721000837
4.
https://rdrr.io/cran/taxonomizr/man/prepareDatabase.html
5.
https://m.affbiotech.cn/goods-11237-DF2993-p57_Kip2_Antibody.html
6.
https://www.ncbi.nlm.nih.gov/refseq/annotation_euk/process/#transcripts
7.
https://www.ncbi.nlm.nih.gov/refseq/annotation_euk/process/#process
8.
https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/
9.
https://m.zhangqiaokeyan.com/academic-journal-foreign_mammalian-genome_thesis/020413104180.html

美国国家生物技术信息中心(NCBI)近期推出了全新的物种注释方法,该方法基于其强大的blast序列比对工具和taxonkit分类学工具,能够显著提升物种注释的效率和准确性。这一新方法不仅简化了操作流程,还大大提升了科研工作的便捷性和精确度。

新方法的核心工具:blast和taxonkit

在新方法中,blast用于序列比对,而taxonkit则用于处理分类学信息。taxonkit是一个专门设计用于NCBI分类学操作的工具包,它提供了多种实用功能,如taxid查询、分类学信息解析等,能够高效处理大规模分类学数据。

数据准备:获取关键数据库文件

要使用这种新方法,首先需要下载两个关键文件:taxdump.tar.gz和accession2taxid数据。这些文件可以从NCBI官网获取。其中,taxdump.tar.gz包含了完整的NCBI分类学数据库,而accession2taxid数据则用于将序列accession号映射到taxid。

在R语言中,可以使用taxonomizr包来下载和预处理这些数据。以下是一个示例代码:

prepareDatabase(
  sqlFile = "nameNode.sqlite",
  tmpDir = ".",
  getAccessions = TRUE,
  vocal = TRUE
)

这段代码会下载names、nodes和accession2taxid数据,并将其预处理成SQLite数据库,便于后续使用。

具体操作流程

  1. 首先使用blast进行序列比对,得到比对结果文件。

  2. 从blast结果中提取accession号:

zcat SampleID.xml.gz | grep 'Iteration_query-def' -A 7 | grep 'Hit_accession' | sed -e 's/.*>\(\S\+\)<.*/\1/g' > SampleID_accession.txt
  1. 将accession号转换为taxid:
Rscript run_accession2taxid.r -i SampleID_accession.txt -o SampleID_accession2taxid.xls
  1. 使用taxonkit补充完整的分类学信息:
cat SampleID_accession2taxid.xls | cut -f 3 | sort | uniq > SampleID_uniq_taxid.xls
taxonkit lineage SampleID_uniq_taxid.xls -j 20 | taxonkit reformat -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" -F | cut -f 1,3- | sed '1i\Taxid\tKingdom\tPhylum\tClass\tOrder\tFamily\tGenu\tSpecies' > SampleID_species.xls

新方法的优势

与传统方法相比,NCBI推荐的新方法具有以下显著优势:

  1. 效率提升:通过模块化设计和优化的算法,新方法在处理大规模数据时表现出色。

  2. 准确性提高:新方法更重视curated evidence(人工审编的证据),在注释过程中给予其更高的权重,从而提高了注释的准确性。

  3. 灵活性增强:新方法支持多种数据源的整合,包括RNA-Seq、蛋白质序列等,能够根据具体需求灵活调整注释策略。

  4. 问题补偿机制:针对基因组组装中存在的问题,新方法能够生成补偿模型,提高注释结果的可靠性。

实际应用场景

在微生物多样性研究中,研究人员经常需要处理大量环境DNA测序数据。使用NCBI的新方法,可以快速完成物种注释,为后续的群落结构分析和生态学研究奠定基础。例如,在宏基因组学研究中,通过准确的物种注释,研究人员能够更好地理解微生物群落的组成和功能。

总结

NCBI推荐的新物种注释方法,通过blast和taxonkit的强强联合,为生物信息学研究者提供了一个高效、准确的注释工具。这种方法不仅简化了操作流程,还大大提升了科研工作的便捷性和精确度,必将成为未来物种注释领域的主流选择。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号