问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

NCBI推荐：高效物种注释新方法

创作时间:

作者:

@小白创作中心

NCBI推荐：高效物种注释新方法

引用

CSDN

等

9

来源

1.

https://m.blog.csdn.net/qq_43372150/article/details/124913800

2.

https://www.ncbi.nlm.nih.gov/refseq/annotation_euk/process/

3.

https://www.sciencedirect.com/science/article/abs/pii/S1673852721000837

4.

https://rdrr.io/cran/taxonomizr/man/prepareDatabase.html

5.

https://m.affbiotech.cn/goods-11237-DF2993-p57_Kip2_Antibody.html

6.

https://www.ncbi.nlm.nih.gov/refseq/annotation_euk/process/#transcripts

7.

https://www.ncbi.nlm.nih.gov/refseq/annotation_euk/process/#process

8.

https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/

9.

https://m.zhangqiaokeyan.com/academic-journal-foreign_mammalian-genome_thesis/020413104180.html

美国国家生物技术信息中心（NCBI）近期推出了全新的物种注释方法，该方法基于其强大的blast序列比对工具和taxonkit分类学工具，能够显著提升物种注释的效率和准确性。这一新方法不仅简化了操作流程，还大大提升了科研工作的便捷性和精确度。

新方法的核心工具：blast和taxonkit

在新方法中，blast用于序列比对，而taxonkit则用于处理分类学信息。taxonkit是一个专门设计用于NCBI分类学操作的工具包，它提供了多种实用功能，如taxid查询、分类学信息解析等，能够高效处理大规模分类学数据。

数据准备：获取关键数据库文件

要使用这种新方法，首先需要下载两个关键文件：taxdump.tar.gz和accession2taxid数据。这些文件可以从NCBI官网获取。其中，taxdump.tar.gz包含了完整的NCBI分类学数据库，而accession2taxid数据则用于将序列accession号映射到taxid。

在R语言中，可以使用taxonomizr包来下载和预处理这些数据。以下是一个示例代码：

prepareDatabase(
  sqlFile = "nameNode.sqlite",
  tmpDir = ".",
  getAccessions = TRUE,
  vocal = TRUE
)

这段代码会下载names、nodes和accession2taxid数据，并将其预处理成SQLite数据库，便于后续使用。

具体操作流程

首先使用blast进行序列比对，得到比对结果文件。
从blast结果中提取accession号：

zcat SampleID.xml.gz | grep 'Iteration_query-def' -A 7 | grep 'Hit_accession' | sed -e 's/.*>\(\S\+\)<.*/\1/g' > SampleID_accession.txt

将accession号转换为taxid：

Rscript run_accession2taxid.r -i SampleID_accession.txt -o SampleID_accession2taxid.xls

使用taxonkit补充完整的分类学信息：

cat SampleID_accession2taxid.xls | cut -f 3 | sort | uniq > SampleID_uniq_taxid.xls
taxonkit lineage SampleID_uniq_taxid.xls -j 20 | taxonkit reformat -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" -F | cut -f 1,3- | sed '1i\Taxid\tKingdom\tPhylum\tClass\tOrder\tFamily\tGenu\tSpecies' > SampleID_species.xls

新方法的优势

与传统方法相比，NCBI推荐的新方法具有以下显著优势：

效率提升：通过模块化设计和优化的算法，新方法在处理大规模数据时表现出色。
准确性提高：新方法更重视curated evidence（人工审编的证据），在注释过程中给予其更高的权重，从而提高了注释的准确性。
灵活性增强：新方法支持多种数据源的整合，包括RNA-Seq、蛋白质序列等，能够根据具体需求灵活调整注释策略。
问题补偿机制：针对基因组组装中存在的问题，新方法能够生成补偿模型，提高注释结果的可靠性。

实际应用场景

在微生物多样性研究中，研究人员经常需要处理大量环境DNA测序数据。使用NCBI的新方法，可以快速完成物种注释，为后续的群落结构分析和生态学研究奠定基础。例如，在宏基因组学研究中，通过准确的物种注释，研究人员能够更好地理解微生物群落的组成和功能。

总结

NCBI推荐的新物种注释方法，通过blast和taxonkit的强强联合，为生物信息学研究者提供了一个高效、准确的注释工具。这种方法不仅简化了操作流程，还大大提升了科研工作的便捷性和精确度，必将成为未来物种注释领域的主流选择。

热门推荐

350W电机电流解析：电机功率与电流的关系

350W电机电流解析：电机功率与电流的关系

年龄计算器：精准在线计算周岁年龄的实用工具

年龄计算器：精准在线计算周岁年龄的实用工具

24年AI影像火了，好照片唾手可得，但摄影也在被摧毁？

24年AI影像火了，好照片唾手可得，但摄影也在被摧毁？

他用了25年时间，帮1000万人成功戒烟 | 这样戒烟轻松不反弹

他用了25年时间，帮1000万人成功戒烟 | 这样戒烟轻松不反弹

少女！画家笔下永恒的缪斯与艺术表达

少女！画家笔下永恒的缪斯与艺术表达

平权法案被推翻后，名校亚裔录取率有何变化？

平权法案被推翻后，名校亚裔录取率有何变化？

黄芪的"金牌搭档"找到了，2月开始喝，活血护心脏，对血管也很好！

黄芪的"金牌搭档"找到了，2月开始喝，活血护心脏，对血管也很好！

Excel身份证号怎么提取地址

Excel身份证号怎么提取地址

超全面详细的身份证号码编码原理，拿走不谢！

超全面详细的身份证号码编码原理，拿走不谢！

初春有哪些景物描写？初春胜景：细数万物复苏的诗意画面！

初春有哪些景物描写？初春胜景：细数万物复苏的诗意画面！

如何通过有效业绩提升职称评定的成功率？

如何通过有效业绩提升职称评定的成功率？

网络治理戳破摆拍剧“泡沫”

网络治理戳破摆拍剧“泡沫”

Web移动端支付实现详解：从网关选择到安全防护

Web移动端支付实现详解：从网关选择到安全防护

如何在恋爱中给予空间：平衡亲密与自由的秘诀

如何在恋爱中给予空间：平衡亲密与自由的秘诀

贵阳旅游全攻略：探秘山水之城的文化韵味与自然风光

贵阳旅游全攻略：探秘山水之城的文化韵味与自然风光

如何坚定信念：七个维度全面提升执行力

如何坚定信念：七个维度全面提升执行力

用AI开发文字冒险游戏：当DeepSeek遇上《纵横四海》

用AI开发文字冒险游戏：当DeepSeek遇上《纵横四海》

肾病治疗有哪些办法

肾病治疗有哪些办法

10万元最聪明的存钱法：稳健增值，理性投资

10万元最聪明的存钱法：稳健增值，理性投资

先吃肉还是先吃菜？吃饭顺序把握这原则，轻松减肥无负担

先吃肉还是先吃菜？吃饭顺序把握这原则，轻松减肥无负担

接单平台赚钱攻略：从平台选择到资源整合的全方位指南

接单平台赚钱攻略：从平台选择到资源整合的全方位指南

恩施腾龙洞游玩攻略：游览时间、路线规划及注意事项

恩施腾龙洞游玩攻略：游览时间、路线规划及注意事项

解决《暗黑破坏神 4》更新后报错、错误代码及乱码问题的策略

解决《暗黑破坏神 4》更新后报错、错误代码及乱码问题的策略

"毒舌律师"的辩论方式是否可取？

"毒舌律师"的辩论方式是否可取？

深入了解英伟达和AMD显卡命名规则及选购技巧

深入了解英伟达和AMD显卡命名规则及选购技巧

职场：掌握「做人」与「做事」的黄金比例

职场：掌握「做人」与「做事」的黄金比例

合肥地铁S1、6、7号线及L1线最新进展！

合肥地铁S1、6、7号线及L1线最新进展！

爆破新技术赋能滇中引水工程建设

爆破新技术赋能滇中引水工程建设

人民日报推荐：养成9个微习惯，增加你的幸福感！

人民日报推荐：养成9个微习惯，增加你的幸福感！

奥地利电影《情欲大厦》：欲望与道德的深度探讨

奥地利电影《情欲大厦》：欲望与道德的深度探讨

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号