问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

NCBI下载SRA数据的4种方法

创作时间:
作者:
@小白创作中心

NCBI下载SRA数据的4种方法

引用
CSDN
1.
https://blog.csdn.net/u010608296/article/details/120616999

NCBI(National Center for Biotechnology Information)是美国国家生物技术信息中心,是生命科学研究领域的重要资源网站。SRA(Sequence Read Archive)是NCBI维护的序列读取档案库,存储了大量高通量测序数据。对于生命科学研究人员来说,掌握从NCBI下载SRA数据的方法至关重要。本文将介绍四种常用的下载方法。

作为生命科学领域的从业者,不论是老师还是学生,都应该熟悉NCBI(National Center for Biotechnology Information)这个综合性的生命科学资源网站。如果你还没有使用过NCBI网站,那么学习如何从NCBI下载原始数据将是一个很好的开始。

下面介绍几种从NCBI下载数据的方法:

  1. NCBI官方的 SRA Toolkit 进行下载
  2. wget, curl 命令直接下载
  3. aspera 工具下载
  4. grabseqs 工具下载

1. SRA Toolkit 下载数据

第一种方法是使用NCBI官方提供的SRA Toolkit软件。这是一个二进制格式的软件,用户可以根据自己的操作系统版本进行下载。下载完成后,解压缩即可使用。

软件准备好了,下面就可以下载数据了:

prefetch SRR1482463 -O output #output替换为你想下载数据的路径

如果需要批量下载一个项目的多个数据,可以按照以下步骤操作:

  1. 在“SRA”数据库中搜索SRR号
  2. 点击“All runs”
  3. 选择需要下载的数据,点击"Accession list"
  4. 下载包含选中数据SRR号的文件(SRR_Acc_List.txt)
  5. 使用以下命令批量下载:
prefetch -O output --option-file SRR_Acc_List.txt

2. wget, curl 下载数据

第二种下载方式是使用wget或curl命令直接下载。使用这种方式需要先获取数据的下载链接,可以通过两种方式获取:

通过NCBI网页获取

在“SRA”数据库中搜索SRR号,点击具体的SRR号,然后切换到‘Data access’界面,就可以找到数据链接。

通过SRA toolkit获取

在SRA toolkit软件的bin目录下找到srapath软件,使用以下命令获取数据链接:

srapath SRR1482463
#结果如下
https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2

获取到链接后,可以使用wget命令下载数据:

wget -c -t 0 -O path/SRR1482463.sra  https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
#-c -t 配合使用可以防止下载数据的过程中链接中断的问题,-O则可以指定下载路径和文件名。

3. aspera下载数据

第三种下载方式是使用aspera软件。以下是软件的下载与安装命令:

#软件下载与安装
$ wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ tar zxvf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
#数据下载
ascp -v -k 1 -T -l 200m -i <path>/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz

4. grabseqs下载数据

第四种下载方式是使用grabseqs软件。这是一个基于Python3的工具,可以将下载的sra数据直接转换为fastq文件,省去了额外的转换步骤。以下是安装和使用方法:

#安装
pip3 install grabseqs
#下载数据
grabseqs sra -t 6 SRR000000 SRP000000 PRJNA000000

SRA数据转化为fastq

下载到的SRA数据需要转换为fastq格式才能使用。可以使用SRA Toolkit中的fastq-dump软件进行转换。如果数据是pair-end格式,建议使用--split-3参数,这样可以将一方有而另一方没有的reads单独放在一个文件里。

#sra -> fastq
fastq-dump SRR1482463.sra --split-3 --gzip --defline-qual '+'  -A filename -O outdir

以上介绍了四种从NCBI下载SRA数据的方法,每种方法都有其特点。选择适合自己的方法,获取所需的数据,是科研工作的重要环节。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号