测序数据处理基础:FASTQ格式与FASTQC质量控制
测序数据处理基础:FASTQ格式与FASTQC质量控制
测序技术是生物信息学领域的核心技术之一,而测序数据的质量控制(QC)是确保后续数据分析准确性的关键步骤。本文将介绍测序技术的发展历程、FASTQ文件格式以及如何使用FASTQC软件进行质量控制。
测序技术简介
第一代测序技术,即Sanger测序,通过在四条不同的车道上进行反应,最终确定DNA序列。目前主流的第二代测序技术,即Illumina的测序技术,通过在玻璃片上进行大规模平行测序,实现快速、高效的DNA测序。第三代测序技术虽然目前还处于原型阶段,但具有单分子测序的潜力。在需要精确计数的情况下,第二代测序技术更为合适。
Fastq 和 FASTQC
计算生物学家在处理测序机产生的原始数据时,首先需要了解序列数据,特别是来自Illumina测序机的FASTQ文件。该文件包含四行信息:
- 第一行是Sequence ID
- 第二行是Sequence
- 第三行是Quality ID
- 第四行是Quality score:由33个ASCII码字符表示,可以根据质量来决定是否使用该序列
为什么要进行质量控制(Quality Control,QC)
尽管Illumina测序平台具有很高的准确性和可靠性,但在测序过程中仍然可能出现错误。以下是一些可能导致错误的原因:
- 化学合成错误:在测序过程中,荧光标记的核苷酸被添加到正在合成的DNA链上。这个过程可能会发生错误,导致错误的核苷酸被添加。
- 光学检测错误:测序仪通过检测荧光信号来确定每个循环添加的核苷酸类型。光学系统可能因为多种原因(如镜头污染、激光功率不稳定、探测器灵敏度不均一等)产生误差。
- 簇扩增偏差:在测序前,DNA片段被扩增成簇。如果扩增不均匀,某些簇可能会过度代表,导致测序结果偏差。
- 序列读取错误:在读取序列时,可能会因为荧光信号弱、背景噪音高或信号重叠等原因导致错误。
- 样本制备问题:样本制备过程中的许多步骤(如DNA提取、PCR扩增、文库制备等)都可能导致错误,如DNA降解、PCR扩增偏差或引入序列错误。
在Illumina测序时,计算机会自动计算出每个碱基的quality,并将其保存在FASTQ文件中(也就是第三行和第四行)。由于FASTQ文件通常非常大,无法逐条检查序列的quality,因此需要使用QC软件进行分析。
FASTQC软件
FASTQC是一款常用的测序数据质量控制软件,可以对测序数据进行多方面的质量评估。以下是几个关键的评估指标:
从上图可以看出,通常测序碱基数越多,quality越差。有时即使测了250bp,但由于质量太差,可能只能取前200bp。需要注意的是,Illumina双端测序通常为150bp。
FASTQC的另一个视图中,根据中位数可视化quality。利用碱基分布来可视化的quality。前者其实是质量较好的,因为再后面四种碱基都分布平滑,要注意的是可能需要去除前面的几个碱基。也许是在测序开始的时候出了点问题。
根据GC含量可视化的quality。在处理转录组数据时,可以根据QC的结果,使用Trimmomatic软件将rawdata转换成clean data,用于后续的数据分析。