问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

测序数据处理基础:FASTQ格式与FASTQC质量控制

创作时间:
作者:
@小白创作中心

测序数据处理基础:FASTQ格式与FASTQC质量控制

引用
CSDN
1.
https://m.blog.csdn.net/nixiak2020/article/details/144562672

测序技术是生物信息学领域的核心技术之一,而测序数据的质量控制(QC)是确保后续数据分析准确性的关键步骤。本文将介绍测序技术的发展历程、FASTQ文件格式以及如何使用FASTQC软件进行质量控制。

测序技术简介

第一代测序技术,即Sanger测序,通过在四条不同的车道上进行反应,最终确定DNA序列。目前主流的第二代测序技术,即Illumina的测序技术,通过在玻璃片上进行大规模平行测序,实现快速、高效的DNA测序。第三代测序技术虽然目前还处于原型阶段,但具有单分子测序的潜力。在需要精确计数的情况下,第二代测序技术更为合适。

Fastq 和 FASTQC

计算生物学家在处理测序机产生的原始数据时,首先需要了解序列数据,特别是来自Illumina测序机的FASTQ文件。该文件包含四行信息:

  • 第一行是Sequence ID
  • 第二行是Sequence
  • 第三行是Quality ID
  • 第四行是Quality score:由33个ASCII码字符表示,可以根据质量来决定是否使用该序列

为什么要进行质量控制(Quality Control,QC)

尽管Illumina测序平台具有很高的准确性和可靠性,但在测序过程中仍然可能出现错误。以下是一些可能导致错误的原因:

  1. 化学合成错误:在测序过程中,荧光标记的核苷酸被添加到正在合成的DNA链上。这个过程可能会发生错误,导致错误的核苷酸被添加。
  2. 光学检测错误:测序仪通过检测荧光信号来确定每个循环添加的核苷酸类型。光学系统可能因为多种原因(如镜头污染、激光功率不稳定、探测器灵敏度不均一等)产生误差。
  3. 簇扩增偏差:在测序前,DNA片段被扩增成簇。如果扩增不均匀,某些簇可能会过度代表,导致测序结果偏差。
  4. 序列读取错误:在读取序列时,可能会因为荧光信号弱、背景噪音高或信号重叠等原因导致错误。
  5. 样本制备问题:样本制备过程中的许多步骤(如DNA提取、PCR扩增、文库制备等)都可能导致错误,如DNA降解、PCR扩增偏差或引入序列错误。

在Illumina测序时,计算机会自动计算出每个碱基的quality,并将其保存在FASTQ文件中(也就是第三行和第四行)。由于FASTQ文件通常非常大,无法逐条检查序列的quality,因此需要使用QC软件进行分析。

FASTQC软件

FASTQC是一款常用的测序数据质量控制软件,可以对测序数据进行多方面的质量评估。以下是几个关键的评估指标:

从上图可以看出,通常测序碱基数越多,quality越差。有时即使测了250bp,但由于质量太差,可能只能取前200bp。需要注意的是,Illumina双端测序通常为150bp。

FASTQC的另一个视图中,根据中位数可视化quality。利用碱基分布来可视化的quality。前者其实是质量较好的,因为再后面四种碱基都分布平滑,要注意的是可能需要去除前面的几个碱基。也许是在测序开始的时候出了点问题。

根据GC含量可视化的quality。在处理转录组数据时,可以根据QC的结果,使用Trimmomatic软件将rawdata转换成clean data,用于后续的数据分析。

参考资料

哈佛大学生物信息学课程:
https://www.bilibili.com/video/BV1yS4y1Z721?spm_id_from=333.788.player.switch&vd_source=495deae41cc91675c82bcb979ebe3326&p=9

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号