资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

RNA-seq详细教程：从RNA提取到基因表达矩阵的完整分析流程

创作时间:

作者:

@小白创作中心

RNA-seq详细教程：从RNA提取到基因表达矩阵的完整分析流程

引用

CSDN

https://blog.csdn.net/Matcha_flavor/article/details/140716903

RNA-seq（RNA测序）是一种高通量测序技术，用于分析生物样本中的转录组信息。通过RNA-seq，研究人员可以获取基因表达水平的详细数据，从而深入理解生物过程和疾病机制。本文将详细介绍RNA-seq分析的整个流程，从RNA提取到最终获得基因表达矩阵，帮助读者全面了解这一重要技术。

学习目标

了解从RNA提取到获取基因表达矩阵，即RNA-seq分析的整个流程。

1. 工作流程概述

进行差异表达基因分析的前提是，获取代表基因表达水平的矩阵。因此在进行分析前，必须知道基因表达矩阵是如何产生的。在本教程中，将会简要的介绍从原始测序读数到基因表达计数矩阵过程中，所采取的不同步骤。下图是整个分析过程的流程图。

2. RNA提取与文库制备

在对RNA进行测序前，必须从细胞环境中提取和分离出RNA制备成cDNA文库。下面将介绍涉及的许多步骤，其中还包括了质量检查，以确保获取高质量的RNA。

2.1. RNA富集

一旦使用DNAse处理（去除DNA序列）后，样本就会经历mRNA的富集（polyA富集）或rRNA的去除。通常，核糖体RNA代表细胞中存在的大部分RNA，而mRNA（信使RNA）代表一小部分，在人类中约为 2%。因此，如果我们想要研究蛋白编码基因，就必须富集mRNA或去除rRNA。对于差异基因表达分析，最好对Poly(A)+进行富集，除非目标是获取有关长链非编码RNA的信息，在这种情况下建议去除核糖体RNA。

RNA质量检查
在开始cDNA文库制备之前，必须检查提取的RNA的完整性。传统上，通过查看核糖体RNA条带，通过凝胶电泳评估RNA的完整性；但这种方法既费时又不精确。已有的生物分析仪系统可以快速评估RNA完整性并计算RNA完整性值 (RIN)，这有助于RNA质量的解释和重复。从本质上讲，RIN提供了一种方法，可以以标准化的方式相互比较来自不同样本的RNA质量。

2.2. 碎片化

将剩余的RNA分子片段化（打断）。这是通过化学、酶促（例如RNA酶）或物理过程（例如机械剪切）完成的。然后对这些片段进行大小选择，仅保留Illumina测序仪最佳处理范围内的那些片段，即150到300 bp之间。

片段质量检查
在进行片段选择后，应评估片段大小分布，确保它的分布是单峰的。

2.3. 反转录

可以通过创建strand library来保存有关片段源自哪条链的信息。最常用的方法是在第二条cDNA链的合成过程中加入deoxy-UTP。一旦生成双链cDNA片段，序列接头就会连接到末端。（也可以在此步后进行片段大小选择）

2.4. PCR扩增

如果起始材料的量很低或要将cDNA分子的数量增加到足以进行测序的量，通常会对文库进行PCR扩增。尽可能少的进行扩增循环以，避免PCR扩展产生的技术影响。

3. 测序

cDNA文库的测序将生成reads（读数）。读数对应于文库中每个cDNA片段末端的核苷酸序列。可以选择对cDNA片段的单端（单端读取）或片段的两端（双端读取）进行测序。

SE ：单端数据 > 只有 Read1
PE：双端数据 > Read1 + Read2
结果可以是2个单独的Fastq文件，或者一个文件（包含两者）。

通常，单端测序就足够了，除非预期读数将匹配基因组上的多个位置（例如具有许多旁系同源基因的生物）、正在执行组装或用于可变剪切分析。请注意，双端通常要贵 2 倍。

3.1. 边合成边测序

Illumina测序技术采用边合成边测序的方法。要更深入地探索边合成边测序，请观看Youtube channel。

下面对此步骤进行了简要说明：

Cluster growth（成簇扩增）
cDNA文库中的DNA片段变性并与流通池杂交。然后每个片段被克隆扩增，形成一个双链DNA簇。此步骤以确保测序信号足够强，能明确检测每个片段的每个碱基。
Number of clusters ~= Number of reads
Sequencing（测序）
片段末端的测序是基于带有可逆终止子元素的荧光团标记的dNTP。在每个测序循环中，一个碱基被整合到每个簇中并激发荧光。
Image acquisition（图像采集）
每个dNTP都有一个独特的信号，由相机捕获。
Base calling
然后，Base calling程序将通过评估在许多测序周期中捕获的图像，为每个片段生成碱基序列，即读数。还将记录它的质量信息。
Number of sequencing cycles = Length of reads

4. 质控

从测序仪获得的原始读数存储为FASTQ文件。FASTQ文件格式是下一代测序技术生成的序列读取的文件格式。

每个FASTQ文件都是一个文本文件，表示样本的序列读数。每个读取由4行表示，如下所示：

@HWI-ST330:304:H045HADXX:1:1101:1111:61397
CACTTGTAAGGGCAGGCCCCCTTCACCCTCCCGCTCCTGGGGGANNNNNNNNNNANNNCGAGGCCCTGGGGTAGAGGGNNNNNNNNNNNNNNGATCTTGG
+
@?@DDDDDDHHH?GH:?FCBGGB@C?DBEGIIIIAEF;FCGGI#########################################################

行意义
1 始终以“@”开头，是有关读取的信息
2 实际的DNA序列
3 始终以“+”开头，有时与第1行中的信息相同
4 有一串代表质量分数的字符；必须具有与第2行相同的字符长度

FastQC是常用的软件，它提供了一种对原始序列数据进行质量控制检查的简单方法。主要功能包括：

提供快速概览，告诉您哪些区域可能存在问题
汇总图形和表格以快速评估您的数据
将结果导出为基于HTML的报告

5. 定量

一旦我们探索了原始读数的质量，就可以继续在转录水平上量化表达。此步骤的目标是确定每个读数来自哪个转录本以及与每个转录本相关的读数总数。已发现对于分析中的此步骤最准确的工具称为轻量级比对工具，其中包括：

Kallisto
Sailfish
Salmon

以上工具的工作方式都略有不同。然而，共同点是它们避免了读取的碱基到碱基基因组比对（base-to-base genomic alignment of the reads）。基因组比对是由旧的比对工具（如STAR和HISAT2）执行的一个步骤。与这些工具相比，轻量级比对工具不仅可以更快地提供量化估计（通常快20倍以上），而且还有了准确性的提高。

本教程将使用从Salmon获得的表达估计值（通常称为“伪计数”）作为差异基因表达分析的起点。

6. 比对后质控

如上所述，差异基因表达分析将使用Salmon生成的转录本/基因伪计数。然而，要对测序数据进行一些基本的质量检查，将读数与整个基因组进行比对非常重要。STAR或HiSAT2都能够执行此步骤并生成可用于QC的BAM文件。

Qualimap工具在它们映射到的基因组区域的上下文中探索对齐读取的特征，从而提供数据质量的整体视图（作为HTML文件）。Qualimap评估的各种质量指标包括：

DNA或rRNA污染
5’-3’偏差
覆盖偏差

7. 质控整合

在整个工作流程中，我们对数据执行了各种质量检查步骤。您需要对数据集中的每个样本执行此操作，确保这些指标在给定实验的样本中保持一致。应标记离群样本以供进一步调查或移除。

手动跟踪这些指标并浏览每个样本的多个HTML报告（FastQC、Qualimap）和日志文件（Salmon、STAR）既乏味又容易出错。MultiQC，可聚合来自多个工具的结果并生成带有图表的单个HTML报告，以可视化和比较样品之间的各种QC指标。如有必要，对QC指标的评估可能会导致在继续下一步之前移除样本。一旦对所有样本执行了QC，就可以开始使用DESeq2进行差异基因表达分析。