问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

转录组表达量的常规标准化方法(FPKM、RPKM、TPM)| 生信笔记09

创作时间:
作者:
@小白创作中心

转录组表达量的常规标准化方法(FPKM、RPKM、TPM)| 生信笔记09

引用
CSDN
1.
https://m.blog.csdn.net/nixiak2020/article/details/145136698

上期我们讲完了转录组的基本原理、实验设计和上游分析,在开始差异基因分析之前,我们先来了解一下常见的RNA-seq的定量方式。主要的标准化方式为:

  • RPKM(Reads Per Kilobase of transcript per Million mapped reads)
  • FPKM(Fragments Per Kilobase of transcript per Million mapped fragments)
  • TPM(Transcripts Per Million)

为什么要进行标准化?

在测序中,覆盖度往往不同,组与组之间的总表达量往往差异巨大:在RNA测序(RNA-seq)和基因组测序中,测序深度是指在整个基因组或转录组中,每个碱基被测序的平均次数。

测序深度对于确保测序数据的准确性和完整性非常重要。较高的测序深度可以提高检测低表达基因或罕见变异的几率,但同时也增加了测序成本。相反,较低的测序深度可能导致重要生物学信号丢失,因为一些低丰度的转录本或变异可能没有被检测到。

在RNA-seq数据分析中,测序深度是评估样本表达量时的一个重要因素,因为它可以影响对基因表达水平的准确估计。在进行不同样本间的表达量比较时,通常需要确保样本之间具有相似的测序深度,以避免因测序深度差异而造成的偏差。

越长的基因会有更多的reads比对到上面。

RPKM的计算流程


图源:25. RPKM FPKM and TPM Clearly Explained_480p_哔哩哔哩_bilibili

  1. 首先根据测序深度来scale,想象现将表达量除以总reads数,因为大多数软件都能自动计算,这里就不放具体的计算公式,仅作理解
  2. 除以基因长度,这样归一后就可以有一个规范的可比较的基因的表达量

细心的小伙伴,可能会想到:基因表达不是还会有可变剪切吗?这些方法粗暴地直接计算全长转录本的表达量,似乎忽略了这个过程?

当然,我们目前对于不同转录本的功能了解有限,目前最主流RNA-seq的分析就是基于全场转录本的。感兴趣的小伙伴可以点个关注,我后面更新新的关于识别不同转录本的分析流程。

RPKM和FPKM有什么区别?

  • RPKM主要用于单端测序(single-end sequencing)数据,即每个转录本只产生一个读段(read)。
  • FPKM主要用于双端测序(paired-end sequencing)数据,这种测序方式会产生成对的读段,每对读段通常来自同一转录本的同一片段(fragment)。

FPKM的计算和RPKM非常类似,使用哪一个却决于使用的测序类型

TPM流程

  1. 首先根据基因长度归一(也就是除以基因长度)
  2. 再根据总深度归一

是不是看着很熟悉?和RPKM的流程反了一下,但是这么操作有比较深的影响

相比较于RPKM,TPM的表达量在归一之后,每一个重复有着相同的总表达量。作为一种归一方法,TPM可以将结果标准化为比值(这个基因表达量占单个sample的总表达量的比值),被认为是更加准确的归一方法。

但说是这么说,具体选择哪一种方法,还是要参考一下本领域其他文献是怎么操作的。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号