问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

CellRanger单细胞转录组分析结果解读指南

创作时间:
作者:
@小白创作中心

CellRanger单细胞转录组分析结果解读指南

引用
1
来源
1.
https://www.bilibili.com/read/mobile?id=34715174

CellRanger是10x Genomics公司开发的用于处理和分析单细胞RNA测序(scRNA-seq)数据的工具,能够从测序仪中提取和处理原始数据,包括数据去噪、质量控制、细胞检测和聚类分析等。它还提供了可视化工具,帮助研究者对单细胞数据进行可视化分析和解释。本文将详细介绍CellRanger分析结果中的关键指标及其解读方法。

Summary

Estimated Number of Cells

本次样本测到的细胞数,和实验上机的细胞数量和细胞质量有直接关系。

Mean Reads per Cell

每个细胞测到的平均reads,一般是Number of Reads 除以Estimated Number of Cells的数值,至少测到20K reads才能反映真实的细胞状况,比较好的数据推荐测到30k reads/cell以上。

Median Genes per Cell

每个细胞检测到的基因中位数。

Sequencing

Number of Reads

整个样本测到的reads总数。

Valid Barcodes

带有正确10x Barcode的数据比例,每个Bracode对应到每个细胞。

Valid UMIs

UMI校正后匹配的UMI比例。

Sequencing Saturation

测序饱和度,一般60-80%左右,这个指标非常重要,如果捕获的细胞数较多,但是每个细胞里面的平均reads数少,那么饱和度就较低,反之饱和度较高。总的来说,测序饱和度越高,再增加测序量的意义就越小。测序饱和度曲线在终点附近的斜率可被解释为增加测序深度后获得收益的上限。虚线画在合理接近饱和点的值上。如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,检测到的基因数目也不会有太大的变化。

Q30

Q30常被用作测序质量的评价指标,其计算公式为:Q=-10log10(P),其中P为出现一个碱基测序错误的概率。根据公式可知,当1000个碱基中有一个碱基测序出现了错误,即P=0.001,即Q=30,Q30一般>80%。

Q30 Bases in Barcode

基于barcode的质量分数,大于30的比率。

Q30 Bases in RNA Read

基于RNA Reads的质量分数,大于30的比率。

Q30 Bases in UMI

基于UMI的质量分数,大于30的比率。

Mapping

Reads Mapped to Genomes

比对到参考基因组上的Reads在总Reads中占的比例;人鼠样本一般要求≥80%。

Reads Mapped Confidently to Genome

比对到参考基因组并得到转录本GTF信息支持的Reads占总Reads中占的比例;如果一条Reads既可以比对到一个基因的外显子区(exon区),又可以比对到非外显子区(非exon区),那么算Reads比对到外显子(exon区)。

Reads Mapped Confidently to Intergenic Regions

比对到基因组的基因间区域的Reads占总Reads中占的比例(比对到唯一基因间区的Reads的比例)。

Reads Mapped Confidently to Intronic Regions

比对到内含子区域的Reads在总Reads中占的比例。跟细胞样本相比,细胞核的实验会有更高的内含子区域的比对率,这是正常现象,且内含子区域的reads被认为是核转录本,被用于RNA Velocity分析中,所以千万不要小看这部分reads。

Reads Mapped Confidently to Exonic Regions

比对到外显子区域的Reads在总Reads中占的比例。

Reads Mapped Confidently to Transcriptome

比对到已知参考转录本的Reads在总Reads中占的比例;这一部分的Reads主要是对UMI进行计数统计。

Reads Mapped Antisense to Gene

比对到基因反义链上的Reads所占的比例。

Cells

上图曲线横坐标为barcode序列数,纵坐标为UMI 数目。蓝线对应的barcode为有效细胞,灰线为背景噪音。在前期bead与细胞形成油包水的结构过程中,会存在没有把细胞包进去的情况,这时候的油包水结构里面就只有bead试剂,而cDNA的碱基序列一般都是barcode碱基序列的 10倍以上 ,就是由此来确定哪些是真实的细胞,哪些是background。如果这个曲线出现一个明显陡降的趋势,这表明与细胞相关的barcode和空白的barcode区分的很好。

Fraction Reads in Cells

每个样本过滤处理后,细胞reads数占总reads数的百分比,表示与细胞相关的UMI可靠地比对到基因组,理想值是>70%。如果样品中游离的mRNA很多,该数值相对就会偏低,这个参数反映测序数据的利用率。

Median Genes per Cell

每个细胞检测的基因中位数;一般要求≥700,有利于细胞分群,每个细胞的基因中位数与样本的细胞类型有关,例如成熟B细胞、T细胞检测到的基因中位数较少,而肿瘤组织、干细胞等组织,基因表达水平高,检测到的基因中位数也较高。基因中位数曲线在终点附近的斜率可解释为在此点之后增加测序深度所能获得结果的上限。曲线末端接近平滑状态说明测序达到饱和,继续增加测序量,每个细胞检测到的基因数也不会有特别大的变化。

Total Genes Detected

检测到的基因总数,每个基因至少检测到一条UMI。

Gene Expression

这里显示的是每个细胞的UMI总数。细胞UMI数量越多,表示该细胞基因表达水平可能较高。将每个细胞聚类划分到细胞簇中。聚类将具有相似表达谱的细胞组合在一起。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号