资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Seurat新手指南：单细胞测序分群全解析

创作时间:

作者:

@小白创作中心

Seurat新手指南：单细胞测序分群全解析

引用

CSDN

等

来源

https://blog.csdn.net/weixin_43843918/article/details/141168265

https://blog.csdn.net/m0_72224305/article/details/127385534

https://blog.csdn.net/zfyyzhys/article/details/141998881

https://zhuanlan.zhihu.com/p/544443428

https://blog.csdn.net/qq_42090739/article/details/123138513

https://www.sohu.com/a/768367339_120994945

https://rpubs.com/ruanwei_123/1034065

https://cloud.tencent.com/developer/article/2163195

https://rpubs.com/marswh/Visium

随着单细胞测序技术的快速发展，研究者们能够以前所未有的分辨率探索生物样本中的细胞异质性。Seurat作为一款功能强大的单细胞数据分析工具包，为研究者提供了从数据预处理到结果可视化的完整解决方案。本文将详细介绍如何使用Seurat进行单细胞测序数据的分析，从数据加载到最终的可视化结果，帮助新手快速掌握这一重要工具。

数据加载与预处理

Seurat的分析流程始于单细胞计数矩阵的加载。计数矩阵通常由Cell Ranger等工具从原始测序数据中生成，包含了每个细胞中各个基因的UMI计数信息。以下是一个基本的数据加载流程：

library(Seurat)
library(dplyr)

# 设置工作目录
setwd("path/to/your/data")

# 读取10X Genomics格式的数据
pbmc.data <- Read10X(data.dir = "filtered_gene_bc_matrices/hg19/")

# 创建Seurat对象
pbmc <- CreateSeuratObject(counts = pbmc.data, project = "pbmc3k", min.cells = 3, min.features = 200)

在创建Seurat对象时，可以通过min.cells和min.features参数设置过滤条件，去除低质量的细胞和基因。

质量控制

质量控制是确保数据分析准确性的关键步骤。Seurat提供了多种工具来评估和过滤数据，主要包括：

线粒体基因比例：高线粒体基因表达通常表明细胞状态不佳。
UMI计数：异常高的UMI计数可能表示双细胞或细胞簇。
检测到的基因数量：过低的基因检测数量可能意味着细胞质量差。

可以通过以下代码计算这些指标：

# 计算线粒体基因比例
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")

# 查看质量控制指标的分布
VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)

根据小提琴图的结果，可以设定合理的过滤阈值：

pbmc <- subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 2500 & percent.mt < 10)

数据标准化与特征选择

在进行降维和聚类之前，需要对数据进行标准化处理，消除不同细胞间测序深度的影响：

pbmc <- NormalizeData(pbmc, normalization.method = "LogNormalize", scale.factor = 10000)

接下来，通过高变基因（Highly Variable Genes, HVGs）的选择来减少噪音：

pbmc <- FindVariableFeatures(pbmc, selection.method = "vst", nfeatures = 2000)

降维与聚类

降维是将高维基因表达数据转换为低维表示的过程，有助于揭示数据的内在结构。Seurat支持多种降维方法，其中PCA（主成分分析）是最常用的线性降维方法：

pbmc <- ScaleData(pbmc)
pbmc <- RunPCA(pbmc, npcs = 30, features = VariableFeatures(object = pbmc))

在完成PCA后，可以使用t-SNE或UMAP进行进一步的降维和可视化：

pbmc <- RunUMAP(pbmc, reduction = "pca", dims = 1:10)
pbmc <- RunTSNE(pbmc, reduction = "pca", dims = 1:10)

基于降维结果，可以使用图聚类算法（如Louvain或Leiden）进行细胞分群：

pbmc <- FindNeighbors(pbmc, reduction = "pca", dims = 1:10)
pbmc <- FindClusters(pbmc, resolution = 0.5)

结果可视化

Seurat提供了丰富的可视化工具，帮助研究者直观地展示和解释分析结果。以下是一些常用的可视化方法：

降维图：展示细胞在降维空间中的分布
特征表达图：显示特定基因在不同细胞群中的表达情况
热图：展示多个基因在不同细胞群中的表达模式

# UMAP可视化
DimPlot(pbmc, reduction = "umap", group.by = "seurat_clusters")

# 特征表达可视化
FeaturePlot(pbmc, features = c("CD3E", "CD19", "CD14"))

# 热图
DoHeatmap(pbmc, features = c("CD3E", "CD19", "CD14"), group.by = "seurat_clusters")