RNA-seq分析全流程详解:从数据准备到功能富集分析
创作时间:
作者:
@小白创作中心
RNA-seq分析全流程详解:从数据准备到功能富集分析
引用
CSDN
1.
https://m.blog.csdn.net/Da_gan/article/details/143466797
RNA-seq(RNA测序)是用于研究基因表达和转录组的强大工具。它通过高通量测序技术对生物样本中的RNA进行测序,从而获得基因表达的定量信息。RNA-seq分析在疾病研究、药物开发、生物进化等多个领域都有广泛的应用。本文将详细介绍RNA-seq分析的完整流程,包括数据准备、质控、去除低质量序列、比对、定量、差异表达分析和功能富集分析等步骤。
1. 数据准备
首先,从测序公司获取测序数据,一般是FastQ格式的原始数据文件(.fastq或.fastq.gz)。
文件说明:
- 一般会有两个文件(如果是成对的双端测序):
- sample_1.fastq.gz
- sample_2.fastq.gz
2. 数据质控(Quality Control, QC)
QC可以帮助识别和去除低质量的reads。常用工具:FastQC和MultiQC。
FastQC分析
# 安装FastQC
conda install -c bioconda fastqc
# 运行FastQC
fastqc sample_1.fastq.gz sample_2.fastq.gz -o ./qc_output/
MultiQC汇总
# 安装MultiQC
conda install -c bioconda multiqc
# 运行MultiQC
multiqc ./qc_output/ -o ./multiqc_report/
3. 去除低质量和接头序列(Trimming)
使用Trimmomatic或Cutadapt来清除接头和低质量的reads。
使用Trimmomatic
# 安装Trimmomatic
conda install -c bioconda trimmomatic
# 运行Trimmomatic
trimmomatic PE -phred33 \
sample_1.fastq.gz sample_2.fastq.gz \
sample_1_paired.fastq.gz sample_1_unpaired.fastq.gz \
sample_2_paired.fastq.gz sample_2_unpaired.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 \
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
4. 比对到参考基因组(Alignment)
常用工具:HISAT2、STAR。
使用HISAT2
首先需要下载参考基因组文件并构建索引。
# 安装HISAT2
conda install -c bioconda hisat2
# 下载参考基因组
wget ftp://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# 构建索引
hisat2-build Homo_sapiens.GRCh38.dna.primary_assembly.fa GRCh38_index
# 进行比对
hisat2 -x GRCh38_index -1 sample_1_paired.fastq.gz -2 sample_2_paired.fastq.gz -S sample_aligned.sam
5. SAM文件转换为BAM并排序
使用Samtools进行SAM到BAM的转换,并排序和索引。
# 安装Samtools
conda install -c bioconda samtools
# SAM to BAM转换
samtools view -Sb sample_aligned.sam > sample_aligned.bam
# BAM排序
samtools sort sample_aligned.bam -o sample_aligned_sorted.bam
# 索引BAM文件
samtools index sample_aligned_sorted.bam
6. 定量转录本表达量
使用featureCounts对比对后的BAM文件进行定量。
# 安装Subread(包含featureCounts工具)
conda install -c bioconda subread
# 使用featureCounts进行基因表达定量
featureCounts -a Homo_sapiens.GRCh38.104.gtf -o gene_counts.txt sample_aligned_sorted.bam
7. 差异表达分析
差异表达分析通常在R中进行,常用的包有DESeq2和edgeR。
使用DESeq2进行差异表达分析
首先,将gene_counts.txt文件读入R。
# 安装DESeq2
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("DESeq2")
# 加载DESeq2包
library(DESeq2)
# 读入数据
counts <- read.table("gene_counts.txt", header = TRUE, row.names = 1)
coldata <- data.frame(row.names = colnames(counts), condition = factor(c("control", "treatment")))
# 创建DESeq2对象
dds <- DESeqDataSetFromMatrix(countData = counts, colData = coldata, design = ~ condition)
# 运行DESeq2
dds <- DESeq(dds)
res <- results(dds)
# 查看差异表达基因结果
summary(res)
可视化差异表达基因
常用的可视化图包括火山图(volcano plot)和热图(heatmap)。
火山图
# 安装EnhancedVolcano包
BiocManager::install("EnhancedVolcano")
library(EnhancedVolcano)
# 绘制火山图
EnhancedVolcano(res,
lab = rownames(res),
x = 'log2FoldChange',
y = 'pvalue',
title = 'Differentially Expressed Genes')
热图
# 安装pheatmap包
install.packages("pheatmap")
library(pheatmap)
# 准备数据
vsd <- vst(dds, blind = FALSE)
topVarGenes <- head(order(rowVars(assay(vsd)), decreasing = TRUE), 20)
mat <- assay(vsd)[topVarGenes, ]
mat <- mat - rowMeans(mat)
# 绘制热图
pheatmap(mat, annotation_col = coldata)
8. 功能富集分析(Gene Ontology, GO 或 KEGG)
可以使用clusterProfiler包进行GO和KEGG富集分析。
使用clusterProfiler进行GO分析
# 安装clusterProfiler
BiocManager::install("clusterProfiler")
library(clusterProfiler)
# 选择显著性差异基因
sig_genes <- rownames(res[res$padj < 0.05 & abs(res$log2FoldChange) > 1, ])
# GO富集分析
ego <- enrichGO(gene = sig_genes,
OrgDb = org.Hs.eg.db,
keyType = "SYMBOL",
ont = "BP",
pAdjustMethod = "BH",
pvalueCutoff = 0.05)
# 显示结果
barplot(ego, showCategory = 10)
热门推荐
70岁老人,能骑电动车、三轮车上路吗?明确了,只有3种上路不罚
太阳能光伏发电:从基本原理到实际应用
数据采集模型如何解决实时数据更新的挑战?
《九重紫》女主“窦昭”与《知否知否应是绿肥红瘦》女主“盛明兰”的差异点
白醋泡姜的正确方法与功效是什么
宫风云:揭秘古代皇帝臣辞官的罪名及背后的政治斗争
黑松露生长的秘密(探寻黑松露的生长环境和条件)
OpenAI、谷歌、Anthropic新模型遇瓶颈:缺数据、成本高、性能不及预期
武汉铁路职业技术学院近三年就业率及就业前景分析
皖南山水间的牯牛降秋色:自然奇观与文化瑰宝
如何查询高等教育学历的真假?5种实用方法全解析
失败婚姻的反思与总结:从心碎中重生
留学美国需要带多少钱和怎么准备
小吃店员工管理制度如何制定?
新疆哈密:丝绸之路上的璀璨明珠
杭州取消新房限价,专家:回归正常市场逻辑,“压箱底的宝地”待入市
玻璃期货合约及规则详解
5种趣味盎然的儿童英语学习方式
生蚝的功效与作用、禁忌和食用方法
全球新能源汽车购车补贴政策详解:降低购车成本,促进技术创新
ChatGPT在教育领域应用的伦理风险及挑战
权威英媒:五大联赛共拖欠45亿镑巨额转会费 或造足坛次贷危机
减肥期间吃了腊肠会不会变胖
螺蛳粉的热量是多少?教你健康吃螺蛳粉不发胖
如何合法上路改装牧马人?
辣白菜有多种做法,这样腌制比买的还好吃,甜辣脆爽,做好就能吃
走进京城大运河源头遗址公园,沉浸式感受历史魅力
中国富豪榜首:10年风云,看谁是时代的风向标
倪海厦中医讲堂深度解析痔疮成因与治疗方法
探秘运动能量:从速度与质量的角逐中洞悉物体运动的奥妙