问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

全外显子测序分析

创作时间:
作者:
@小白创作中心

全外显子测序分析

引用
CSDN
1.
https://blog.csdn.net/Da_gan/article/details/143948917

全外显子测序(WES)和全基因组测序(WGS)是两种广泛应用于基因组研究和临床诊断的高通量测序技术。它们各有特点和应用场景,以下是它们的主要区别:

测序范围

  • 全外显子测序(WES)

  • 仅针对基因组中外显子区域(约占全基因组的1-2%),即能够编码蛋白质的部分进行测序。

  • 目标区域约为30-50 Mb(百万碱基对)。

  • 通常通过富集捕获的方法选择外显子区域进行测序。

  • 全基因组测序(WGS)

  • 涉及整个基因组的测序,包括编码区(外显子)、非编码区(内含子、调控区等)以及线粒体DNA。

  • 覆盖范围约为3 Gb(十亿碱基对)。

数据量和成本

  • WES

  • 数据量较小,通常为5-10 Gb。

  • 成本较低,适用于预算有限的研究或临床应用。

  • WGS

  • 产生的数据量较大,通常为90-150 Gb。

  • 成本较高,但随着技术进步,价格逐渐下降。

检测能力

  • WES

  • 专注于外显子区域,能有效检测与疾病相关的编码变异(如单核苷酸变异和小片段插入/缺失)。

  • 对非编码区变异无检测能力,无法全面解析调控区变异或结构变异。

  • WGS

  • 提供全面的基因组变异信息,包括编码区和非编码区的变异、拷贝数变异(CNV)、结构变异(如染色体易位、倒位)和重复序列变异。

  • 适合于未知致病变异的全面探索。

分析复杂性

  • WES

  • 数据量小,分析较为简单,重点关注已知与疾病相关的基因区域。

  • 生物信息学处理和存储需求较低。

  • WGS

  • 数据量庞大,分析更复杂,需要更高效的计算资源。

  • 结果解读难度更高,尤其是非编码区变异的功能预测和临床意义评估。

应用场景

  • WES

  • 疾病基因筛查: 适用于已知与编码区相关的单基因病研究或遗传病诊断。

  • 快速诊断: 尤其适合明确的目标区域(外显子)的研究。

  • 成本受限的项目: 在预算有限的情况下选择WES较为合理。

  • WGS

  • 全基因组探索: 特别适用于寻找未知致病突变或复杂病变的研究。

  • 癌症研究: 涵盖肿瘤特有的结构变异和非编码区调控突变。

  • 进化研究: 提供全基因组范围的遗传信息,适合物种比较和群体遗传学。

优缺点对比

特点
WES
WGS
测序范围
外显子区域
全基因组
数据量
较小
较大
成本
较低
较高
检测范围
编码区变异
编码区和非编码区变异均可检测
适用场景
编码区相关疾病
全基因组突变分析
技术复杂性
较低
较高

总结

  • 如果目标是寻找已知基因区域的突变或预算有限,WES是更合适的选择。
  • 如果需要全面探索基因组变异,或研究非编码区和复杂结构变异,WGS更具优势。实际选择取决于研究目的、预算和数据分析能力。

以下是全外显子测序(WES)典型分析流程及实现代码示例。我们以常用的工具(如FastQC、BWA、GATK等)为例,提供脚本示范。请根据实际需求和环境配置调整代码。

全外显子测序(WES)分析流程

1. 数据质控

使用 FastQC 和 MultiQC 对原始数据进行质控。

# 运行FastQC
fastqc -t 4 sample_R1.fastq.gz sample_R2.fastq.gz -o ./fastqc_output/

# 运行MultiQC整合FastQC报告
multiqc ./fastqc_output/ -o ./multiqc_output/

2. 数据比对

使用 BWA 将测序数据比对到参考基因组。

# 创建索引(仅需一次)
bwa index reference.fasta

# 比对
bwa mem -t 8 reference.fasta sample_R1.fastq.gz sample_R2.fastq.gz > sample.sam

3. SAM/BAM 处理

将 SAM 文件转换为 BAM 文件,排序,并标记重复。

# 转换为BAM并排序
samtools view -bS sample.sam | samtools sort -o sample.sorted.bam

# 标记重复
gatk MarkDuplicates -I sample.sorted.bam -O sample.dedup.bam -M sample.metrics.txt

4. 外显子区域捕获

通过 BED 文件定义外显子区域,进行目标区域提取。

# 提取外显子区域的BAM文件
samtools view -b -L exome_regions.bed sample.dedup.bam > sample.exome.bam

5. 突变检测

使用 GATK HaplotypeCaller 检测变异。

# 基因组校正
gatk BaseRecalibrator \
    -I sample.exome.bam \
    -R reference.fasta \
    --known-sites known_sites.vcf \
    -O recal_data.table

gatk ApplyBQSR \
    -I sample.exome.bam \
    -R reference.fasta \
    --bqsr-recal-file recal_data.table \
    -O sample.recal.bam

# 突变检测
gatk HaplotypeCaller \
    -R reference.fasta \
    -I sample.recal.bam \
    -O sample.raw.vcf

6. 突变注释

使用 ANNOVAR 或 SnpEff 对变异进行注释。

# 使用ANNOVAR进行注释
table_annovar.pl sample.raw.vcf humandb/ -buildver hg38 -out sample.annotated \
    -remove -protocol refGene,dbnsfp -operation g,f -nastring .

全外显子测序(WES)和全基因组测序(WGS)的分析流程在技术实现上
有许多相似之处,但由于测序范围和研究目的的不同,它们的分析流程也
存在显著差异。以下从测序范围数据处理分析重点复杂性四个方面
进行详细对比。

测序范围

  • WES:

  • 只关注基因组中外显子区域(约占1-2%),需提前设计捕获探针或目标区域。

  • 在分析过程中,需要使用外显子区域 BED 文件对 BAM 文件进行区域提取,以降低非目标区域的干扰。

  • WGS:

  • 覆盖整个基因组,包括外显子、内含子、调控区和重复序列等非编码区域。

  • 不需要进行目标区域提取,所有区域的变异都需考虑。

区别:WES 的分析需要特定的捕获和提取步骤,WGS 则是全面的分析。

数据处理

  • 数据量:

  • WES 数据量较小(通常为 5-10 Gb/样本),存储和计算资源需求较低。

  • WGS 数据量较大(通常为 90-150 Gb/样本),需要更高的计算能力和存储空间。

  • 比对步骤:

  • WES 和 WGS 的比对过程本质相同,但 WES 的比对结果会过滤非外显子区域;WGS 需全基因组范围内比对,可能面临更高的复杂度(例如重复序列和难比对区域)。

  • 区域提取:

  • WES 需要将比对后的 BAM 文件与目标区域(BED 文件)交叉分析,提取外显子区域的比对数据。

  • WGS 不需要此步骤。

区别:WES 需要额外的目标区域提取,而 WGS 则需要处理大数据量。

分析重点

  • WES:

  • 主要关注外显子区域的变异检测(如单核苷酸变异 SNP 和小片段插入/缺失 Indel)。

  • 临床重点通常是与已知疾病基因相关的区域。

  • WGS:

  • 除了编码区变异外,还需分析非编码区变异(如增强子突变、启动子变异)。

  • 结构变异(SV)检测是 WGS 的重要内容,包括染色体易位、倒位、大片段插入/缺失和拷贝数变异(CNV)。

  • 适用于探索未知致病变异。

区别:WES 专注于编码区变异,WGS 涵盖全基因组,分析范围更广,尤其是非编码区和复杂变异。

复杂性

  • 分析复杂性:

  • WES 的分析范围小,计算和解读较为简单,结果主要集中在外显子区域和临床相关基因。

  • WGS 数据量大,分析更复杂,尤其是非编码区变异的功能预测、结构变异的准确性,以及注释的全面性。

  • 解读难度:

  • WES 的变异解读较为直接,重点关注已知的疾病基因和致病变异库。

  • WGS 包含大量非编码区变异,解读难度大,非编码变异的生物学意义通常不明确。

区别:WGS 的复杂性和解读难度远高于 WES,需要更多的计算资源和专业知识支持。

总结对比表

特点
WES
WGS
测序范围
外显子区域(1-2%)
全基因组(100%)
数据量
小(5-10 Gb)
大(90-150 Gb)
区域提取
必须进行目标区域提取(使用 BED 文件)
不需要
分析重点
编码区变异(SNP 和 Indel)
编码区和非编码区变异、结构变异(SV 和 CNV)
分析复杂性
较低,专注于外显子区域
较高,需全面分析全基因组
解读难度
低,关注临床已知基因
高,需解析未知区域及复杂变异
适用场景
单基因遗传病、已知编码区相关疾病
癌症研究、复杂疾病、未知变异的探索

总结

  • 如果研究目的是快速、低成本地检测已知疾病基因的变异,WES 是更高效的选择。
  • 如果需要全面探索基因组变异,包括非编码区和复杂变异,则 WGS 更合适。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号