资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

靶向测序分析

创作时间:

作者:

@小白创作中心

靶向测序分析

引用

CSDN

https://blog.csdn.net/Da_gan/article/details/144189349

靶向测序（Targeted Sequencing）是一种聚焦于基因组中特定区域的高通量测序技术。相比全基因组测序（WGS），靶向测序数据量更小，但灵敏度更高，适合深入研究特定区域的遗传变异。

技术原理

靶向测序通过选择感兴趣的基因或区域，富集目标片段后进行高通量测序。主要包括以下步骤：

目标区域选择：根据实验需求，选择特定的基因组区域（如癌症相关基因或已知疾病易感区域）。
目标区域富集：通过特定技术（如探针捕获或PCR扩增）富集目标片段。
高通量测序：对富集的片段进行测序。
数据分析：检测目标区域的突变（如SNP、插入缺失、拷贝数变异等）。

富集技术

靶向测序的核心是目标区域的富集方法，主要包括以下两种：

探针捕获法（Hybridization Capture）

使用标记的寡核苷酸探针与目标区域互补结合，再通过磁珠或其他手段进行捕获。
适合大范围目标区域的捕获，灵活性强。
应用场景：癌症基因组研究、外显子组捕获。

多重PCR扩增法（Multiplex PCR）

使用多对特异性引物对目标区域进行扩增。
速度快、成本低，但不适合捕获非常大的区域。
应用场景：特定基因的变异验证、遗传病检测。

优势与局限

优势

高灵敏度：适合检测低频变异，尤其是在肿瘤样本中。
低成本：与WGS相比，靶向测序的数据量更小，成本显著降低。
专注性强：聚焦于特定基因或区域，简化了后续数据分析。
灵活性高：可以根据研究目标定制捕获区域。

局限性

覆盖范围有限：仅检测预定义区域，无法发现目标区域外的变异。
偏倚风险：捕获效率可能不均匀，导致某些区域覆盖不足。
变异发现有限：对于未知或远离捕获区域的变异难以检测。

应用场景

靶向测序广泛用于临床和科研领域，尤其是在需要高效解析特定基因变异的情况下：

遗传病研究

筛查与遗传病相关的候选基因。
快速检测已知疾病相关突变（如囊性纤维化、地中海贫血等）。

癌症基因组学

分析癌症样本中常见的致癌基因（如TP53、KRAS）。
追踪肿瘤进化、监测残余病变和复发。

药物基因组学

检测与药物反应相关的基因（如CYP450家族）。
优化个性化治疗方案。

微生物与病原体检测

靶向检测抗生素耐药基因或病毒基因组（如HIV、COVID-19变种）。
分析病原体间的遗传变异。

常用平台和技术

靶向测序技术通常基于以下测序平台：

Illumina：短读长测序，适合小变异的高精度检测。
Ion Torrent：适合快速检测特定区域变异。
PacBio/Oxford Nanopore：长读长测序，解析复杂区域（如重复序列、结构变异）。

发展趋势

低成本与高效率：新技术不断优化探针设计和捕获效率。
联合多组学分析：结合表观组学、转录组学以获得更全面的生物学信息。
实时测序与便携设备：例如，Nanopore技术实现快速、现场测序。

靶向测序是一种高效、灵活的工具，在基因组医学和基础研究中具有不可替代的作用。靶向测序的分析流程包括数据预处理、变异检测、注释及后续分析，每一步都需要严格按照实验和生物信息学标准进行操作。

以下是靶向测序的分析流程：

数据预处理

数据质控（Quality Control, QC）

目标：评估和过滤低质量数据，确保下游分析的准确性。
步骤：
软件：Trimmomatic、Cutadapt。
FastQC：生成测序质量报告。
MultiQC：整合多个样本的质控报告。
检查测序质量（如碱基质量分布、接头污染）。
软件工具：
根据质控结果进行过滤和去接头：

比对（Alignment）

目标：将测序读段（reads）比对到参考基因组。
步骤：
选择参考基因组（如人类基因组GRCh38）。
比对工具：BWA（常用于短读长数据）、Bowtie2。
输出文件：生成比对结果文件（BAM格式）。
过滤：去除低质量比对和多重比对reads。

比对结果处理

目标：优化比对结果，提高变异检测的精度。
步骤：
工具：IGV（Integrative Genomics Viewer），查看覆盖度和比对质量。
工具：GATK。
作用：提高变异检测的准确性。
工具：Picard。
作用：标记因PCR扩增产生的重复reads，避免误判变异。
标记重复序列：
校正碱基质量（Base Quality Score Recalibration, BQSR）：
可视化比对结果：

变异检测（Variant Calling）

突变检测

目标：识别单核苷酸变异（SNP）、插入和缺失（Indel）。
工具：
GATK HaplotypeCaller：高精度检测单体型变异。
FreeBayes：适合多样本联合变异检测。
VarScan2：灵敏度高，适合检测低频突变。

结构变异（Structural Variants, SV）检测

目标：检测较大的变异（如拷贝数变异、倒位、融合）。
工具：
Manta：检测复杂结构变异。
CNVkit：专注拷贝数变异分析。

突变过滤

目标：去除假阳性，获得高可信度突变。
方法：
设置最小覆盖度和突变频率阈值。
交叉参考公共数据库（如1000 Genomes、gnomAD）。

突变注释（Variant Annotation）

基因功能注释

目标：将突变与已知基因功能、疾病关联信息联系起来。
工具：
ANNOVAR：全面注释突变的功能影响。
SnpEff：快速注释SNP和Indel。

数据库参考

数据库：
ClinVar：疾病相关变异数据库。
COSMIC：癌症突变数据库。
dbSNP：已知单核苷酸变异库。

优先级排序

目标：根据变异的可能致病性对结果排序。
评分工具：
CADD（预测变异功能的评分）。
PolyPhen-2、SIFT（蛋白功能预测）。

下游分析

临床相关性分析

目标：评估突变的致病性和临床意义。
应用：诊断遗传病、确定癌症驱动基因突变。

突变频率分析

目标：研究群体中突变的分布和进化关系。
工具：vcftools、Plink。

可视化

目标：展示分析结果，便于解释和报告。
工具：
Circos：环形基因组变异展示。
maftools：肿瘤突变谱展示。

报告生成

目标：将分析结果转化为用户友好的报告。
内容：
样本质量评估。
目标区域覆盖度和均一性。
突变列表及其注释。
临床相关结论（如高危突变）。

常见问题与解决方法

目标区域覆盖不足：优化探针设计或增加测序深度。
高背景噪音：严格设置过滤参数，去除假阳性。
数据处理耗时长：使用高性能计算或并行化工具。

这一流程灵活性较高，可根据研究目标（如癌症基因组分析或遗传病筛查）调整细节步骤。

以下是一个完整的靶向测序分析流程的代码框架，使用常用的生物信息学工具（如FastQC、BWA、GATK、VCFtools等）。这些代码适用于一个标准的靶向测序分析流程，包括从原始数据的质控到变异注释。可以根据具体需求和计算环境调整。

环境准备

确保安装以下工具并设置好环境路径：

FastQC
MultiQC
Trimmomatic
BWA
Samtools
GATK
VCFtools
ANNOVAR

运行脚本化

将流程整合为一个Bash脚本：

#!/bin/bash
# 靶向测序分析流程
# 1. 数据质控
fastqc raw_data/*.fastq.gz -o QC_results/
multiqc QC_results -o QC_results/
trimmomatic PE raw_data/sample_R1.fastq.gz raw_data/sample_R2.fastq.gz \
    trimmed_reads/sample_R1_paired.fastq.gz trimmed_reads/sample_R1_unpaired.fastq.gz \
    trimmed_reads/sample_R2_paired.fastq.gz trimmed_reads/sample_R2_unpaired.fastq.gz \
    ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:4:20 MINLEN:50
# 2. 比对
bwa mem -t 8 -M reference/genome.fa \
    trimmed_reads/sample_R1_paired.fastq.gz \
    trimmed_reads/sample_R2_paired.fastq.gz > aligned_reads/sample.sam
samtools view -bS aligned_reads/sample.sam | samtools sort -o aligned_reads/sample.sorted.bam
gatk MarkDuplicates -I aligned_reads/sample.sorted.bam -O aligned_reads/sample.sorted.markdup.bam \
    -M aligned_reads/sample.markdup_metrics.txt
samtools index aligned_reads/sample.sorted.markdup.bam
# 3. 变异检测
gatk HaplotypeCaller -R reference/genome.fa -I aligned_reads/sample.recal.bam \
    -O variants/sample.raw.vcf
gatk VariantFiltration -R reference/genome.fa -V variants/sample.raw.vcf \
    --filter-expression "QUAL < 30.0 || DP < 10" --filter-name "LowQual" \
    -O variants/sample.filtered.vcf
bcftools view -f PASS variants/sample.filtered.vcf > variants/sample.passed.vcf
# 4. 注释
convert2annovar.pl -format vcf4 variants/sample.passed.vcf > annotation/sample.avinput
table_annovar.pl annotation/sample.avinput humandb/ \
    -buildver hg38 -out annotation/sample -remove \
    -protocol refGene,clinvar_20230101,cosmic70 -operation g,f,f -nastring . -polish
# 5. 报告
multiqc QC_results/ -o final_report/
cp variants/sample.passed.vcf final_report/
cp annotation/sample.hg38_multianno.txt final_report/
cp QC_results/sample.coverage_metrics.txt final_report/
echo "靶向测序分析完成，结果保存在 final_report/ 文件夹中"

将此脚本保存为 targeted_seq_pipeline.sh 并运行：