外显子测序(WES):原理、流程与应用
外显子测序(WES):原理、流程与应用
外显子测序(Whole-Exome Sequencing,WES)是一种针对基因组中所有外显子进行测序的方法。外显子是基因组中能够转录出成熟RNA的部分,虽然仅占人类基因组的1%,但却包含了85%与疾病相关的变异。因此,WES在研究编码基因变异层面,是比全基因组测序更为经济高效的替代方法。
基本概念
外显子(Exon):基因组中能够转录出成熟RNA的部分。一个基因组中所有外显子的集合,即为外显子组。值得注意的是,通常所说的全外显子组测序,是指针对蛋白编码基因的外显子,很少涉及非编码基因。
基因(Gene):DNA中含有特定遗传信息的一段核苷酸序列的总称,是具有遗传效应的DNA分子片段,是控制生物性状的基本遗传单位。人类基因区间的大小可从数百个bp至超过200万个bp不等。根据人类基因组计划(The Human Genome Project)估计,人类拥有20000-25000个蛋白编码基因。
基因组(Genome):指一个生物体所包含DNA的全部遗传信息。基因组由基因区域和非编码区域组成。人类的基因组大小约为30亿个碱基对(bp)(3GB),其中非编码区域占到绝大多数,编码蛋白质的区域仅占约2%左右。
外显子组(Exome):是基因组中所有外显子的集合。人类拥有约18万个外显子,约占人类基因组的1%,即约3000万个bp(30MB)。
特殊情况:非翻译区(UTR)
在mRNA的两侧分别存在5'UTR(前导序列)和3'UTR(尾部序列),它们的作用分别是调控翻译的启动和终止。它们由外显子序列构成,但不会被翻译成氨基酸。所以,并非所有外显子序列都会被翻译成氨基酸。
测序方法对比
全基因组测序(Whole-Genome Sequencing, WGS):对整个基因组进行测序。
靶向测序(Targeted-sequencing,也称Panel sequencing):对选定的基因进行测序,通常有几十个至一千个基因不等。因而,从覆盖基因组的范围来说,全基因组测序>全外显子组测序>靶向测序。
全外测序可以视作一种特殊的靶向测序——它靶向的区域是基因组上的所有外显子。panel测序有两种技术原理:杂交捕获测序和多重扩增子测序。全外是基于序列杂交原理实现的。
应用场景
需要特别说明的是对CNV的检测。使用全外检测CNV时,在杂交捕获过程中,由于各个外显子的杂交效率不同,故不同外显子的覆盖率差异会较大。当出现阳性结果时,无法判断是由于杂交未捕获到,还是由于缺失。 故使用全外检测CNV容易出现假阳性结果。一般情况下,全外测序不用于CNV的检测 ,但在癌症研究中,利用癌组织和癌旁组织对照,可以检测体细胞CNV。
人类全外显子组所占基因组比例不超过2%,但它包含了约85%与疾病相关的变异,因此在研究编码基因变异层面,全外测序是比全基因组测序更为经济高效的替代方法。全外测序适用于孟德尔疾病、肿瘤、复杂疾病等多个研究领域。对于表现出异质性的疾病,或者患者表现出多个系统受累的复杂疾病症状时,尤为适合使用全外测序。
例如在肿瘤临床检测中,寻求肺癌靶向治疗的患者通常会先做panel测序,因为与肺癌靶向治疗相关的基因是比较明确的,几十至一百多个基因的panel测序通常就可以满足需求。而对于寻求免疫治疗的患者,通常会使用全外或大panel测序,来评估肿瘤突变负荷(Tumor Mutational Burden, TMB),TMB高的患者通常对免疫治疗有更好的响应。全外测序是业内公认的评估TMB的金标准。
WES检测流程
一个WES测序的工作流程,大体可以分为这3个部分:文库制备,测序,生信分析。
文库制备:通常包含这些步骤:样本处理,DNA提取,定量,建库,杂交捕获,扩增,质控。
测序:目前的仪器包括国外Illumina公司测序平台,以及华大智造国产测序平台等。
生信分析:流程通常包含这些步骤:质控,拼接比对,去重和重排,变异检测,降噪和过滤,注释等。常用的软件有FastQC,BWA,GATK,ANNOVAR等。
一个完整的全外显子组测序,从样本处理到完成数据分析,通常需要10天左右时间。