MSI 检测方法概述
MSI 检测方法概述
微卫星不稳定(MSI)检测在肿瘤临床诊断和预后治疗中具有重要意义。MSI状态可以预测免疫检查点封锁疗法在实体瘤中的疗效,因此,准确检测MSI状态对于制定个性化治疗方案至关重要。本文将详细介绍MSI检测的主要方法,包括免疫组化(IHC)、PCR和NGS等,以及常用NGS方法的原理和应用。
1 MSI 相关概念
微卫星(Microsatellite)序列是遍布于人类基因组上数百万个基因座(loci)中的短串联重复(short tandem repeats,STR)序列。通常由1-6个重复(如单核苷酸、双核苷酸重复等)的碱基串联重复排列10-50次。
微卫星不稳定(MSI/MSI-H),由于在DNA复制时错配修复 (MMR) 基因的功能缺陷,导致串联序列发生插入和缺失突变,引起MS序列长度改变的现象。这种类型的体细胞突变会导致抑癌基因失活或破坏其他非编码调控序列,从而起到致癌作用。
MSI作为可作为一种独特的分子表型,存在于多种癌症中,包括结直肠癌,子宫内膜癌,胃癌,前列腺癌,卵巢癌和成胶质细胞瘤等。并且MSI能够预测免疫检查点封锁疗法在实体瘤中的疗效。因此,检测MSI状态在肿瘤临床诊断和预后治疗上具有重要意义。
2 MSI 检测方法
目前,MSI检测方法主要有三种:
2.1 免疫组化(IHC)
IHC方法使用相应的抗体,通过对4种DNA错配修复蛋白(MLH1,PMS2,MSH2,MSH6)在细胞核内的表达情况,来确定细胞内是否存在错配修复功能缺陷。如果其中任何一个蛋白出现表达缺失,则会被判定为错配修复缺陷(dMMR),相当于MSI-H;如果四个蛋白全部表达,则判断为错配修复功能正常(pMMR),即MSI-L或MSS。
其优势在于应用性广泛,并且能确定哪些MMR蛋白在肿瘤中细胞中表达缺失。但是,IHC本身存在主观性,同时受抗体质量和实验因素等影响,有时无法检出某些定性蛋白的变化,导致MMR结果偶有报错。
2.2 PCR
主要采用多重荧光PCR结合毛细管电泳的方法,通过PCR扩增特定的微卫星序列,然后通过毛细管电泳比较肿瘤组织与正常组织微卫星序列长度的差异来判断该位点是否存在MSI现象。这种检测方法是公认的MSI检测的金标准,也是使用最广泛的方法。
最开始使用的是National Cancer Institute(NCI)推荐的5个位点:
- 两个单核苷酸重复BAT-25、BAT-26
- 三个二核苷酸重复D2S123、D5S346、D17S250
通过如下方式来判断结直肠癌的MSI状态:
- 5个位点均稳定即微卫星稳定(MSS)
- 1个位点不稳定称为低度微卫星不稳定(MSI-L)
- 2个及2个以上位点不稳定被认为是MSI-H
有研究表明,MSS和MSI-L之间没有明显的肿瘤生物学特征差异,因此,临床上将MSI-L也归类为MSS。后来有研究指出,二核苷酸重复较单核苷酸重复的位点敏感性更低,且存在高度的个体多态性,需要配对的肿瘤和正常样本对照才能得出结果。因此,降低了检测的灵敏度。
因此,有人提出pentaplex panel,包含五个单核苷酸重复的位点:
- NR-21、NR-24、BAT-25、BAT-26、NR-27/MONO-27
无需配对正常的样本,且性能更高,但是在MSH6缺陷型肿瘤中性能不高
目前使用更多的是Promega系统,包含:
- 5个单核苷酸重复:BAT-25, BAT-26, NR-21, NR-24和MONO-27
- 2五核苷酸重复质控位点:Penta C和Penta D
PCR检测方法不仅弥补了IHC在因非截断式错义突变导致的MSI无法检出的漏洞,同时还具备良好的可重复性。但是,其检测的基因(panel)的位点较少、通量较低、无法提供具体的基因突变信息,而且实验周期较长。
2.3 NGS
随着高通量测序技术的发展,使用全基因组测序(WGS)、全外显子测序(WES)或靶向基因测序(TGS)进行MSI检测的已经越来越普遍了。与PCR相比,NGS方法通量大,涉及基因范围广、灵敏度和特异性更高,可与靶点的突变检测、肿瘤突变负荷(TMB)等检测共用一份测序数据。
在目前已发表的NGS方法中,一般都是以PCR检测结果作为金标准,通过比较二者结果一致性作为评价NGS检测性能的标准。NGS检测方法种类繁多,且大多数需要配对正常样本,我们可以将这些方法分为两大类:
- 基于位点的repeat count分布
在这里,可能需要讲解一下何为repeat count
在上面的图中,我们假设微卫星位点为10个连续的A,且该位点比对上了10条reads,每条read比对上的长度长短不一。由此,我们可以计算出repeat count
repeat为所有reads的长度,count为各长度对应的reads支持数
其分析流程与原理大致可以用如下流程图来描述
包括MSIsensor、mSINGs、MANTIS、Cortes-Ciriano、MSI-ColonCore等
- 基于突变负荷或MS位点的indel
其分析流程与上面类似
包括MSIseq Index、MSIseq/NGS classifier、Nowak等
3 常用 NGS 方法原理介绍
3.1 MSIsensor
MSIsensor是通过MS位点两端各5bp的侧翼序列来定位的,算法原理为
- 对于在肿瘤和正常样本中测序深度都≥20的微卫星位点, 统计其每种重复(repeat)长度的reads数目分布情况;
- 其次, 使用卡方检验对微卫星位点上的分布进行统计检验, 若存在显著差异, 则认为该位点是不稳定的;
- 最后统计不稳定位点的比例, 如果该比例超过指定的阈值, 则认为该样本为MSI-H。
3.2 mSINGs
mSINGs方法也是通过计算每个位点的不稳定性,并以不稳定位点的比例作为样本的score值,大于阈值的认为是不稳定状态。
- 通过从MSS样本中构建参考基准,即baseline。对于某一个位点
- 只考虑位点测序深度大于30的样本
- 计算该位点的repeat count分布
- 标准化该位点的repeat count(除以总reads数)
- 过滤掉标准化分数小于5%的repeat
- 然后以这些repeat标准化值的均值和方差作为baseline
- 在待预测的样本中,对于每个位点,使用1中的方法计算其标准化均值,如果该值不在baseline均值的3倍标准差之间,则认为该位点不稳定
- 计算不稳定位点的比例来判断样本的MSI状态
3.3 MANTIS
MANTIS也是根据肿瘤及其配对正常样本的repeat count的分布计算样本的不稳定状态。它将每个位点在样本中的repeat count分布看成是一个向量,通过对这两个向量计算欧氏距离、余弦相似度等度量分数,并将所有位点的均值作为样本的不稳定分数。
具体计算方式如下:
- 对reads进行质控,保留长度和质量满足要求的reads
- 计算配对肿瘤和正常样本的repeat count分布
- 将reads数过低的repeat去除
- 对位点的总reads数进行控制,总数需要超过阈值
- 标准化reads数,转换为reads占比
- 计算两个向量的度量分数
- 以所有位点的分数均值作为样本的不稳定值
可以看到,该方法进行了比较严格的质控
3.4 MSI-seq Index
该方法是基于RNA-seq数据,通过计算两个指标的比值PI/PD,如果该比值小于0.9则认为该样本为MSI
其中,PI表示微卫星位点区域发生插入突变占所有插入突变的比例,PD表示微卫星位点区域发生缺失突变占所有缺失突变的比例。
3.5 MSIseq/NGS classifier
该方法通过计算样本中单核苷酸替换率和小片段的碱基插入删失率等突变信息构建特征,然后应用机器学习算法构建分类器。
具体的特征包括:
该方法使用的是WES数据,且选择了线性回归,决策树,随机森林和朴素贝叶斯四种算法。其中最优的算法是决策树,该方法不需要配对的正常样本。
本文原文来自CSDN