特征选择策略:为检测乳腺癌生物标志物寻找新出口
特征选择策略:为检测乳腺癌生物标志物寻找新出口
乳腺癌是女性常见的恶性肿瘤之一,发病率高居女性恶性肿瘤之首。随着治疗手段的不断提高,早期乳腺癌五年生存率可达到90%甚至更高。因此,乳腺癌早期的准确诊断尤为重要。
microRNA(小分子核糖核酸)是一类短小的单链非编码RNA转录体。这些分子在多种恶性肿瘤中呈现失控性生长,因此近年来被诸多研究确定为确诊癌症的可靠的生物标志物(biomarker)。在多种病理分析中,差异表达分析(Differential Expression Analysis)常被视为检测关键生物标志物的有效方法,而来自意大利那不勒斯费德里科二世大学的研究人员,则提出基于机器学习的特征选择(Feature Selection)策略能够更为有效的检测,并建议将其发现的20种microRNA作为乳腺癌诊断性生物标志物。
实验概述
在本研究中,科研人员发现借助3种特征选择方法(增益率、随机森林及支持向量机递归特征消除),可以更加高效地提取诊断分子组合,他们揭示了一个包含20个microRNA的组合(panel),其中hsa-mir-337、hsa-mir-378c以及hsa-mir-483在目前的乳腺癌诊断生物标志物中,暂未受到医学界的广泛关注。该方法能够区分健康及肿瘤样本,与常用的差异表达法相比,其分类性能更佳,更容易识别易被低估甚至忽略的特征。
图 1: Pipeline 概述
Workflow 包含4个关键步骤:
(i) 在训练TCGA子集上进行Ensemble-FS计算
(ii) 对TCGA/GEO数据集进行差异表达分析
(iii) 比较差异表达分析和特征选择结果的分类性能,并评估特征选择方法的稳定性
(iv) 用计算机模拟验证所选signature的前20种microRNA,对枢纽基因靶点进行检测。
实验详情
数据集
实验数据来源包含两个渠道:美国GDC官网的TCGA-BRCA项目以及Gene Expression Omnibus (GEO) data repository (GSE97811) 。
实验团队从GDC TCGA-BRCA项目中,合计收集了1,881个microRNA-Seq数据,并按照8:2的比例,分成了训练集和测试集两部分。这些数据与300个实体原发肿瘤样本(T)以及101个正常相邻肿瘤(NAT)样本相关,都属于导管及小叶乳腺组织。应用特征选择法之前,这些数据都进行了方差稳定归一化处理(variance stabilizing normalization) 。
同时,科研人员从GEO数据库(GSE97811)下载了一个包含2,565个microRNA的微阵列数据集(microarray dataset),作为本次实验的验证集。该数据集包括16个正常样本及45个肿瘤样本,然后进行数据插补(data imputation) 。
由于GEO数据(本实验中的验证集)涉及到的是成熟microRNA表达,TCGA数据(本实验中的训练集和测试集)则包含早期形态(precursor form),为了统一数据,科研人员在GEO数据样本中只选择了平均计数值高于其对立链(opposite strand)的可替代成熟microRNA;同时,microRNA的名称也已经转换成了相应的早期形态名称。
通过这一过程后,GEO数据(验证集)的维度减少至1,361个microRNA,相应的TCGA RNA-Seq数据也被收集,共包括20,404种基因。
特征选择法及Ensemble程序应用
科研人员选择了3种特征选择方法与差异表达分析法进行比较,分别是Gain Ratio(增益率)、Random Forest(随机森林)和SVM-RFE(支持向量机递归特征消除)。将3种方法应用于microRNA-Seq表达TCGA数据的500个子集上,以识别能区分正常样本和肿瘤样本的稳健特征面板(panel) 。观察到的结果中,按照8:2的比例划分为训练集和测试集,然后对数据通过重采样(resampling)进行自助法(bootstrapping)处理,使其符合数据扰动集成程序(Data Perturbation Ensemble procedure) 。每次计算返回的500个按「importance score」降序排列的microRNA向量。
**|备注:**importance score(重要性得分)表示用算法计算得出的每个feature(特征)在分类中的影响。importance score越高,赋予feature的rank就越低。然后科研人员通过一个聚合程序,推导出每种特征选择方法的共识签名(consensus signature),最终每组microRNA保留得分前200名的feature 。
稳定性测试
用Kuncheva Index (KI) 和Percentage of Overlapping Gene/Features (POG)评估特征选择方法的一致性,用Stot统计法(KI的成对测量)确定所有方法之间的稳定性。这些统计数据是在signature长度逐渐增加的过程中计算得出的,feature数量从2开始到200结束,每次重新计算增加2个unit 。
Stot统计法公式
差异表达分析和DE-signature
对TCGA数据集(含microRNA-Seq及RNA-Seq)进行差异表达分析,从原始计数(raw count)开始,使用精确检验(Exact Test),然后保留FDR <= 0.01及Log2FC阈值为|0.5|的DE feature 。为了获得DE-microRNA的signature,将Log2FC值转化为绝对值,并按照abs(Log2FC)递减的顺序对microRNA(保留前200个feature)进行排序。
GEO验证集借助Limma进行差异分析表达,该数据集获取DE-signature的参数及程序与TCGA数据集一致。
分类性能分析
为了确定每个signature区分健康人及癌症患者的能力,科研人员在测试子集(TCGA)和验证集(GEO)上对4个signature(包括特征选择panel和差异表达panel)都进行了预测性分析。
最后计算出精度平均值(ACC)、K统计量(KK)以及马修斯相关系数(MCC)在各个fold以及每个signature的多个长度上的平均值。
SVM-RFE microRNA-signature靶点(target)检测
为了识别microRNA潜在的基因靶点,科研人员进行了以下操作:
- 将前20个SVM-RFE microRNA按照其在肿瘤样本中的上调(up-regulated)或下调(down-regulated)进行分类。
- 对RNA-Seq数据进行差异表达分析,检测差异表达基因(FDR <= 0.05) 。
- 应用斯皮尔曼相关性分析,对比microRNA表达与差异表达基因,只保留与down-microRNA负相关的up-gene,以及up-microRNA负相关的down-gene (rho <= -0.5) 。
- 收集所有经过验证的microRNA基因靶点(gene targets),且只保留那些也显示出DE-correlated的。
网络中心性及枢纽基因识别
选定失调基因的相关矩阵(Spearman),并用其构建一个图结构基因网络:保留Kleinberg’s hub中心性得分>75,rho > 0.8或rho < -0.6的枢纽基因。对枢纽基因进行基因富集分析(ORA),以便从REACTOME数据库中探索最丰富的pathway 。FDR调整后pValue值阈设定为0.005 。
实验结果
实验表明,应用3种特征选择方法后,都返回了500个按importance score降序排列的microRNA signature,汇总后得到3个共识panel 。值得注意的是,排名前3的microRNA(hsa-mir-139、hsa-mir-96及hsa-mir-145)在所有panel中都出现了,显示出这些分子在区分肿瘤样本和健康样本中的重要性。
|结论 1:SVM-RFE稳定性最高
从KI和POG在共识panel上的计算来看,SVM-RFE法最具稳定性,signature长度达到20个feature时最突出。同样,Stot指数的结果也显示出SVE-RFE法具有最高稳定性。
图 2: 3种特征选择方法的稳定性指数比较
蓝色:Random Forest(随机森林)
粉色:Gain Ratio(增益率)
黄色:SVM-RFE(支持向量机递归特征消除)
|结论 2:SVM-RFE signature在分类中的表现优于差异表达signature
所有单独panel进行分类性能分析后,无论是测试集(TCGA)还是验证集(GEO),都显示出用SVM-RFE获得的signature的预测能力最高。
图 3: 前20个microRNA分类性能及维恩图
A:条形图显示了在测试子集和外部验证GEO数据集上计算的平均statistic
ACC:精度
KK:K统计量
MCC:马修斯相关系数
绿色:DE(差异表达分析法,该实验中的对照方法)
粉色:GR(增益率)
蓝色:RF(随机森林)
橙色:RFE(SVM-RFE,支持向量机递归特征消除)
B:每个signature的前20个microRNA的维恩图,其中标注了SVM-RFE panel前20中的一些有趣的microRNA–hsa-mir-337、hsa-mir-378c及hsa-mir-483,这3个micro-RNA在3种特征选择方法中都出现了,但目前关于乳腺癌的研究中尚未完全确定其作为诊断依据是否可靠。
|结论 3: 网络分析揭示了疾病演变中的潜在关键基因
实验表明,CDC25、TPX2及KIF18B在不同类型癌症以及三阴性乳腺癌患者的干细胞中,都显示高度表达,且TGFBR2的下调与癌症进展相关。
microRNA:乳腺癌早筛的又一理想候选
传统的乳腺癌筛查方法仍以X光成像及组织活检为主,无法对完整的癌症基因组建立更深入全面的理解。这种方法不光侵入性强、成本高,容易产生副作用,还常给出假阳性或假阴性结果,提高乳腺癌的早筛准确度及患者体验,仍需开发新策略来应对乳腺癌负担。
自1993年首次发现以来,micorRNA不断深化了人类对癌症的理解,作为可靠的乳腺癌诊断生物标志物,它展现了巨大潜力。
microRNA属于长度约19-25 nt的小型非编码RNA,可以调控多种靶点基因(target gene),参与了多种生物学和病理学过程的调控,包括癌症的形成和发展,有望弥补当下X光成像及组织活检作为临床上乳腺癌筛查主流诊断方法的局限性。
然而,目前尚未完全开发出microRNA的成熟临床应用,对microRNA使用过程中的安全评估体系也还未建立,要想让microRNA成为癌症的主流诊断依据,恐怕仍需时日。
参考文章:
[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer
[2]https://guide.medlive.cn/guideline/25596
[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1
[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf
[5]https://www.sohu.com/a/318088245_100120288