使用基于细胞或组织学图像的深度学习预测原发来源不明癌症的肿瘤起源
使用基于细胞或组织学图像的深度学习预测原发来源不明癌症的肿瘤起源
原发部位不明的癌症(CUP)因其难以捉摸的性质而给诊断带来了挑战。许多CUP病例表现为胸膜和腹膜浆液性积液。利用来自四家三级医院的57,220例病例的细胞学图像,研究人员开发了一种使用细胞学(TORCH)进行肿瘤起源区分的深度学习方法,该方法可以识别恶性肿瘤并预测胸水和腹水中的肿瘤起源。
背景概述
原发部位不明的癌症(CUP)是一组经组织病理学确诊为恶性转移但无法通过标准诊断方法确定其来源的恶性疾病。据估计,CUP占人类诊断出的所有癌症的3-5%。腺癌是最常见的病理类型,其次是鳞状癌和未分化癌。尽管采用了联合化疗,但大多数患者的预后非常差,只有20%的患者能达到10个月的中位生存期。CUP通常以早期播散、多器官受累为特征。然而,只有不到30%的CUP病例可以通过大约20种不同的免疫染色亚基的鸡尾酒疗法来精确定位,因此CUP仍然是临床医生面临的一个棘手问题。
在新诊断的CUP患者中,相当一部分存在胸膜或腹膜转移。胸腔和腹部浆膜腔是孤立肿瘤细胞转移的高倾向性部位。胸腔积液或腹水中发现的游离肿瘤细胞是某些实体肿瘤IV期的有力证据。据报道,7-20%的呼吸道或胃肠道肿瘤患者被诊断出患有胸腔和腹腔积液,其中许多人同时患有腹膜或胸膜癌。先前的研究表明,浆液性积液可能在没有任何癌症病史的情况下发展,并且在10%的恶性积液患者中作为癌症的初始表现出现。腹膜或胸膜细针穿刺细胞学检查通常是诊断胸腹转移的关键方法。然而,病理学家通常可以通过细胞学涂片直观区分腺癌和鳞状癌,但无法区分肿瘤细胞的来源。因此,精确的细胞学评估可能有助于对CUP和胸膜或腹膜转移患者进行适当的管理,指导最佳治疗策略,避免不必要的手术并进一步延长总体生存期。
基于CNN的计算机分析最近越来越多地被用作病理诊断领域的辅助技术。数字病理学已应用于各种图像处理和图像分类任务。然而,目前的AI算法主要关注组织病理图像的疾病分类,很少有能够解释细胞病理学成像数据以预测肿瘤起源的深度学习模型。在常规临床实践中,组织病理学和细胞病理学在追踪肿瘤起源方面有不同的应用场景。当可以通过手术或针吸活检获取标本时,会使用组织学检查,这些类型的标本可以提供更丰富的诊断信息。细胞学检查主要适用于不能接受手术或不能耐受针吸活检的晚期癌症患者。在这种情况下,胸腔和腹腔浆液性积液标本因其极佳的可及性(微创穿刺)而有助于定位癌症起源。然而,取样不足(细胞收获量低)、细胞变性或异形性以及检查者之间的解释差异是诊断准确率不高的主要原因。需要应用新技术,例如人工智能辅助图像分析,以提高肿瘤检测能力。目前,尚未有研究使用AI通过胸水和腹水的细胞学图像预测癌症起源。
该研究旨在通过细胞学图像建立诊断模型,预测癌症和胸水或腹水转移患者的广泛癌症起源。该AI系统的性能通过来自多个独立测试集的大规模细胞学涂片病例进行验证。
基线描述
2010年6月至2023年10月期间,作者获得了来自四家大型机构(天津医科大学肿瘤医院、郑州大学第一医院、苏州大学第一医院和烟台毓璜顶医院)的76,183名患者的90,572张细胞学图像的大型数据集作为训练和测试集(有原发部位-Primary tumor site的标注)。此外,作者排除了24,808张缺乏任何临床或病理支持证据证明原发来源的恶性肿瘤图像。另外还排除了8,544张空白或对焦不准的图像。最终数据集包含来自43,688名患者的57,220张图像。
训练集包括来自20,638名个体的29,883张图像,涵盖12种肿瘤亚型或来源:138个,食道;1,773个,胃;20个,肠道;720个,结肠和直肠;151个,肝脏;144个,胆囊;357个,胰腺;321个,子宫和阴道;4,217个,卵巢和输卵管;1,874个,乳腺;9,121个,肺和上呼吸道;570个,血液和淋巴系统。除了上面描述的19,406张肿瘤图像外,最终训练集中还包括10,477张良性疾病图像。
- 图1:a.共计42,682例病例来自三家大型医院,其中70%(n=29,883)用作训练集。临床病理数据来自放射影像科、医疗记录系统和病理数字数据库。b.在诊断过程中,大多数图像被放大200倍或400倍。c.使用细胞学图像训练的深度学习网络旨在根据最高预测概率得分将目标图像分为五类。分类结果在四个机构得到进一步验证,包括三个内部测试集(n=12,799)和两个外部测试集(n=14,538)。N表示第N个图像块。
同样,从同样的四家医院获得了三个内部测试集,包含10,974个受试者(12,799张图像)。另外两个外部测试集包括来自天津和烟台医院的12,076个受试者(14,538张图像)(图1)。测试集的肿瘤分类与训练集大致一致。由于同一患者在疾病发展的不同阶段可能接受过一次以上的胸腹水芯针穿刺活检以进行细胞学分析,因此可能记录了多张图像。在该研究中,每张图像结合其临床病理资料作为一个病例。
TORCH预测肿瘤起源的表现
通过对三种不同类型的输入训练四种不同的深度神经网络从而开发了TORCH,一共产生了12种不同的模型。随后执行模型集成以整合这些模型。结果表明,TORCH提供了相对可靠的泛化性。在五个测试集(n=27,337)上,TORCH实现了AUROC值0.969的平均。在三个内部测试集上,天津数据集的AUROC值为0.953、郑州数据集的AUROC值为0.962,苏州数据集的AUROC值为0.979(图2);在两个外部测试集上,天津-P和烟台数据集的AUROC值为0.958和0.978。
在癌症阳性病例的识别方面,TORCH的AUROC值为0.974,准确率为92.6。在女性生殖系统组肿瘤来源定位方面,TORCH的AUROC值为0.960,准确率为88.1,与其他系统相比性能有所提高。
方法细节
数据临床分类
为保证每张图像的质量,作者委托5位资深病理学家(均具有15年以上的临床实践经验)收集相应的H&E图像或手术切除或针吸活检标本的病理检查结果,以验证其准确性和真实性。临床诊断不明确或原发肿瘤来源不明的病例被排除在外。5位病理学家协商一致,手动为每个病例分配最终的分类标签。既往接受过放疗的患者均被排除在训练集和测试集之外。
这些患者的各种癌症类型首先根据器官功能和来源分为12个亚组。然后:
- 食管、胃、十二指肠、肠、阑尾、结肠和直肠等肿瘤归入腔道消化系统;
- 肝脏、胆囊、胰腺肿瘤归入分泌性消化系统,
- 卵巢、输卵管、子宫体、宫颈、阴道肿瘤归入女性生殖系统。
- 由于乳腺的特殊性和功能,乳腺癌也归入女性生殖系统。
- 将肾脏、输尿管、膀胱、尿道肿瘤归入泌尿系统;为符合临床惯例,将前列腺、睾丸、精囊肿瘤也归入泌尿系统。
- 将肺、气管肿瘤归入呼吸系统。
- 头颈部肿瘤归为一组。
- 中枢神经系统与周围神经系统肿瘤归为一组。
- 骨与软组织肿瘤也归为一组。
- 对于黑色素瘤、间皮瘤和胸腺瘤,由于其独特的生长特性,分别分组。
- 此外,急慢性白血病和淋巴瘤被归入血液和淋巴系统。
由于某些肿瘤(例如泌尿系统、头颈部、神经系统、骨和软组织、黑色素瘤和胸腺瘤)很少转移到胸部或腹部浆膜腔,因此可用于模型训练的细胞学图像数量有限。在该研究中,来自这四家机构的间皮瘤标本也相对稀少。从上述癌症中排除了这些罕见的细胞学图像,并进一步将剩余的57,220例病例整合为五大类:良性肿瘤、消化系统(包括腔内消化系统和分泌性消化系统)、女性生殖系统(包括乳腺癌)、呼吸系统和血液和淋巴系统(图1)。
数据管理
从现实世界的临床场景中检索细胞学图像而不是全切片图像(WSI)。首先通过细针抽吸提取胸腔和腹腔积液,并直接制备成涂片进行显微镜观察(JVC TK-C9501EC,Olympus BX51,放大倍数为×400或×200)。
病理学家选择了五到十个最能代表病理特征的肿瘤细胞浓缩区域进行半定性分析。数据库中存储的原始图像格式为2,797×1,757像素。由于不同肿瘤来源导致细胞形状各异,以及细胞学图像中背景比例相对较高,通常不可能直接从这些大图像中开发深度学习模型,因此作者将每张图像分成224×224像素的patches列表。排除了包含严重伪影的空白、聚焦不佳和低质量图像。从同一幅图像中提取的patches位于单个包中。对于癌症阳性bag,必须至少有一个patch包含肿瘤细胞;对于阴性包,任何patch都不得包含肿瘤细胞。
对于具有n个patches的给定细胞学图像,作者将每个patches转换为1,024维的特征向量(特征提取器来自MoCo预训练)。然后,将这些特征向量组合为n行1,024列的特征矩阵Ximage。除了图像特征外,作者还将临床参数作为输入,包括年龄、性别和标本采样地点。在这种情况下,作者将年龄、性别和标本采样地点嵌入到1,024维的向量中,表示为Xage、Xsex和Xlocation。基于注意力机制的MIL分类器的输入可以设置为X=Ximage和X=Ximage+Xage+Xsex+Xlocation。
模型训练
由于每个提取的patch仅代表肿瘤特征或组织内容的一小部分,因此用患者级别的诊断结果来标记这些patch是不合适的。因此,作者使用了一种弱监督机器学习方法,并训练了一个名为TORCH的多任务神经网络模型,同时考虑了整个bag中的信息。包括性别、年龄和标本取样部位(胸水和腹水)在内的参数以及细胞学图像被作为输入。
使用Adam优化器以随机梯度下降的方式端到端训练模型100个epoch,恒定学习率为2×10−4,权重衰减为1×10−5,批次大小为1 bag。从第60个epoch开始,选择验证损失最低的模型作为最佳模型。
在训练集上分别训练了四个深度神经网络。这些网络包括基于注意力机制的多示例学习(AbMIL)、具有多个注意力分支的AbMIL(AbMIL-MB)、基于Transformer的MIL(TransMIL)和具有跨模态注意力机制的TransMIL。
使用细胞学或组织学特征提取器(MoCo预训练)提取图像特征。对于每个网络,作者训练并获得了针对不同输入组合的三个模型:
- (1) 细胞学图像特征加上年龄、性别和标本采样部位;
- (2) 组织学图像特征加上年龄、性别和标本采样部位;
- (3) 细胞学和组织学图像特征加上年龄、性别和标本采样部位。
最终获得了12个模型。最后,通过平均这些模型的预测概率来执行集成。模型训练和评估是在DGX A100计算服务器上使用PyTorch(v.1.12.1)进行的。
评估方案
癌症阳性与阴性分类
给定一个细胞学图像,TORCH会输出五个概率,分别为消化系统(Pdigestive)、女性生殖系统(Pfemale)、呼吸系统(Prespiratory)、血液和淋巴系统(Pblood-lymph)或良性组(Pbenign)。癌症阳性概率的计算方式为Pcancer=1−Pbenign。结合真实标签,可以使用Pcancer来衡量模型在识别癌症阳性病例方面的准确性。
原发肿瘤来源的分类
如果一个病例被判定为恶性,那么根据预测概率最高的结果,它将被预测为以下四组之一:消化系统、女性生殖系统、呼吸系统和血液或淋巴系统。
按标本采样地点分层分类
恶性肿瘤有转移到胸腹腔的趋势。转移到胸水或腹水的发生率因肿瘤来源而异。肺癌和乳腺癌都容易发生胸腔转移,而胃肠道肿瘤更容易转移到腹腔。为了确认胸腔积液和腹水之间的模型性能差异,作者将细胞学涂片分别分为胸水组和腹水组,并对每组进行模型评估。对于五个测试集,共纳入16,892例胸腔细胞学涂片图像病例和10,445例腹部细胞学涂片图像病例。
按癌症和非癌症分层分类
恶性肿瘤分为癌和非癌两大类,但其来源不同。癌起源于上皮组织,肿瘤细胞呈巢状排列,实质和基质界限分明。非癌肿瘤按四大类分为间叶组织、恶性畸胎瘤和血液及淋巴系统肿瘤。肉瘤起源于间叶组织(中胚层),肿瘤细胞散在并交织于实质和基质之间。因此,作者将测试病例分为癌和非癌两组,分别评估模型对每组的有效性。
按腺癌和非腺癌分层分类
转移性腺癌细胞在细胞学涂片上通常排列呈立体状,腺块状,胞浆内粘液较多,核仁明显。基于此,根据肿瘤细胞散在的形态和特点,对于一些典型的肿瘤,病理学家可以直观地区分腺癌和鳞状细胞癌。但在缺乏常规组织病理学全片和免疫组化结果的情况下,仅根据肉眼观察很难判断这些细胞的来源。为了进一步评估本模型对不同病理亚型的有效性,作者将测试集中的癌组织粗略地分为腺癌和非腺癌组,并分别对每组进行模型评估。非腺癌组主要包括鳞状细胞癌、肉瘤样癌、腺鳞癌、乳头状癌、大细胞癌、小细胞癌、移行上皮癌、基底细胞癌和未分化癌。本研究中腺癌亚群主要包括肝胆胰、胃肠道、肺、乳腺和女性生殖器(卵巢和子宫体)肿瘤。鳞状细胞癌亚群主要包括肺癌、食管癌和女性生殖器(宫颈和阴道)肿瘤。
真实数据上评估
为了验证模型在现实环境中的泛化能力,作者纳入了两个完全未见过的外部测试集,即天津-P和烟台。作者前瞻性地招募了2023年6月20日至10月5日期间在天津肿瘤医院就诊的4,520例连续病例作为天津-P测试集。这些病例来自门诊或住院部门,未经人工挑选。在这4,520例病例中,1,881例根据综合临床和放射学检查结果被推定诊断,并被归类为低确定性病例;587例病例的来源无法通过临床确定,这些病例随后被归类为不确定CUP患者。烟台测试集包括2013年2月至2022年5月期间从烟台医院回顾性登记的12,467例病例。在这12,467例病例中,4,646例被归类为低确定性,1,862例被归类为不确定性。由于模型对不确定病例的表现数据不可用,因为这些病例没有真正的标签,所以评估了已知癌症来源的病例的表现(来自天津-P的3,933例和来自烟台的10,605例)。
本文原文来自Nature Medicine