微软Nature最新研究:首个基于真实世界数据的数字病理全切片基础模型
微软Nature最新研究:首个基于真实世界数据的数字病理全切片基础模型
微软研究院最新研究在Nature上发表,提出首个基于真实世界数据的数字病理全切片基础模型Prov-GigaPath。该模型通过大规模预训练和创新的架构设计,在癌症分类和病理组学等多个任务中取得突破性进展,为精准医疗和临床研究开辟了新路径。
这篇文章是2024年4月份发表在Nature上的美国微软研究院的研究成果,文章的题目是“基于真实世界数据的数字病理全切片基础模型”。
文章从计算病理学现存的三大挑战入手,构造数据集,设计模型,解决问题。
三大挑战及解决思路
一、可公开获取的病理数据相对稀缺且质量参差不齐,限制了预训练基础模型的性能。(TCGA数据的规模可能不足以全面解决实际临床数字病理学中的挑战,如异质性和噪声伪影问题,这导致基于TCGA的预测模型和生物标志物在分布外样本上表现出显著性能下降。)
二、设计能够提取全视野切片的全局特征和单个图像块的局部特征的模型架构是有挑战的,现有模型通常将单个图像块认为是单个独立的样本,对于切片级的建模称为是多实例学习,没有捕捉千兆像素的全视野切片的全局特征;
三、少数情况下,预训练基础模型通常不对外公开,限制了它们在临床研究和应用中的广泛适用性。
对于问题1,构建数据集Prov-Path,包括由 28 个癌症中心提供的17万张全视野图像的13亿张256*256图像块(3万多名患者,31种主要组织类型),就数据量而言,Prov-Path比TCGA大5倍多,就患者数量而言,比TCGA大2倍多。
对于问题2,为了捕捉整个切片的局部和全局模式,研究团队提出了一种新型视觉转换器架构GigaPath,用于在千兆像素病理切片上预训练大型病理基础模型。其关键思想是嵌入图像块作为视觉标记,从而将切片变成一长串标记。
对于问题3,开放源码和权重。
方法
Prov-GigaPath pretraining
图a是模型的流程图,通过三步将模型输入的全视野图像处理成,可应用于各种下游任务的上下文嵌入。
首先,是全视野图像 WSI 的预处理过程,将每个输入 WSI 按行序列化为 256 × 256 个图像-图块序列;然后,使用切片编码器 DINOv2进行预训练,将所有图像块单独映射为紧凑的嵌入向量,该过程捕捉的是 WSI 的局部特征;DINOv2 是一种标准的自我监督方法,在训练 Teacher-Student Vision Transformer 时结合了对比损失和掩码重建损失。然而,由于自注意力机制的计算挑战,其应用仅限于较小的图像,如 256 × 256 的图像块。为了进行 WSI 切片级建模,将LongNet中的膨胀(扩展)注意力方法适应于数字病理学。最后,应用滑动编码器( MAE 与 LongNet 相结合)将局部的嵌入向量进行序列建模,生成上下文嵌入表示。
涉及到的数据处理方法:
数据集包含公开数据集和网络数据集。网络数据集简单理解就是通过爬虫将网页的图片download下来,直接扒下来的数据很“脏”!
DINOv2 的做法是分三步清洗:首先,针对每个感兴趣的网页,从标签中提取出图像的 URL 链接;其次,排除掉具有安全问题或受限于域名的 URL 链接;最后,对下载的图像进行后处理,包括 PCA 哈希去重、NSFW 过滤和模糊可识别的人脸;整合起来,便生成了 1.2 亿张独一无二的图像。
经过第一个步骤,我们将一些质量太差或者格式破损的图像给剔除掉,然而这当中必然会存在许多冗余图像。采用右图所示的方法进行去重,可以有效减少冗余并增加了图像之间的多样性。此外,作者还删除了这项工作中使用的任何基准的测试或验证集中包含的重复图像。
去重后,去除相似性很高的样本。先使用了一个在 ImageNet-22k 上进行预训练过的 ViT-H/16 的自监督神经网络来计算每个图像的嵌入,然后使用聚类算法来将这些向量分组,然后再给定一个查询图像,从与查询图像所在的聚类中检索N(通常为4)个最相似的图像。如果查询图像所在的聚类太小,会从聚类中抽样M张图像(M是由视觉检查结果后决定的)。最后,将这些相似的图像和查询图像一起用于预训练,那么便能够获得一个更加优质、精心筛选过的大规模预训练数据集。
LONGNET架构将序列标记长度扩展到了10亿+,并不会影响较短序列的性能。它采用用一个名为膨胀/扩展注意力的新颖组件取代了普通Transformers的注意力,其设计原则为:注意力分配随着Token之间距离的增加呈指数减少。这使得LONGNET可以获得线性计算复杂度和对数依赖性,从而解决了有限的注意力资源和每个标记的可访问性之间的矛盾。
膨胀(扩展)注意力由一系列用于建模短程和长程依赖关系的注意力模式组成,注意力模式的数量可以根据序列长度进行扩展。在每个注意力模式中,查询向量和键向量之间的点积被分解为多个子点积,每个子点积仅涉及到一小部分的键向量。这种分解方式可以减少计算复杂度,同时也可以使模型更好地处理长序列。
在本文中,为了处理整个切片的长序列图像块,引入了一系列递增大小的方式,将图像块序列细分为给定大小的片段。对于较大的片段,引入了扩展注意力以系统化的方式捕捉长距离的依赖关系,同时保持计算量不会成指数增长。
结果
On cancer classification and pathomics tasks
研究团队使用 Providence 和 TCGA 数据构建了一个数字病理学基准,包括 9 个癌症亚型任务和 17 个病理组学任务。
左边的图是癌症的亚型分类结果图,右边的是基因突变预测的比较。该模型在 26 项任务中的 25 项上获得了最先进的性能,在 18 项任务上比第二好的模型有了显著改进。
On vision-language tasks
视觉-语言任务比较
a,流程图展示了如何使用病理报告对 Prov-GigaPath 进行微调。病理报告通过 OpenAI 的 GPT-3.5 处理,去除与癌症诊断无关的信息,然后采用基于 CLIP 的对比学习来对齐 Prov-GigaPath 和 PubMedBERT。
b,微调后的 Prov-GigaPath 可以用于零样本癌症亚型分类和突变预测。Prov-GigaPath 的输入是从(WSI)中分割出的图像块序列,而文本编码器 PubMedBERT 的输入是手动设计的提示词,表示癌症类型和突变。基于 Prov-GigaPath 和 PubMedBERT 的输出,我们可以计算输入的 WSI 被分类为特定癌症亚型和突变的概率。
c和d,分别是零样本癌症亚型分类和基因突变预测的表现,性能优越。
总结
I.Prov-GigaPath是第一个对真实世界数据进行大规模预训练的数字病理学全玻片基础模型,它在标准癌症分类和病理组学任务以及视觉语言任务上获得了最先进的性能,证明了对大规模真实世界数据进行全玻片建模的重要性,并为推进患者护理和加速临床发现开辟了新的可能性。
II.模型在不同任务中的性能存在很大差异:癌症亚型分类的性能明显优于突变预测的性能,原因可能是病理图像信息不足以预测某些突变。因此,研究团队计划在未来利用其他模式和特征来增强预测。
III.Prov-GigaPath是迈向精准医疗的多模态生成式AI的重要一步,具有广阔的前景,但要追求多模态对话助手还有很长的路要走,特别是结合先进的多模态框架,如LLaVA-Med。
参考
Xu H, Usuyama N, Bagga J, et al. A whole-slide foundation model for digital pathology from real-world data[J]. Nature, 2024, 630(8015): 181-188.
Oquab M, Darcet T, Moutakanni T, et al. Dinov2: Learning robust visual features without supervision[J]. arXiv preprint arXiv:2304.07193, 2023.
prov-gigapath/prov-gigapath: Prov-GigaPath: A whole-slide foundation model for digital pathology from real-world data
GigaPath: Whole-Slide Foundation Model for Digital Pathology - Microsoft Research