中国医科大学宋江典团队提出基于视觉大语言模型的肺癌临床诊疗新方法
中国医科大学宋江典团队提出基于视觉大语言模型的肺癌临床诊疗新方法
肺癌是目前全球发病率与死亡率第一的恶性癌症。在中国,新发肺癌病例约为106.06万例/年,严重威胁着国民生命健康。近日,中国医科大学宋江典团队提出了一种基于多模态视觉大语言模型在连续CT扫描图像上模仿放射医生目视诊断的肺部癌变风险评估方法,为肺癌的早期诊断和监测提供了新的思路。
2025年3月4日,中国医科大学宋江典团队在Cell Press细胞出版社期刊Cell Reports Medicine发表了一篇论文,题为“Assessments of Lung Nodules by an Artificial Intelligence Chatbot Using Longitudinal CT Images”。该研究证明当前多模态视觉大语言模型能够在肺癌患者随访CT扫描图像上对肺部癌变影像特征进行精准的放射学表述报告,动态监测癌变趋势,并对随访过程中病变尺寸变化进行准确测量。
肺癌是目前全球发病率与死亡率第一的恶性癌症。在我国,新发肺癌病例约为106.06万例/年,严重威胁着国民生命健康。肺癌患者的早诊与监测成为当前临床及早发现与防治肺癌的重要手段。影像学相关研究表明,肺部放射图像能够辅助临床医生提高肺癌检出率并预警肺癌风险,而CT扫描图像作为常规的肺癌检查技术,能够为临床提供肺部癌变的关键征象,辅助医生确定早期癌变风险,结合规范化CT随访策略提高肺癌患者生存预后水平。近年来,以深度学习为代表的人工智能技术通过对CT图像的定量化分析,构建神经网络模型解析CT图像的语义特征表达,为准确评估肺部癌变风险提供了新方法。国内外科学家开展了多项深度学习及影像组学研究并取得了相应进展,证实了深入挖掘CT图像上肉眼无法识别的高维语义特征对预测肺部癌变风险的有效性并进行了前期临床测试应用。然而,当前人工智能方法仍存在模型输出标签的临床可解释性有限、依赖单时间点CT等局限性。因此基于患者多时间点的随访CT数据提出人工智能方法输出放射学可解释诊断结果,有助于提高肺癌风险预测与临床管理。
近日,中国医科大学宋江典团队提出了一种基于多模态视觉大语言模型在连续CT扫描图像上模仿放射医生目视诊断的肺部癌变风险评估方法,证明了GPT-4o模型在CT视频数据中肺部癌变区域自动分割、肺癌风险概率预测、以及在患者多次随访CT图像上动态监测肺部癌变尺寸与征象变化趋势的有效性与准确性。研究结果全文在Cell Reports Medicine发表。
大语言模型辅助临床在随访CT图像上动态监测肺部癌变区域变化
宋江典团队近年来在肺癌风险评估与非小细胞肺癌生存预后研究领域提出了一系列人工智能新方法。在这项研究中,团队基于来自国内多中心489例经病理确诊良性/恶性肺癌患者的多时间点对比增强CT扫描图像,来自National Lung Screening Trial公开数据集100例肺癌患者以及来自国内中心的78例肺癌患者的多时间点低剂量CT扫描图像,共计1868次CT扫描数据。通过Prompt肺部癌变区域坐标及患者基本人口统计学资料,实现了准确监测患者随访CT上癌变尺寸变化、癌变概率趋势、以及影像征象改变等任务。研究结果表明该方法不受CT扫描剂量的影响并输出符合放射学报告规范的语言描述肺部癌变在随访过程中的变化,为个体化肺癌诊断与临床监测提供了高质量参考证据。
专访通讯作者宋江典副教授
CellPress:近年来肺癌诊断的研究现状如何?
宋江典副教授:肺癌是目前我国恶性肿瘤发病和死亡的首位原因。由于大多数肺癌患者在确诊时已错过最佳根治性手术治疗时机,目前我国肺癌患者平均五年生存率仍处于较低水平。因此,临床及早发现与精准监测成为提高我国肺癌患者人群生存状况的关键。我们团队前期的研究揭示了人工智能技术对于挖掘CT图像上肺癌病变特征辅助提高医生对肺癌临床诊疗及预后的作用,为开发精准的肺癌早诊早治技术提供了重要科学依据。传统的肺癌影像学诊断主要依赖于放射学家对CT图像病变区域的毛刺、分叶等形态与纹理特征评价,这些影像征象为放射学初步诊断提供了重要的证据支持。近年来基于影像组学与深度学习的肺部癌变风险评估方法通过提取CT图像高维语义特征结合神经网络模型实现特征自动提取与分类,多项研究显示,以上方法提高了早期癌变检测的敏感性和特异性,同时实现了无创性风险评估,具有重要的临床应用价值。
CellPress:本项研究对指导肺癌诊断有哪些具体意义?
宋江典副教授:尽管人工智能方法已成为辅助肺部癌变风险预测的热点,但由于人工智能模型尤其是深度学习模型的“黑箱”属性,缺乏对特征提取和决策过程的透明性与可解释性,难以提供高质量临床证据支持。其次,当前研究多基于单时间点的CT图像进行特征分析,而癌变区域在CT图像上随时间的变化则能够解码更多有价值的预测信息。本研究基于以上关键临床问题,借助于当前多模态视觉大语言模型对图像特别是视频数据的前沿解析能力,设计了基于GPT-4o的CT图像肺癌病变自动分析工作流程。本研究将单次扫描的连续CT图像组成视频,把每个患者多时间点随访CT视频数据依次输入GPT-4o的工作流程,结果发现当前视觉大语言模型能够在Prompt给定病变坐标的前提下,准确识别并分割出病变区域。基于所识别的病变区域,以标准放射学报告语言输出病变尺寸、边界、形态、纹理等影像征象在随访过程中的变化,并在动态随访监测过程中实时调整对病变区域癌变概率的评估,显著提高了肺癌病变风险预测精度。总而言之,我们的研究发现为临床上更精准地评估肺癌患者癌变风险概率,并为个体化的肺癌患者动态监测与临床管理提供了新的思路。
CellPress:本项研究还有哪些亮点?
宋江典副教授:传统的影像学肺癌诊断主要依赖放射学家肉眼检查CT图像上肺病变特征。放射学家需要对连续CT图像进行一种类似于视频分析的目视处理过程。在本研究中,基于多模态视觉大模型的CT图像分析方法提供了一种模仿放射学家目视检查的新策略。该方法能够实现对包含肺部癌变区域的连续CT图像依次展开分析以确定肺部癌变区域的影像学特征并输出相关诊断证据。该策略为人工智能技术进一步向放射学诊断的临床转化提供了新方法。同时,本方法基于当前GPT-4o多模态大语言模型提出了一套适用于CT影像肺病变自动分割及辅助诊断的工作流程,包括先验知识组织、Few-shot训练机制、以及肺病灶自动分割策略,为未来基于多模态大语言模型开展相关研究提供了行之有效的解决方案。
CellPress:目前的肺癌预测研究还有哪些值得探讨的方向?
宋江典副教授:在全世界范围内,肺癌预测研究的关键在于早期肺癌的检测与筛查。多模态数据融合是实现更加准确的肺癌概率预测的重要手段。整合CT影像、病理图像、基因数据及临床信息将能够提升人工智能预测模型的精准性。同时,提出针对早期肺癌和微小肺结节的高灵敏度检测方法能够显著提升临床对肺癌患者的诊断精度。此外,借助于当前多模态大语言模型研发具有高可解释性的人工智能方法,开发可视化技术展示模型的决策与推理依据,将能够进一步增强人工智能在临床应用中的透明性与可信度。最后,肺癌预测相关研究应更多地关注临床迫切需求,将人工智能研究成果转化为行之有效的辅助诊疗方法应用于临床,以真正提高该类人群生存获益水平。
通讯作者介绍
宋江典
副教授
通讯作者:宋江典,中国医科大学副教授、博士生导师,入选辽宁省“兴辽英才”青年拔尖人才计划,国家公派斯坦福大学访问学者。围绕肺癌人工智能辅助诊疗预后方向开展多项研究,成果先后发表于Cell、JAMA、Lancet等子刊,研究成果被多家国际权威期刊评述。承担国自然重大研究计划培育项目、国自然青年基金项目以及博士后科学基金项目,申请/授权国内发明专利十余项,参与编撰出版国内外专著2部。现任中国计算机学会数字医学分会执行委员、中国人工智能学会智慧医疗专委会委员、以及辽宁省抗癌协会第七届理事会理事。
相关论文信息
论文原文刊载于CellPress细胞出版社旗下期刊Cell Reports Medicine上
论文标题:
Assessments of Lung Nodules by an Artificial Intelligence Chatbot Using Longitudinal CT Images
论文网址:
https://www.sciencedirect.com/science/article/pii/S2666379125000618
DOI:
https://doi.org/10.1016/j.xcrm.2025.101988
本文原文来自澎湃新闻