Radiology最新研究:GPT-4V在放射学图像解读中的性能评估
Radiology最新研究:GPT-4V在放射学图像解读中的性能评估
GPT-4V是OpenAI推出的一款具备视觉功能的大型语言模型,在医学影像解读领域展现出巨大潜力。近期发表在《Radiology》上的一项研究,对GPT-4V在放射学图像解读方面的性能进行了定量评估,结果显示该模型在识别成像方式和解剖区域方面表现出色,但在异常检测和诊断准确性方面仍存在明显局限性。
像OpenAI的ChatGPT这类大型语言模型(LLMs)自2022年受到广泛关注以来,极大地改变了文本生成方式。基于Transformer架构,并通过对海量(通常未公开数量)的文本进行训练,大型语言模型(LLMs)无需大量示例(即少样本学习与提示,或零样本学习与提示)就能生成可信的文本输出。大型语言模型(LLMs)已经在医疗场景中进行了广泛测试,包括将自由文本的放射学报告转换为标准化报告模板,以及对肺癌自由文本的计算机断层扫描(CT)报告进行数据挖掘等。其在以放射学委员会考试风格的文本问题回答中所展现出的内在“知识”也得到了证实,并且最近还显示出大型语言模型(LLMs)有助于简化放射学报告。
近期,具备视觉功能的GPT-4(即GPT-4V,由OpenAI推出)问世,它能够处理图像输入。像这样的大型视觉-语言模型可能会使我们更接近基础模型,可用于各种各样不同的任务。
一项定性评估报告指出,GPT-4V在依据单张医学图像生成放射学报告方面表现出有前景的性能,但也凸显了该模型目前存在的局限性。“红队”专家(即负责测试系统漏洞的专业人员)也报告了其在解读放射学图像时存在不一致的情况。然而,这类广泛可用的模型不可避免地会被误用于非预期的应用场景,绕过安全防护措施。鉴于其涉及的潜力和风险,对这些模型进行全面分析至关重要,但关于GPT-4V的经同行评审的文献仍然匮乏。在对超声图像分析的定性研究中以及将GPT-4V与无视觉能力的大型语言模型(LLMs)在医学病例挑战中进行对比时,有报告称其表现出良好性能。但也有其他作者认为该模型不适合用于医学图像解读,例如,有报告称该模型的表现不如商业胸部X光片解读软件。大多数作者仅纳入了数量有限的公开可用图像,且未设置阴性对照,这限制了对模型性能的评估。而且,公开数据可能已被包含在GPT-4V的训练中,这可能会使其结果偏向更好的表现。其他相关研究工作尚未经过同行评审,也存在类似的局限性。目前仍缺乏在未见过的数据上对GPT-4V和人类读者的表现进行定量比较分析。
最近,发表在Radiology上的一篇文章通过数据定量评估了GPT-4V在解读放射学图像方面的性能。
本项回顾性研究纳入了来自神经放射学、心胸放射学以及肌肉骨骼放射学(计算机断层扫描(CT)、磁共振成像(MRI)、X线摄影)中具有代表性的单个异常图像和健康对照图像,于2024年2月至3月期间通过应用程序编程接口利用GPT-4V生成报告。使用准确率、敏感度和特异度来评估自由文本报告的事实正确性以及在二分类任务中检测异常的性能。将二分类任务的性能与一名正在接受培训的一年级非放射科医生以及四名获得委员会认证的放射科医生进行对比。
共纳入470名患者的515张图像(中位年龄为61岁[四分位距为44-71岁];男性267名),其中345张图像为异常图像。GPT-4V对图像相关信息的识别情况:GPT-4V能在100%(515张中的515张)的图像中正确识别成像方式,在99.2%(515张中的511张)的图像中正确识别解剖区域。在自由文本报告中,诊断准确率在气胸(计算机断层扫描(CT)和X线摄影)方面为0%(33张图像中的0张)到脑肿瘤(磁共振成像(MRI))方面的90%(50张图像中的45张)之间。在二分类任务中,GPT-4V的敏感度在缺血性卒中方面为56%(25张图像中的14张)到脑出血方面的100%(25张图像中的25张)之间,特异度在脑出血方面为8%(25张图像中的2张)到气胸方面的52%(25张图像中的13张)之间,而人类读者在所有任务中的汇总敏感度为97.2%(1135张图像中的1103张),汇总特异度为97.2%(1115张图像中的1084张)。该模型明显存在过度诊断异常的倾向,在自由文本报告和二分类任务中的假阳性率分别为86.5%(170张图像中的147张)和67.7%(223张图像中的151张)。
表 二值分类任务的性能
本项研究表明,GPT-4V的初始版本能够识别医学图像内容,并可靠地从单张图像中确定成像方式和解剖区域。然而,在图像解读方面,GPT-4V未能有效地检测、分类或排除异常情况。
本文原文来自Radiology