问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

利用人工智能从临床记录中预测癌症预后

创作时间:
作者:
@小白创作中心

利用人工智能从临床记录中预测癌症预后

引用
科学网
1.
https://blog.sciencenet.cn/blog-41174-1472711.html

在癌症治疗领域,准确预测患者的预后情况一直是一个巨大的挑战。最近,一项发表在《自然》杂志上的研究展示了人工智能在这一领域的巨大潜力。研究人员通过自然语言处理(NLP)技术,从24950名癌症患者的临床记录中提取关键信息,构建了一个名为MSK-CHORD的大型数据集。这个数据集不仅规模庞大,而且注释准确,为癌症预后的精准预测提供了新的可能。

预测癌症预后极具挑战性。例如,在显微镜下,不同个体的非小细胞肺癌可能看起来并无差异,但有些患者对特定疗法反应显著,肿瘤缩小,而另一些患者病情则迅速进展,癌细胞转移至大脑或肝脏。肿瘤基因组分析和数字化健康记录为研究导致不同预后的相关因素提供了很有前景的策略。然而,基因组数据和健康记录数据往往相互孤立,或存储在自由文本记录中,因此需要手动整理以提取关键特征,如疾病部位、吸烟状况和既往治疗情况。尽管人们努力对这些数据进行注释和协调,以研究影响患者预后的决定因素,但手动整理方法既耗时又难以大规模应用。

自然语言处理(NLP)是人工智能的一个分支,通过训练计算机“理解”和生成语言。利用自然语言处理领域的最新进展,研究人员测试了被称为Transformer的机器学习架构1,2(大型语言模型的基础)是否能提升整理数据的效率。他们利用美国癌症研究协会(AACR)肿瘤基因组学证据信息交换(GENIE)生物制药合作项目(BPC)中规模适中的手动整理数据集3,训练自然语言处理算法,从临床、放射学和病理学相关的自由文本记录中提取关键特征(图1a)。研究人员将由此得到的自然语言处理注释,与纪念斯隆 - 凯特琳癌症中心24950名患者的肿瘤基因组数据及其他信息(包括治疗、人口统计学和预后数据)相结合,创建了一个名为MSK - CHORD的数据集。MSK - CHORD的规模比BPC大几倍,但在大多数特征的注释准确性上与之相当,且构建该数据集所需的时间和成本只是BPC的一小部分。研究人员测试了MSK - CHORD在训练模型以预测生存、转移和免疫治疗反应等预后,以及识别肺癌、乳腺癌、结直肠癌、前列腺癌或胰腺癌患者转移的基因组标记方面的效用。


图1 | 创建和使用MSK - CHORD数据集。a,MSK - CHORD包含使用一种名为自然语言处理(NLP)的人工智能,从24950名个体的电子健康记录中提取的数据。例如,一份表明肿瘤生长的放射学自由文本报告的节选,会通过自然语言处理算法,以注释报告中提及的癌症进展概率(p)。使用一个较小的手动整理数据集(BPC)对自然语言处理提取的数据特征的准确性进行验证。将自然语言处理注释与基因组数据及其他数据合并,以大规模模拟患者预后。b,用MSK - CHORD训练的预后预测模型可提供大量预后信息。例如,它们可以识别出预后比I - III期(局限性)非小细胞肺癌(NSCLC)患者更好(风险评分更低)的IV期(转移性)非小细胞肺癌患者。如按风险评分分层的 Kaplan - Meier 曲线所示,该模型能有效预测IV期非小细胞肺癌患者的一系列总生存期。底部数字表示生存曲线中每个时间点各四分位数的风险个体数量。RSF,随机生存森林——一种用于预测总生存期的机器学习算法。图片来源:Jee, J.等人/《自然》(CC BY 4.0)

在预测生存情况方面,包含MSK - CHORD所有特征的机器学习模型,其表现优于仅使用疾病分期或其他单一特征的模型(图1b)。MSK - CHORD的大规模意味着研究人员发现了一些在较小数据集中不明显的临床与肿瘤基因组特征之间的关系,包括此前未报道的转移和治疗反应的基因组预测因子。例如,研究人员发现SETD2基因的失活突变与肺腺癌的脑转移率和免疫治疗反应相关,并在两个独立队列中证实了这些发现。MSK - CHORD使研究人员能够构建模型,根据患者发生各种预后的风险对其进行分层。

未来展望

  • 包含24950名个体的MSK - CHORD队列作为公共资源可供使用。由于其组成部分是自动生成的,机构实例每天都会更新,截至目前,该队列至少包含90000名个体和130000多个肿瘤,为不同人群的研究提供了助力4,5。
  • 未来版本的MSK - CHORD将纳入更多临床参数,包括社会经济状况和共病情况,以及基于影像的放射学和微观特征。
  • 从该数据中得出的发现,包括风险模型和反应的基因组预测因子,可为干预性试验提供参考,以指导治疗决策。——贾斯汀·吉和尼古劳斯·舒尔茨就职于美国纽约纪念斯隆 - 凯特琳癌症中心。

专家观点
本文展示了一项关于整合临床基因组数据以改善癌症预后预测的研究,使用了一个名为MSK - CHORD的大型数据集。该数据集通过将自然语言处理(NLP)与来自25040个肿瘤的各种数据源相结合而创建。研究表明,在预测总生存期方面,用MSK - CHORD训练的机器学习模型优于仅基于基因组数据或癌症分期的模型。本文突出了自动化数据注释的潜力以及多种数据特征在增强患者预后预测方面的价值。——森蒂尔库马尔·穆西亚,就职于美国马萨诸塞州波士顿的达纳 - 法伯癌症研究所。

编辑视角
这项研究展示了自然语言处理自动化注释的潜力,通过整合通常在基因组学、病理学和电子健康记录中相互孤立的数据流,来改善癌症预测。——维多利亚·阿兰达,《自然》副主编

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号