问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

NEJM综述:医学研究中的人工智能与传统统计学

创作时间:
作者:
@小白创作中心

NEJM综述:医学研究中的人工智能与传统统计学

引用
CSDN
1.
https://blog.csdn.net/m0_59235699/article/details/143999181

在医学研究中,统计学和人工智能(AI)正在携手推动科学进步。本文基于《新英格兰医学杂志》综述文章的深刻洞见,探讨了统计学与AI在医学研究中的结合,展示了两者如何协同发展,为医学领域带来革命性变化。

1. 历史回顾:统计学的崛起

统计学作为一门独立学科在20世纪初逐渐形成。在这一时期,随机化、假设检验、基于似然的推断、P值以及贝叶斯分析等基础概念得到了发展。到2000年,《新英格兰医学杂志》的编辑将“统计学在医学中的应用”列为过去1000年中医学领域的11项最重要进展之一。统计学的核心在于如何利用不完全的信息进行推理,并严谨解读和传达数据中的科学发现。此外,统计学还包括实验最优设计的确定,以及通过概率语言表达对数据分析结果和推论中不确定性的准确量化。

2. AI的崛起:特征表示学习

传统统计学的局限

传统的统计建模方法依赖人工精挑细选分析中需要的测量指标和数据特征,例如决定在回归模型中包括哪些协变量,以及对数据进行哪些变换或标准化。尽管随机森林或逐步回归等半自动化数据简化技术已经辅助统计学家多年,建模假设和特征选择通常是显式的,并且模型的维度(如参数数量)是已知的。这种方法通过专家的判断实现高质量的人工分析,但存在两个潜在缺点:

  • 人工选择特征的统计方法难以扩展到大型数据集,例如数百万张图像的分析。
  • 假设统计学家能够找到适合分析的最佳特征,但这在高维数据中往往难以实现。

AI的突破

AI通过“特征表示学习”解决了这些问题。在训练阶段,AI从数据中算法性地构建特征,以发现适用于学习任务的数据变换。这种能力使训练后的AI模型能够构建超越人类设计范围的数据适应特征,从而在任务表现上极为出色。它能够:

  • 自动搜索和提取复杂、任务导向的特征。
  • 在任务表现上超越人类设计范围的特征选择。

然而,在新兴的生成式人工智能领域,尤其是通过自监督学习的模型(如大型语言模型和医学科学聊天机器人)中,模型通常涉及大量未经记录的训练数据,并使用广泛的目标函数训练参数数量庞大的模型(截至撰写本文时,达到数万亿个参数)。这些特征常常难以解释,且在数据变化下较为脆弱,缺乏背景知识的支持。因此,在AI驱动的科学发现中,必须采用更严格的监督和检查措施,以确保结果的有效性和普适性。

3. 预测与推断的交锋

AI尤其擅长于大规模预测任务,例如疾病风险预测。然而,医学研究的最终目标通常是揭示疾病机制或开发新疗法,这需要从个体预测上升到总体推断。

挑战

  • 在个体层面上表现良好的预测模型与对总体进行推断的能力之间往往存在证据差距。预测模型的准确性无法直接转化为科学推断。
  • 预测工具的准确性度量方式存在多样性,例如ROC曲线下面积、精准率与召回率、均方误差、阳性预测值、错误分类率、净重新分类指数以及对数概率评分等。在不同的临床情境下,一种度量指标上的高准确性可能无法在其他指标上转化为相同水平的表现,更可能不符合临床意义或安全性的要求。

解决之道

统计学通过明确的推断目标(如置信区间、P值)以及因果机器学习方法(如结构因果建模)弥补这一差距,为AI结果赋予科学意义。

表: 人工智能与传统统计方法的相似点与差异

特征
人工智能方法
传统统计方法
先验假设
无假设或非常广泛
明确,通常分为主假设、副假设和探索性假设
技术示例
随机森林、神经网络、XGBoost
参数和非参数的组间比较;线性预测的回归与生存模型
分析稳定性
容易因多模态数据整合及用户选择算法规格而不稳定
分析稳定,基于统计分析计划的预设且用户可定义的选项最少
适用场景
图像分析、监测输出、大型数据集(如电子健康记录、自然语言处理)
较少的预测变量、表格式数据、随机试验
目的
模式发现;自动特征表示;特征缩减以获得更小、更易处理的特征集;预测模型
统计推断和特定因素检验以偏离零假设,控制混杂和偏倚,量化不确定性
结果重现性
通常是内部的(即使用原始数据集完成);通过交叉验证或分割样本实现
理想情况下为外部的(即使用“新”数据完成);通过正式显著性检验与零假设对比
障碍
越来越多地使用其他研究者无法访问的专有算法;报告不明确
初级数据的共享进展缓慢,限制他人验证或扩展研究结果
可解释性
通常为“黑箱”;自动算法特征工程引入不透明性
特征明确,自由参数和自由度清晰可见
公平性
数据驱动的特征学习容易受到数据中存在的偏倚影响,加剧健康不公平
模型较灵活但显式(易解释),如果相关数据可用,更易检测公平性

4. 普适性与解释性:AI模型的信任问题

AI算法的灵活性带来了过拟合的风险,且其“黑箱化”特性使得结果难以解释。

  • 案例:McKinney等关于基于乳腺X光照片预测乳腺癌的AI研究引发了一些争议。虽然研究表明AI在乳腺癌筛查中的潜力很大,但方法和算法代码缺乏详细说明削弱了其科学价值。

如何应对?

  • 发布代码和透明化报告,促进外部验证。
  • 借助解释性AI(XAI)技术,揭示模型的内部逻辑。
  • 结合AI的特征选择与统计学的验证方法,提升分析结果的可信度。例如“-组学”数据(代谢组学、蛋白质组学或基因组学数据),能够将大量特征缩减为一小部分可用传统统计方法进一步检验的特征。例如,随机森林、XGBoost和贝叶斯加性回归树等AI方法可以对协变量进行“特征重要性”排序,而传统统计方法(如最小绝对收缩和选择算子)在模型拟合过程中会明确进行变量选择。

5. 稳定性与可靠性

医学研究中的统计分析需要较高的稳定性与可靠性,因为错误的结论可能导致严重的临床后果。医学科学中的统计分析与AI分析的差异也影响了AI在医学科学中的潜力,因为大多数AI方法是在非医学领域发展起来的,其目标是改进非医学应用中的性能(例如,地图软件中的门牌号图像分类)。医学科学中的研究则要求更高的可靠性和稳定性,以确保结论能安全地转化为临床应用。稳定性指的是从项目构想到用户报告或应用的全流程分析中的变异性评估。

核心保障

  • 利用MLOps(机器学习操作),结合机器学习、软件开发和信息技术操作,确保AI模型从数据到结果的全流程稳定性。
  • 在独立数据集上验证,否则将数据分为发现集和验证集,以提供发现结果的统计保障,此外采用多重验证方法(如交叉验证)提升结果的鲁棒性。
  • 在无明确假设的分析中,借助通过标准方法(如Bonferroni校正)或明确的贝叶斯先验假设等统计方法控制多重性。

6. 统计思维与统计艺术

用统计学的核心艺术和训练有素的统计学家或流行病学家的技能往往超越数据本身,因而无法完全被数据驱动的人工智能(AI)算法所取代。这些技能包括以下几个方面:

  • 实验设计的精心规划:确保研究方案符合科学原则并有明确目标。
  • 对研究问题和目标的深刻理解:清楚地把握研究背景和目标以指导分析。
  • 基于已有知识背景调整模型:利用现有知识定制模型,以解决确定性偏倚和选择性偏倚问题。
  • 对“过于理想化”结果的健康怀疑:保持审慎态度,避免对看似完美的结果过度解读。
  • 模型检查的谨慎执行:确保模型的准确性和适用性。

将这些技能应用于AI主导的研究,通过“人机协作”模式(即AI支持并辅助人类专家判断),不仅可以增强AI方法的实际影响力,还能促进AI技术的应用与接受。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号