BMJ发布临床预测模型样本量计算新指南,四步法取代传统经验法则
BMJ发布临床预测模型样本量计算新指南,四步法取代传统经验法则
临床预测模型的开发和验证是医学研究中的重要环节,而样本量的计算则是确保模型可靠性和泛化能力的关键步骤。顶级医学期刊《英国医学杂志》(BMJ)近期发布了一系列关于临床预测模型评估的指南,其中详细介绍了样本量的计算方法。这些指南不仅提供了权威的经验法则,还通过模拟和重采样研究,为研究人员提供了更为精准的样本量计算方法。
经验法则的局限性
在临床预测模型的开发中,一个常用的经验法则是每个预测变量至少需要10个事件(10 events per variable,10EPV)。然而,这一规则存在一定的局限性。首先,“变量”这一概念可能引起误解,因为在模型中一个预测变量可能对应多个参数。例如,一个多分类变量在回归分析中可能需要多个虚拟变量来表示。此外,模型中的多项式转换、样条变换以及变量间的交互作用都会增加参数的数量。因此,更推荐使用每参数事件数(events per candidate predictor parameter,EPP)作为样本量计算的依据。
四步法样本量计算
为了更精确地计算样本量,Riley等人提出了一种四步法,该方法考虑了模型开发中的多个关键因素:
第一步:精确估计整体风险
样本量必须足以准确估计模型的截距,以确保预测的平均风险或平均值的准确性。以二分类数据为例,如果阳性事件的比例为0.5,为了将预测误差控制在0.05以内,所需的最小样本量为385例。
第二步:控制预测误差
这一步旨在确保模型的预测值与真实值之间的误差在可接受范围内。常用的误差衡量指标包括平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)。例如,对于一个阳性事件比例为0.3的二分类数据,如果预测变量有10个,为了将MAPE控制在0.05以内,所需的最小样本量为461例。
第三步:防止过拟合
过拟合是预测模型开发中常见的问题,特别是在样本量较小而预测变量较多的情况下。Riley等人建议使用收缩法(Shrinkage)来降低过拟合风险,并计算相应的样本量。这一步需要考虑候选预测变量参数的数量以及模型的预期性能指标,如Cox-Snell R²。
第四步:确保模型性能稳定
最后一步是确保模型的表面性能与真实性能之间的差异在可接受范围内。这一步同样需要通过样本量的计算来实现。
实用工具:pmsampsize R包
为了方便研究人员进行样本量计算,指南的作者开发了pmsampsize R包。该包提供了针对线性回归、逻辑回归和Cox回归等常见模型的样本量计算功能,使用方法与流行的pwr包类似。需要注意的是,这些计算方法主要适用于模型开发阶段(即训练集),而不适用于外部验证集。
机器学习模型的特殊要求
对于机器学习模型,由于其参数数量可能远超传统回归模型,因此通常需要更大的样本量。在确定样本量时,应基于最初考虑的所有候选变量,而非最终入选模型的变量。
通过合理估算样本量,可以提高临床预测模型的准确性和可靠性,从而更好地指导医疗决策。BMJ发布的这些指南为研究人员提供了权威的参考,有助于提升研究的质量和成果的应用转化。