从EPV到五步法:临床预测模型样本量计算指南
从EPV到五步法:临床预测模型样本量计算指南
临床预测模型的样本量计算是确保研究结果可靠性和有效性的关键步骤。合理的样本量估算不仅能提高模型的准确性和泛化能力,还能避免资源浪费和不必要的成本。本文将详细介绍临床预测模型样本量计算的两种主要方法:经验法则和基于特定标准的计算方法,并通过实际案例帮助读者更好地理解这些理论知识的应用。
经验法则
经验法则是一种简单直观的样本量估算方法,主要包括EPV(每变量事件数)和EPP(每参数事件数)两种规则。
EPV(每变量事件数)
EPV规则建议每个预测变量至少有10个事件。例如,如果研究的结局事件率为10%,则需要至少100个样本才能包含10个事件。然而,这种方法存在一定的局限性,因为它没有考虑到变量之间的复杂关系。
EPP(每参数事件数)
EPP规则更推荐使用每参数事件数,而不是每变量事件数。这是因为一个变量可能对应多个参数。例如,一个连续变量如“年龄”对应一个参数,而将其分为五组则需要估计四个参数。因此,EPP规则建议每个候选预测参数至少有10个事件,以避免对“变量”术语的潜在误解。
尽管10 EPP原则简单易行,但也存在争议。一些模拟研究建议将EPP增加到20甚至50以减少偏差。这种不一致性源于所需事件数量受多种因素影响,如预测因子的效应量、研究群体中的结果比例和预测因子的分布。
基于特定标准的计算方法
为了更精确地估算样本量,Riley等人提出了一套基于特定标准的计算方法,包括五个步骤:
第一步:精确估计整体风险
确保截距估计误差小于0.05。这一步骤通过计算能够准确估计“没有预测变量的空模型(null model)的截距”所需要的样本量来实现。例如,对于一个阳性事件比例为0.5的二分类数据,为了控制误差在0.05以内,需要的样本量最少是385个。
第二步:控制平均绝对预测误差
限制MAPE(平均绝对预测误差)小于5%。这一步骤确保预测值和真实值之间的误差保持在可接受范围内。例如,对于一个阳性事件比例为0.3、预测变量为10个的二分类数据,为了控制MAPE在0.05以内,需要的样本量最少是461个。
第三步:减少过拟合
通过确保全局收缩因子大于0.9来减少过拟合。这一步骤需要考虑候选预测变量参数的数量以及模型的预期性能指标(如Cox-Snell R²)。例如,对于一个阳性事件比例为0.3、预测变量为10个的二分类数据,为了将收缩因子保持在0.9以上,需要的样本量最少是1000个。
第四步:调整后的R²差异
确保显著和调整后R²Nagelkerke之间的绝对差异不超过0.05。这一步骤从过拟合角度进一步验证模型的稳定性。
第五步:选择最大样本量
取前四步计算结果中的最大值作为最终样本量。这种基于特定标准的计算方法虽然在理论上更合理,但在实际应用中也面临一些挑战。例如,从现有文献中获取预先指定的参数存在困难,且使用固定参数值并不总是合理。
实际应用案例
为了更好地理解这些理论知识在实际研究中的应用,我们以梅奥诊所的原发性胆汁性胆管炎(PBC)数据集为例进行说明。在这个案例中,研究者需要开发一个预测模型来评估患者未来罹患肝细胞癌的风险。
数据集和预测因子的选择
- “免费获取”的预测因子:年龄和性别
- 需要血液样本的预测因子:血小板、凝血酶原时间、白蛋白、胆红素、碱性磷酸酶、天门冬氨酸氨基转移酶、胆固醇和甘油三酯
- 需要临床评估的预测因子:水肿、蜘蛛痣和肝肿大
- 需要尿液样本的预测因子:铜水平
由于尿铜是唯一需要采集尿样的预测指标,研究者选择将其排除在外;同时,考虑到凝血酶原时间在许多情况下已不再经常使用,也被排除。此外,腹水患者不在该预测模型的目标人群之列,因此也不将其作为预测指标。最终,模型的预测因子主要需要临床评估和血液样本。
样本量的估算
在PBC数据集中,“有效样本量”是88例肝硬化事件,而非288例患者数。根据经验法则,模型中每一个自由度至少需要10例事件。例如,PBC数据集的有效样本量为88,表明自由度最多为9。
最近,研究者开发出了一种更有针对性的方法,根据事件发生率和预设的模型复杂度(所有候选预测因子的自由度总数),基于模型性能良好所需的4项标准来估算所需的样本量。这4项标准包括:
- 样本量能否足够精确估计总体风险?
- 多大的样本量可以使预测的平均绝对误差较小?
- 多大的样本量可以将过拟合降至最小?
- 多大的样本量可以确保模型的表面性能和真实性能的误差更小?
通过这些标准,研究者可以更精确地估算出所需的样本量,从而提高模型的可靠性和有效性。
总结与建议
临床预测模型的样本量计算是一个复杂但至关重要的环节。通过合理估算样本量,可以提高模型的准确性和泛化能力,从而更好地指导医疗决策。无论是使用经验法则还是基于特定标准的计算方法,都需要结合具体的研究背景和数据特征进行综合判断。
对于机器学习模型,由于参数数量可能远超传统回归模型,建议使用尽可能大的样本量。在确定参数数量时,应基于最初考虑的所有候选变量,而非最终入选模型的变量。此外,外部验证所需的样本量通常更大,需考虑多个指标的精确性,如R²、校准截距、校准斜率和残差等。
通过合理估算样本量,可以提高临床预测模型的准确性和泛化能力,从而更好地指导医疗决策。