临床预测模型:变量筛选及常见误解
临床预测模型:变量筛选及常见误解
在开发临床预测模型时,如何在保证模型性能的同时实现变量精简是一个重要课题。本文将探讨变量筛选的挑战、常见误解,并提供实用的建议。
变量选择的挑战
选择适当的变量选择方法可能具有挑战性,因为可用的方法种类繁多。Sanchez-Pinto等人进行了统计模拟,比较了八种基于回归和树的变量选择方法。他们的研究发现,在小于20 EPV的小型数据集中,基于回归的方法在简约性上表现更佳,而在大于300 EPV的大型数据集中,基于树的方法表现更优。Hastie等人比较了几种基于回归的变量选择技术,包括最佳子集选择、前向选择和lasso。他们得出的结论是,在高信噪比(SNR)条件下,最佳子集选择方法通常优于其他方法,而lasso在低SNR条件下表现更好。Hanke等人发现,在具有相关预测变量和低SNR的高维场景中,lasso的表现优于最佳子集选择方法。
使用基于回归的方法(例如逻辑回归)时,考虑到R²(Nagelkerke)往往较低。因此,当面对大量预测变量和变量之间的强相关性时,建议优先考虑lasso方法。然而,需要强调的是,变量选择不应仅仅依赖于统计技术,还应结合临床背景专业知识和以往文献的证据。
变量选择中的误解
临床中有两个常见的误解需要注意:
- 先进行单变量分析,然后将p值低于预设检验水准(例如0.05或0.10)的变量纳入后续的模型构建中。
- 将p值大小等同于变量对模型贡献的大小,认为较小的p值意味着更大的贡献。
这两个问题可以通过一个实际例子来说明。
在一项研究中,分析4个预测变量(x1, x2, x3, x4)与结果之间的关系。我们观察到x4在单变量分析中的p值为0.25,这表明根据0.05的检验水准,它可以被排除在进一步分析之外。
然而,如果仍把x4考虑在后续的模型中,使用BIC(越低越好)、AICc(越低越好)和均方根误差(RMSE,越低越好)这些指标进行最优子集选择时,最佳模型包括x1、x2和x4(结果见下表)。
也就是说,如果我们根据单因素分析的p值排除了x4,那在后续分析中就会认为最优模型可能是x1和x2,这就错过了真正的最优模型。
此外,值得注意的是,尽管多因素回归结果显示x4的p值低于x2(0.04 vs. 0.08),但x4的变量重要性小于x2(0.29 vs. 0.30)。这一差异突显了p值所提示的统计学意义与实际变量重要性之间的不一致,进一步强调了仅依赖p值进行变量选择的局限性。
建议
考虑到回归分析中的R²往往不那么高(这在医学中十分常见),lasso方法进行变量筛选是比较推荐的。
而且,不建议仅依赖p值进行变量选择,尤其在以下情况下:
- 临床知识和之前的研究表明该变量可能对结果有显著影响。这时即使该变量没有统计学意义,也不要粗暴删除,更多的需要考虑一下为什么没有出现统计学意义。
- 该预测变量与其他变量存在强相关性。 这种情况下很容易出现结果的偏倚,不要太相信p值。
- 该预测变量与其他预测变量的相关性较弱,但其相关性方向与其他预测变量一致(例如,全部为负相关或全部为正相关)。例如,在上面的例子中,x1、x2、x3和x4之间存在一致的负相关性,其相关系数分别为-0.15、-0.15和-0.11。
总结
很多临床医师都不大关注变量如何筛选,就是把数据往软件里一扔,出来什么就是什么。这就偏离了“临床应用模型”的初衷。变量筛选一定要综合统计学和临床专业一起考虑,既要从统计学角度看数据,又要从临床角度看结果。这样才能保证结果经得起临床实际应用的检验。