临床预测模型构建之 —— 模型性能评估

创作时间:

作者:

@小白创作中心

引用

CSDN

https://m.blog.csdn.net/sinat_37574187/article/details/139140157

临床预测模型的构建是一个复杂而精细的过程，其中模型性能评估是确保模型准确性和可靠性的关键环节。本文详细介绍了临床预测模型性能评估的五个核心方面：整体性能、区分度、校准度、重分类和临床效益，并对每个方面的具体指标进行了深入解析。对于医疗数据领域的从业者和研究人员来说，本文将提供宝贵的参考价值。

临床预测模型的基本步骤
临床预测模型的开发步骤主要包括以下几个步骤：

模型性能评估
临床预测模型的性能评估包括整体性能、区分度、校准、重分类和临床有用性5个方面。

模型整体性能是评估预测模型在数据集上的拟合程度或预测能力的指标，常用的评估指标包括：

R2（R-squared）：是一种用于评估回归模型拟合优度的统计量。它表示因变量的方差中能被自变量解释的比例，取值范围从0到1。R2越接近1，说明模型拟合得越好。
布里尔评分（Brier score）：用于评估分类模型的预测精度。它是观察到的类别和预测类别之间的均方误差，取值范围从0到1，0表示完美的预测，1表示最差的预测。通常，布里尔评分越低，模型的性能越好。
AUC（Area Under the ROC Curve）：是一种常用的评估分类模型性能的指标。ROC曲线是一种以真正例率（True Positive Rate，TPR）为纵轴，假正例率（False Positive Rate，FPR）为横轴的曲线，用于描述模型在不同阈值下的分类性能。AUC即ROC曲线下的面积，其取值范围通常在0到1之间，表示模型分类性能的优劣程度。
F1分数：是一种常用的用于衡量二分类模型性能的指标，它综合考虑了模型的精确率（Precision）和召回率（Recall）。F1分数的取值范围在0到1之间，值越接近1表示模型性能越好。

区分度指模型在预测事件与非事件之间进行区分的能力。常用的区分能力指标包括 C统计量,C统计量表示模型对于随机选择一对事件和非事件的患者，正确判断哪个风险更高的能力，C统计量在0.5～1之间，较高的值表示较好的区分能力，接近0.5表示区分度较低，越接近1表示模型越理想。

校准度或拟合优度指模型预测值与实际观察值之间的一致性。常用的校准度指标包括大规模校准、校准斜率和Hosmer-Lemeshow统计量。

大规模校准（Large-scale Calibration）：大规模校准用于评估模型在整个数据集上的校准性能。它通过将样本分成多个子组，并计算每个子组内实际事件发生率与模型预测概率的平均值之间的差异来评估模型的校准程度。
校准斜率（Calibration Slope）：校准斜率衡量了模型预测概率与实际观察概率之间的线性关系。通过拟合一个线性模型来估计校准斜率，该线性模型的预测变量是模型的预测概率，因变量是实际观察概率。校准斜率为1表示模型的预测完美地匹配了实际观察概率。
Hosmer-Lemeshow统计量：Hosmer-Lemeshow统计量是一种比较模型预测概率与实际观察概率之间的差异的方法。它将样本分成多个组，并计算每个组内的预测概率与实际观察概率之间的差异的平方和，然后将这些差异合并成一个总体统计量。较小的Hosmer-Lemeshow统计量值表示模型的校准性能较好。

重分类用于新旧预测模型比较并衡量模型的改进和增益，常见的重分类统计指标如净重新分类指数（net reclassification index，NRI）和综合判别改善指数（integrated discrimination improvement，IDI）

净重新分类指数（NRI）：NRI衡量了新模型相对于基准模型在预测中的净重新分类。它通过计算在新模型中正确重新分类的人数减去在基准模型中正确重新分类的人数，然后将这个差异标准化，以提供一个在-2到+2之间的指标。NRI为正值表示新模型的预测能力优于基准模型，为负值表示预测能力劣于基准模型。
综合判别改善指数（IDI）：IDI衡量了新模型相对于基准模型在平均预测概率上的改善程度。它通过计算在新模型中平均预测概率上的改善与在基准模型中的平均预测概率上的改善之间的差异来评估。IDI的值为正表示新模型的预测能力相对于基准模型有所改善，为负值表示预测能力没有改善。