资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

从经验法则到BMJ四步法：临床预测模型样本量计算指南

创作时间:

作者:

@小白创作中心

从经验法则到BMJ四步法：临床预测模型样本量计算指南

引用

CSDN

等

来源

https://blog.csdn.net/weixin_44693403/article/details/139339954

https://blog.csdn.net/weixin_44693403/article/details/136266950

https://blog.csdn.net/dege857/article/details/142355596

https://blog.csdn.net/weixin_44693403/article/details/138363360

https://www.mediecogroup.com/zhuanlan/lessons/1265/

http://www.360doc.com/content/24/0816/08/17477544_1131490854.shtml

https://www.mediecogroup.com/zhuanlan/lessons/

https://docs.pingcode.com/baike/4283824

https://docs.pingcode.com/baike/4745209

临床预测模型是现代医学研究的重要工具，它可以帮助医生预测疾病风险、治疗效果等，从而优化临床决策。然而，要开发一个准确可靠的预测模型，合理的样本量计算是关键。本文将从基本概念到具体计算方法，逐步讲解如何计算临床预测模型的样本量。

为什么需要样本量计算？

样本量计算是确保研究结果可靠性和泛化能力的重要步骤。如果样本量过小，模型可能无法准确捕捉变量之间的关系，导致预测性能不佳；而样本量过大则会浪费资源，增加研究成本。因此，合理的样本量计算对于临床预测模型的开发至关重要。

基本概念

在开始计算之前，我们需要了解几个关键术语：

有效样本量：由数据集中的事件数决定，而非总人数。例如，在一个二分类结局的研究中，有效样本量是事件数和非事件数中的较小值。
自由度：模型中需要估计的参数总数。每个预测因子至少需要一个自由度，分类变量的自由度是类别数减一。
过拟合：模型在训练数据上表现很好，但在新数据上预测性能较差的现象。通常发生在样本量相对较小而预测因子数量较多时。

经验法则

传统上，研究者常使用“每变量10个事件”（10 events per variable，EPV）的经验法则。例如，如果模型包含5个预测变量，且结局事件率为10%，则需要至少500个样本（5个变量 × 10个事件/变量 ÷ 10%事件率）。

然而，这一规则过于简化，可能不足以保证模型的可靠性和泛化能力。因此，近年来更推荐使用基于特定标准的计算方法。

BMJ四步法详解

BMJ期刊提出了一种更严谨的样本量计算方法，包括以下四个步骤：

1. 精确估计整体风险

我们需要能够以一定的精度估算事件发生率。例如，如果希望误差在±5%以内，对于结局事件发生率为0.5的二分类结局，样本量至少需要385例：

2. 控制平均绝对预测误差

预测的绝对误差是指患者的预测风险与真实风险之间的绝对差值。例如，如果希望预测的平均绝对误差小于5%，可以使用以下公式估算样本量：

3. 减少过拟合

过拟合是模型开发中的常见问题。为了将过拟合降至最小，我们需要确保模型的收缩因子大于0.9。这可以通过以下公式估算所需的样本量：

4. 调整后的R²差异

最后，我们需要确保显著和调整后R²的差异不超过0.05。这可以通过模拟和重采样研究来估算。

最终的样本量应取以上四个步骤计算结果的最大值。

实例解析

让我们通过一个具体例子来理解BMJ方法的应用。假设我们要开发一个预测肝硬化风险的模型，使用梅奥诊所的原发性胆汁性胆管炎（PBC）数据集。该数据集包含288例患者，其中88例发生肝硬化事件。

确定预测因子：我们选择年龄、性别、血小板计数、白蛋白、胆红素等作为预测因子。
计算自由度：
- 年龄和性别：2个自由度
- 血小板计数：1个自由度
- 白蛋白：1个自由度
- 胆红素：1个自由度
- 总计：6个自由度
应用BMJ四步法：
- 整体风险估计：假设事件率为30%，需要385例
- 平均绝对预测误差：假设预测因子数为6，需要约1000例
- 过拟合控制：需要约500例
- R²差异：需要约400例