问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

观察性研究中的缺失数据处理:以COVID-19心肌损伤研究为例

创作时间:
作者:
@小白创作中心

观察性研究中的缺失数据处理:以COVID-19心肌损伤研究为例

引用
CSDN
1.
https://blog.csdn.net/weixin_44693403/article/details/136860309

数据的缺失会对研究结果的真实性产生巨大影响,尤其是在观察性研究和临床试验中。本文以一篇发表在《Circulation》上的关于COVID-19心肌损伤的研究论文为例,详细介绍了观察性研究中缺失数据的处理方法,特别是多重插补技术的具体应用。

众所周知,数据的缺失会对结果的真实性产生巨大的影响,例如偏倚风险的增加、样本代表性不足、数据丢失、统计能力的下降等。尤其是在观察性研究和临床试验中,数据完整关乎研究的效度与信度。然而,因受试者中途退出、数据采集错误、填答不完整等各种状况,数据缺失在所难免。因此,研究者若想得出经得住推敲的研究结果,必须学会根据情况选用合适的统计方法以应对数据缺失问题。本文为大家介绍了一个关于观察性研究中数据缺失如何处理的案例,该案例详细介绍了缺失数据情况以及插补流程。

观察性研究包括横断面研究、队列研究、病例对照研究。观察性研究缺失数据由众多原因导致:

2021年2月,美国约翰霍普金斯大学学者在《Circulation》(一区,IF=37.8)发表题为"Myocardial Injury in Severe COVID-19 Compared With Non–COVID-19 Acute Respiratory Distress Syndrome"的研究论文。

摘要

标题:重症 COVID-19 的心肌损伤与非 COVID-19 急性呼吸窘迫综合征的比较

背景:在 2019 冠状病毒病 (COVID-19) 中心肌损伤的流行病学和临床意义方面仍然存在知识差距。我们旨在确定与COVID-19无关的急性呼吸窘迫综合征(ARDS)相比,重症COVID-19心肌损伤的患病率和结局。

方法: 我们纳入了 2020 年 3 月 15 日至 6 月 11 日期间来自 5 家医院的 COVID-19 插管患者,并评估了肌钙蛋白水平。我们将其与ARDS中心肌损伤队列研究的患者进行了比较,并进行了生存分析,主要结局是与心肌损伤相关的院内死亡。此外,我们还进行了线性回归,以确定与COVID-19心肌损伤相关的临床因素。

结果:在 243 例插管的 COVID-19 患者中,51% 的肌钙蛋白水平高于正常上限。慢性肾病、乳酸、铁蛋白和纤维蛋白原与心肌损伤有关。肌钙蛋白低于正常上限的 COVID-19 患者死亡率为 22.7%,肌钙蛋白水平>正常上限的 10 倍)患者的死亡率为 61.5%(P<0.001)。在调整年龄、性别和多系统器官功能障碍后,心肌损伤与死亡率的相关性无统计学意义。与无 COVID-19 的 ARDS 患者相比,COVID-19 患者年龄较大,肌酐水平较高,生命体征较差。调整后,与非 COVID-19 相关 ARDS 相比,COVID-19 相关 ARDS 的心肌损伤几率较低(比值比,0.55 [95% CI,0.36-0.84];P=0.005)。

结论:重症 COVID-19 的心肌损伤是基线合并症、高龄和多系统器官功能障碍的功能,类似于传统的 ARDS。COVID-19 患者心肌损伤的不良预后主要与多系统器官受累和危重疾病有关。

研究设计

全文围绕着这两个研究目的开展:

  • 了解重症COVID-19患者心肌损伤的患病率和死亡情况。
  • 重症COVID-19患者与COVID-19无关的急性呼吸窘迫综合征(ARDS)相比,心肌损伤和死亡的差异。

研究结果

1.了解重症COVID-19患者心肌损伤的患病率和死亡情况。

1.1基本情况

  • 在 COVID-19 插管患者中,总死亡率为36.2%。
  • 肌钙蛋白低于 ULN 的插管 COVID-19 患者死亡率为 22.7%,肌钙蛋白水平越高死亡率越高,肌钙蛋白水平最高的患者死亡率高达 61.5%(P <0.001)。


1.2重症 COVID-19 患者的 Kaplan-Meier 生存曲线

1.3cox回归结果

  • 在未经调整的模型中,肌钙蛋白阳性与死亡风险增加 >2 倍相关(风险比,2.31 [95% CI 1.47–3.65]);与低于ULN的肌钙蛋白相比,肌钙蛋白水平最高与死亡风险相关>3倍(风险比,3.17 [95% CI,1.80-5.56])。
  • 调整多个变量后,心肌损伤与死亡率的相关性不再具有统计学意义。

2.重症COVID-19患者与ARDS相比,心肌损伤和死亡的差异。

2.1基本情况

  • COVID-19 和 ARDS 之间的任何心肌损伤发生率相似:COVID-19 组为 51.0%,而 ARDS 组为 49.6%。
  • COVID-19组的死亡率高于ARDS 组:36.2% vs 26.5% (P=0.007)

2.2 K-M曲线+交互作用

在未经调整的分析中,肌钙蛋白阳性的 COVID-19 患者观察到的死亡率最高(P交互作用=0.012)。调整年龄、性别、肌酐、胆红素、Pa o 2 /F io 2比值和血管加压药使用后,交互作用不再显著(P交互作用= 0.082)。

也就是说:死亡率增高不一定是肌钙蛋白造成的,可能是其他因素导致的。

回顾1.3和2.2两个部分,可以看出本文两个主要结果其实都是阴性结果。那为什么阴性结果还能发表如此高分的文章呢?让我们接着看看关于统计分析部分。

统计学方法

1.缺失数据

①附件展示缺失数据情况

由于JH-CROWN注册表中的数据来自电子医疗记录,因此并非所有协变量的数据都是完整的,如数据补充中的表II所示。肌钙蛋白暴露评估、住院死亡结果、人口统计和合并症的数据是完整的。

②多重插补+报告结果

为了解决缺失的数据,我们进行了多重插补,以获得心肌损伤和结果之间关系的无偏估计。使用链式方程和50个插补进行多重插补。将完整的变量用作辅助变量。我们在Stata中使用了“mi estimate ”命令,该命令使用Rubin公式组合了多重插补的数据集。

有多重插补和没有多重插补的结果相似;因此,我们使用多个估算数据集来报告结果。

③未插补部分介绍

白细胞介素-6和纤维蛋白原具有高水平的缺失,因此不进行估算。为了进行描述性分析,在感兴趣的独立变量(肌钙蛋白类别、死亡和新冠肺炎状态)中,使用连续变量的线性回归和分类变量的logistic回归进行比较。

2.生存分析

3.统计分析软件

使用STATA 15进行分析。P值<0.05被认为具有统计学意义。

文章小结

1、多重插补法(mltiple imputation)

给每个缺失值都构造m个插补值(m>1), 根据每个插补值都产生一个完整数据集;
经过m次插补就可以产生m个完整数据集;对每组完整数据集使用标准的完整数据分析进行分析,得到m次分析结果;
综合m次分析结果得到最终结果。

多重插值的形式各异,但一般都要经过以下三个步骤,即:1、插补 imputation;2、分析 analysis;3、合并 pooling。

2、文章缺失数据处理解读

根据文章统计分析中关于缺失数据的内容,我们逐条解读:

左边代码为stata其他多重插补的例子,根据该例子可知本文“mi estimate ”命令也就是使用在插补的这个步骤。本文的结局是死亡,所以全文用的都是cox回归分析。经过cox回归分析后可得到50次插补的cox结果。而Rubin's rules公式就是把50个结果整合为一个综合的结果呈现给我们。

后记

本文详细的用附件介绍了缺失数据的情况(缺失数量及缺失比例),描述了缺失数据多重插补三个步骤分别是用什么代码完成的,缺失比例较高的变量如何处理的。可以说是非常详细的描述了观察性研究中遇到缺失数据怎么办的详细案例了,大家可以回过头仔细看统计方法。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号