问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

递归特征消除+随机森林:医疗数据缺失值填补新方法

创作时间:
作者:
@小白创作中心

递归特征消除+随机森林:医疗数据缺失值填补新方法

引用
1
来源
1.
https://www.bilibili.com/read/mobile?id=39847503

在医学研究中,数据缺失是一个普遍存在的问题,特别是在高维医疗数据集中。为了解决这一问题,研究人员提出了一种新的填补方法——递归特征消除-随机森林(RFE-MF),通过结合递归特征消除(RFE)和MissForest(MF)算法,以提高插补质量和模型可解释性。

数据集中的缺失值对数据分析带来了重大挑战,特别是在数据准确性对患者诊断和治疗至关重要的医疗领域。尽管MissForest(MF)在填补研究中被证明是有效的,递归特征消除(RFE)在特征选择中被证明是有效的,但通过RFE集成来增强MF的潜力仍未被探索。

11月8日,一篇发表在《BMC Medical Research Methodology》期刊上的研究论文提出了一种新的填补方法——递归特征消除-随机森林(recursive feature elimination-MissForest, RFE-MF)。该方法通过结合随机森林和递归特征消除,性能超过了传统的MICE(多重插补链式方程)方法。

研究背景与方法

在医学研究中,数据缺失带来了重大挑战,可能影响后续的统计分析和预测模型。这些挑战具有广泛影响,影响临床决策过程,并最终影响患者医疗质量。医学研究中的数据缺失问题迫切需要科学的方法来解决。

目前,许多学者开发并实施了各种缺失值估算(MVI)技术,旨在用衍生估计值取代缺失值,从而保持数据集的完整性和实用性。在医学领域,传统的几种方法被广泛应用,包括均值/众数插补法、k近邻(kNN)、链式方程多重插补(MICE)。

值得注意的是,MissForest(MF)是一种基于随机森林(RF)的迭代插补算法,它与传统的插补方法不同:

  • 既不假设正态性,也不要求建模参数规范。
  • 此外,它能有效处理混合数据类型;
  • 并且能够捕捉非线性关系,对于非线性关系的数据具有较好的适应性;
  • 对异常值具有一定的稳定性,在处理含有异常值的数据时表现良好,不易受到异常值的影响。

因此,相对于传统的归算方法,MF具有较好的性能,在缺失值估算技术研究领域受到越来越多的关注。此外,一些研究已经证明了MF在医学领域的有希望的功效。

然而,MF虽然能有效填补缺失数据,但缺乏内在的特征选择,而特征选择对降维和提高模型可解释性至关重要,特别是在高维医学数据集上。

递归特征消除(RFE)方法是一种非常有效的特征选择方法,根据特征对模型性能的影响,迭代地删除最不重要的特征,优化特征子集以获得更好的分类精度。近年来,大量研究表明,对观测数据进行特征选择,过滤掉非代表性特征,可以显著提高补全过程的效率,因为某些被认为不具代表性的缺失特征可能不是有效补全所必需的。

实验设计与结果

本研究使用包含数值型和混合数据类型的10个医疗数据集,对提出的RFE-MF方法与四种传统的插补方法(mean/mode imputation,MICE, kNN, MF)的性能进行比较分析。

  • 首先使用MCAR机制模拟10个完整的数据集,包括5种缺失率:10%、20%、30%、40%和50%。
  • 对于每个缺失率,重复模拟10次,生成不完整数据集。
  • 然后,采用mean/mode、kNN、MICE、MF和RFE-MF五种填补方法对缺失值进行填补。
  • 使用两个指标评估填补质量:数值变量的归一化均方根误差(NRMSE)和分类变量的错误分类条目比例(PFC)。
  • 为了比较每种填补方法与RFE-MF的性能,利用模拟测试的10次重复的结果进行配对样本t检验。

在数值数据集中,配对t检验结果显示,RFE-MF在四个数据集(Mehmet Diabetes、Prostate Cancer、 Lower Back Pain Symptoms, and Liver Disorders)中始终显示出最低的平均值,p值均< 0.001(除了前列腺癌数据集中RFE-MF和MF之间的差异,没有统计学意义)。

相反,在Parkinson Disease Detection数据集中,与RFE-MF相比,MF产生了更好的结果,p值为0.030,表明具有统计学上的显著差异。

在混合型数据集中,NRMSE的配对t检验结果显示,RFE-MF在Pre-processed Stroke, Early-Stage Diabetes Risk Prediction, Indian Liver Patient Records, and Contraceptive Method Choice四个数据集上表现最佳,结果具有统计学意义。然而,在Early-Stage Diabetes Risk Prediction数据集中,RFE-MF和MF之间的差异没有统计学意义。在Heart Failure Prediction数据集中,均值/众数插补法表现最好,RFE-MF略落后。

在PFC的配对t检验中也观察到类似的趋势,其中RFE-MF在大多数数据集中表现最佳。然而,在Heart Failure Prediction和Indian Liver Patient Records数据集中,均值/众数插补法优于RFE-MF。

结论

综上所述,与四种经典的插补方法(mean/mode, kNN,MICE和MF)相比,RFE-MF在大多数数据集上表现出优越的性能。值得注意的是,无论变量类型(数值或分类)如何,RFE-MF始终优于原始MF。均值/众数插值在不同的场景中表现出一致的性能。相反,kNN插补的有效性会随着缺失数据率的变化而波动。

这些发现证实了RFE-MF优于其他四种经典的插补方法,证明了其对医疗数据集的适用性以及实际应用的潜力。此外,强调了在选择填补技术时考虑数据类型和缺失率的重要性,因为这些因素会显著影响不同方法的性能。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号