递归特征消除+随机森林:医疗数据缺失值填补新方法
递归特征消除+随机森林:医疗数据缺失值填补新方法
在医学研究中,数据缺失是一个普遍存在的问题,特别是在高维医疗数据集中。为了解决这一问题,研究人员提出了一种新的填补方法——递归特征消除-随机森林(RFE-MF),通过结合递归特征消除(RFE)和MissForest(MF)算法,以提高插补质量和模型可解释性。
数据集中的缺失值对数据分析带来了重大挑战,特别是在数据准确性对患者诊断和治疗至关重要的医疗领域。尽管MissForest(MF)在填补研究中被证明是有效的,递归特征消除(RFE)在特征选择中被证明是有效的,但通过RFE集成来增强MF的潜力仍未被探索。
11月8日,一篇发表在《BMC Medical Research Methodology》期刊上的研究论文提出了一种新的填补方法——递归特征消除-随机森林(recursive feature elimination-MissForest, RFE-MF)。该方法通过结合随机森林和递归特征消除,性能超过了传统的MICE(多重插补链式方程)方法。
研究背景与方法
在医学研究中,数据缺失带来了重大挑战,可能影响后续的统计分析和预测模型。这些挑战具有广泛影响,影响临床决策过程,并最终影响患者医疗质量。医学研究中的数据缺失问题迫切需要科学的方法来解决。
目前,许多学者开发并实施了各种缺失值估算(MVI)技术,旨在用衍生估计值取代缺失值,从而保持数据集的完整性和实用性。在医学领域,传统的几种方法被广泛应用,包括均值/众数插补法、k近邻(kNN)、链式方程多重插补(MICE)。
值得注意的是,MissForest(MF)是一种基于随机森林(RF)的迭代插补算法,它与传统的插补方法不同:
- 既不假设正态性,也不要求建模参数规范。
- 此外,它能有效处理混合数据类型;
- 并且能够捕捉非线性关系,对于非线性关系的数据具有较好的适应性;
- 对异常值具有一定的稳定性,在处理含有异常值的数据时表现良好,不易受到异常值的影响。
因此,相对于传统的归算方法,MF具有较好的性能,在缺失值估算技术研究领域受到越来越多的关注。此外,一些研究已经证明了MF在医学领域的有希望的功效。
然而,MF虽然能有效填补缺失数据,但缺乏内在的特征选择,而特征选择对降维和提高模型可解释性至关重要,特别是在高维医学数据集上。
递归特征消除(RFE)方法是一种非常有效的特征选择方法,根据特征对模型性能的影响,迭代地删除最不重要的特征,优化特征子集以获得更好的分类精度。近年来,大量研究表明,对观测数据进行特征选择,过滤掉非代表性特征,可以显著提高补全过程的效率,因为某些被认为不具代表性的缺失特征可能不是有效补全所必需的。
实验设计与结果
本研究使用包含数值型和混合数据类型的10个医疗数据集,对提出的RFE-MF方法与四种传统的插补方法(mean/mode imputation,MICE, kNN, MF)的性能进行比较分析。
- 首先使用MCAR机制模拟10个完整的数据集,包括5种缺失率:10%、20%、30%、40%和50%。
- 对于每个缺失率,重复模拟10次,生成不完整数据集。
- 然后,采用mean/mode、kNN、MICE、MF和RFE-MF五种填补方法对缺失值进行填补。
- 使用两个指标评估填补质量:数值变量的归一化均方根误差(NRMSE)和分类变量的错误分类条目比例(PFC)。
- 为了比较每种填补方法与RFE-MF的性能,利用模拟测试的10次重复的结果进行配对样本t检验。
在数值数据集中,配对t检验结果显示,RFE-MF在四个数据集(Mehmet Diabetes、Prostate Cancer、 Lower Back Pain Symptoms, and Liver Disorders)中始终显示出最低的平均值,p值均< 0.001(除了前列腺癌数据集中RFE-MF和MF之间的差异,没有统计学意义)。
相反,在Parkinson Disease Detection数据集中,与RFE-MF相比,MF产生了更好的结果,p值为0.030,表明具有统计学上的显著差异。
在混合型数据集中,NRMSE的配对t检验结果显示,RFE-MF在Pre-processed Stroke, Early-Stage Diabetes Risk Prediction, Indian Liver Patient Records, and Contraceptive Method Choice四个数据集上表现最佳,结果具有统计学意义。然而,在Early-Stage Diabetes Risk Prediction数据集中,RFE-MF和MF之间的差异没有统计学意义。在Heart Failure Prediction数据集中,均值/众数插补法表现最好,RFE-MF略落后。
在PFC的配对t检验中也观察到类似的趋势,其中RFE-MF在大多数数据集中表现最佳。然而,在Heart Failure Prediction和Indian Liver Patient Records数据集中,均值/众数插补法优于RFE-MF。
结论
综上所述,与四种经典的插补方法(mean/mode, kNN,MICE和MF)相比,RFE-MF在大多数数据集上表现出优越的性能。值得注意的是,无论变量类型(数值或分类)如何,RFE-MF始终优于原始MF。均值/众数插值在不同的场景中表现出一致的性能。相反,kNN插补的有效性会随着缺失数据率的变化而波动。
这些发现证实了RFE-MF优于其他四种经典的插补方法,证明了其对医疗数据集的适用性以及实际应用的潜力。此外,强调了在选择填补技术时考虑数据类型和缺失率的重要性,因为这些因素会显著影响不同方法的性能。