递归特征消除+随机森林：医疗数据缺失值填补新方法

创作时间:

作者:

@小白创作中心

递归特征消除+随机森林：医疗数据缺失值填补新方法

引用

来源

https://www.bilibili.com/read/mobile?id=39847503

在医学研究中，数据缺失是一个普遍存在的问题，特别是在高维医疗数据集中。为了解决这一问题，研究人员提出了一种新的填补方法——递归特征消除-随机森林（RFE-MF），通过结合递归特征消除（RFE）和MissForest（MF）算法，以提高插补质量和模型可解释性。

数据集中的缺失值对数据分析带来了重大挑战，特别是在数据准确性对患者诊断和治疗至关重要的医疗领域。尽管MissForest（MF）在填补研究中被证明是有效的，递归特征消除（RFE）在特征选择中被证明是有效的，但通过RFE集成来增强MF的潜力仍未被探索。

11月8日，一篇发表在《BMC Medical Research Methodology》期刊上的研究论文提出了一种新的填补方法——递归特征消除-随机森林（recursive feature elimination-MissForest, RFE-MF）。该方法通过结合随机森林和递归特征消除，性能超过了传统的MICE（多重插补链式方程）方法。

研究背景与方法

在医学研究中，数据缺失带来了重大挑战，可能影响后续的统计分析和预测模型。这些挑战具有广泛影响，影响临床决策过程，并最终影响患者医疗质量。医学研究中的数据缺失问题迫切需要科学的方法来解决。

目前，许多学者开发并实施了各种缺失值估算（MVI）技术，旨在用衍生估计值取代缺失值，从而保持数据集的完整性和实用性。在医学领域，传统的几种方法被广泛应用，包括均值/众数插补法、k近邻（kNN）、链式方程多重插补（MICE）。

值得注意的是，MissForest（MF）是一种基于随机森林（RF）的迭代插补算法，它与传统的插补方法不同：

既不假设正态性，也不要求建模参数规范。
此外，它能有效处理混合数据类型；
并且能够捕捉非线性关系，对于非线性关系的数据具有较好的适应性；
对异常值具有一定的稳定性，在处理含有异常值的数据时表现良好，不易受到异常值的影响。

因此，相对于传统的归算方法，MF具有较好的性能，在缺失值估算技术研究领域受到越来越多的关注。此外，一些研究已经证明了MF在医学领域的有希望的功效。

然而，MF虽然能有效填补缺失数据，但缺乏内在的特征选择，而特征选择对降维和提高模型可解释性至关重要，特别是在高维医学数据集上。

递归特征消除（RFE）方法是一种非常有效的特征选择方法，根据特征对模型性能的影响，迭代地删除最不重要的特征，优化特征子集以获得更好的分类精度。近年来，大量研究表明，对观测数据进行特征选择，过滤掉非代表性特征，可以显著提高补全过程的效率，因为某些被认为不具代表性的缺失特征可能不是有效补全所必需的。

实验设计与结果

本研究使用包含数值型和混合数据类型的10个医疗数据集，对提出的RFE-MF方法与四种传统的插补方法（mean/mode imputation，MICE, kNN, MF）的性能进行比较分析。

首先使用MCAR机制模拟10个完整的数据集，包括5种缺失率：10%、20%、30%、40%和50%。
对于每个缺失率，重复模拟10次，生成不完整数据集。
然后，采用mean/mode、kNN、MICE、MF和RFE-MF五种填补方法对缺失值进行填补。
使用两个指标评估填补质量：数值变量的归一化均方根误差（NRMSE）和分类变量的错误分类条目比例（PFC）。
为了比较每种填补方法与RFE-MF的性能，利用模拟测试的10次重复的结果进行配对样本t检验。

在数值数据集中，配对t检验结果显示，RFE-MF在四个数据集（Mehmet Diabetes、Prostate Cancer、 Lower Back Pain Symptoms, and Liver Disorders）中始终显示出最低的平均值，p值均< 0.001（除了前列腺癌数据集中RFE-MF和MF之间的差异，没有统计学意义）。

相反，在Parkinson Disease Detection数据集中，与RFE-MF相比，MF产生了更好的结果，p值为0.030，表明具有统计学上的显著差异。

在混合型数据集中，NRMSE的配对t检验结果显示，RFE-MF在Pre-processed Stroke, Early-Stage Diabetes Risk Prediction, Indian Liver Patient Records, and Contraceptive Method Choice四个数据集上表现最佳，结果具有统计学意义。然而，在Early-Stage Diabetes Risk Prediction数据集中，RFE-MF和MF之间的差异没有统计学意义。在Heart Failure Prediction数据集中，均值/众数插补法表现最好，RFE-MF略落后。

在PFC的配对t检验中也观察到类似的趋势，其中RFE-MF在大多数数据集中表现最佳。然而，在Heart Failure Prediction和Indian Liver Patient Records数据集中，均值/众数插补法优于RFE-MF。

结论

综上所述，与四种经典的插补方法（mean/mode, kNN，MICE和MF）相比，RFE-MF在大多数数据集上表现出优越的性能。值得注意的是，无论变量类型（数值或分类）如何，RFE-MF始终优于原始MF。均值/众数插值在不同的场景中表现出一致的性能。相反，kNN插补的有效性会随着缺失数据率的变化而波动。

这些发现证实了RFE-MF优于其他四种经典的插补方法，证明了其对医疗数据集的适用性以及实际应用的潜力。此外，强调了在选择填补技术时考虑数据类型和缺失率的重要性，因为这些因素会显著影响不同方法的性能。

热门推荐

过度管教伤脑：严厉教育与苦难式教育的双重危害