问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Stata数据处理:缺失值类型及应对方法

创作时间:
作者:
@小白创作中心

Stata数据处理:缺失值类型及应对方法

引用
CSDN
1.
https://m.blog.csdn.net/arlionn/article/details/142632286

在数据分析和统计工作中,缺失值是一个常见的问题。正确识别和处理缺失值对于保证分析结果的准确性和可靠性至关重要。本文将介绍三种主要的缺失值类型:随机完全缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR),并通过具体实例和图示帮助读者理解这些概念。

1. 数据缺失类型

第一类:随机完全缺失 (MCAR/Missing Completely at Random)
当我们说随机完全缺失时, 我们的意思是缺失量与正在研究的观测因素无关。例如,称重秤电池耗尽、问卷在邮寄时丢失,血液样本在实验室中损坏。MCAR 是一个理想但不合理的假设。
通常来说,当数据因实验设计、设备故障或样品在运输过程中丢失或技术上不符合要求而缺失时,数据被视为 MCAR。
MCAR 数据的统计优势在于分析保持无偏
下面是 MCAR 的图示,其中缺失量与变量 XY 无关,但与 Z 有关。
让我们来看看移动数据的一个示例。这里,一个样本数据有一个缺少值,不是因为变量的原因,而是因为其他原因。

第二类:随机缺失 (Missing at Random/MAR)
当我们说随机缺失时,我们的意思是部分缺失量与分析模型中的一些其他完全观察到的变量 X 有关,但与 Y 本身的值无关。
MAR 的图示如下,其中缺失值与变量 X 相关,但与 Y 无关。它可以具有其他关系 Z。它与缺失的信息无关。例如,如果孩子因为生病而没有参加体检,这可能可以从其他有关孩子健康的数据中预测,但这与我们在孩子没有生病的情况下检查的内容无关。
有些人可能认为 MAR 不会导致结果有问题。然而,MAR 并不意味着可以忽略缺失的数据。

第三类:非随机缺失 (Missing not at Random/MNAR)
如果数据字符不符合 MCAR 或 MAR 的要求,则它们属于非随机丢失 (MNAR)。
当数据缺失,但不是随机时,缺失与缺失的内容具体相关,例如,一个人因为前一天晚上服用了药物而没有参加药物测试。一个人由于英语语言能力差,没有参加英语能力测试。
MNAR 情况的数据是有问题的。在这种情况下,获得参数无偏估计的唯一方法是对缺失的数据进行建模,但这需要对缺失变量的正确理解和领域知识。该模型可以被合并到更复杂的模型中,用于估计缺失值。
MNAR 的图示如下,其中缺失值与变量Y直接相关。它也可以有其他关联 (与 XZ)。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号