问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

M估计(M-estimation):统计学中的广义估计方法

创作时间:
作者:
@小白创作中心

M估计(M-estimation):统计学中的广义估计方法

引用
CSDN
1.
https://m.blog.csdn.net/AdamCY888/article/details/144518137

M估计(M-estimation)是统计学中的一种广义估计方法,可以看作是最大似然估计(MLE)的推广。它通过最优化一个目标函数来获得参数的估计值,在处理数据中的离群点或非正态分布情况下具有优势。本文将详细介绍M估计的定义、与最大似然估计的关系、典型形式、求解方法、鲁棒性以及实际应用案例。

M估计的定义

假设我们有一个样本数据 $X_1, X_2, \dots, X_n$,希望估计一个参数 $\theta$(可能是标量或向量)。M估计量 $\hat{\theta}$ 是通过最小化(或最大化)某个目标函数 $\rho(x, \theta)$ 得到的:

$$
\hat{\theta} = \arg\min_{\theta} \sum_{i=1}^n \rho(X_i, \theta)
$$

其中:

  • $\rho(x, \theta)$ 是一个对损失进行度量的函数,称为损失函数。
  • $\theta$ 是待估计的参数。

与最大似然估计的关系

在最大似然估计中,我们通过最大化对数似然函数 $\ell(\theta; X)$ 来估计参数:

$$
\hat{\theta}{\text{MLE}} = \arg\max{\theta} \ell(\theta; X)
$$

最大化对数似然函数相当于最小化负对数似然:

$$
\hat{\theta}{\text{MLE}} = \arg\min{\theta} \sum_{i=1}^n -\log f(X_i; \theta)
$$

这里,$-\log f(X_i; \theta)$ 扮演了损失函数的角色。因此,最大似然估计是M估计的一种特殊形式,其中 $\rho(x, \theta) = -\log f(x; \theta)$。

M估计的典型形式

  1. 均值估计:
  • 当 $\rho(x, \mu) = (x - \mu)^2$ 时,M估计得到样本均值:
    $$
    \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i
    $$
  1. 中位数估计:
  • 当 $\rho(x, m) = |x - m|$ 时,M估计得到样本中位数:
    $$
    \hat{m} = \text{Median}(X_1, \dots, X_n)
    $$
  1. Huber估计(鲁棒估计):
  • 为了兼顾均值的高效性和中位数的鲁棒性,Huber提出了一种混合损失函数:
    $$
    \rho(x, \theta) =
    \begin{cases}
    \frac{1}{2}(x-\theta)^2, & \text{if } |x-\theta| \le c \
    c|x-\theta| - \frac{1}{2}c^2, & \text{if } |x-\theta| > c
    \end{cases}
    $$
  • 这里的 $c$ 是一个阈值,用于控制平方损失和绝对损失的切换。

M估计的求解

为了得到M估计量 $\hat{\theta}$,我们通常通过一阶导数等于0的方法进行优化。定义导数:

$$
\psi(x, \theta) = \frac{\partial \rho(x, \theta)}{\partial \theta}
$$

称 $\psi(x, \theta)$ 为影响函数或得分函数。通过解下面的方程来求得M估计:

$$
\sum_{i=1}^n \psi(X_i, \theta) = 0
$$

这一方程是非线性的,通常需要通过迭代数值方法(如牛顿法)来求解。

M估计的鲁棒性

M估计的一大优势是可以通过选择不同的损失函数 $\rho(x, \theta)$ 和影响函数 $\psi(x, \theta)$ 来增强估计的鲁棒性。特别地:

  • 对于含有异常值的数据,如果使用平方损失函数(对应样本均值),异常值会对估计结果产生巨大影响。
  • 如果使用绝对损失函数(对应样本中位数),则对异常值更鲁棒,但效率较低。
  • Huber损失函数等平衡了效率和鲁棒性。

M估计的例子

1. Huber损失的鲁棒回归

对于线性回归模型 $Y = \beta_0 + \beta_1 X + \epsilon$,我们用 Huber 损失函数代替传统的平方损失来估计参数 $\beta_0$ 和 $\beta_1$:

$$
\hat{\beta} = \arg\min_{\beta_0, \beta_1} \sum_{i=1}^n \rho(Y_i - (\beta_0 + \beta_1 X_i))
$$

2. 带噪数据的均值估计

给定数据 $X_1, X_2, \dots, X_n$,其中部分点可能是异常值,直接用样本均值会受异常值影响。可以使用 Huber 的 M估计:

$$
\hat{\mu} = \arg\min_{\mu} \sum_{i=1}^n \rho(X_i - \mu)
$$

3. 金融数据中的风险度量

金融数据中常存在极端值(如股价暴跌或暴涨)。用绝对损失函数或Huber损失函数估计中心趋势(如中位数或加权均值)更鲁棒。

M估计的优势与局限

优势

  1. 灵活性:可以根据需求选择不同的损失函数,适应不同的数据特点。
  2. 鲁棒性:通过选择合适的损失函数,可以有效抵抗异常值的影响。
  3. 广泛应用:在回归分析、时间序列分析、金融统计等领域有广泛应用。

局限

  1. 计算复杂:相比简单估计方法,M估计的计算量可能更大,需要迭代求解。
  2. 选择损失函数的主观性:不同损失函数适合不同场景,选择错误可能导致结果偏差。
  3. 对小样本的可靠性:在样本量较小的情况下,M估计的性能可能不如大样本时稳定。

总结来说,M估计是最大似然估计的一种广义形式,通过优化目标函数提供了灵活性和鲁棒性,是现代统计中重要的估计工具之一。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号