问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

新手村:协方差、方差、标准差的作用

创作时间:
作者:
@小白创作中心

新手村:协方差、方差、标准差的作用

引用
CSDN
1.
https://blog.csdn.net/k316378085/article/details/146328330

统计学是数据分析的基础,而协方差、方差和标准差则是统计学中最基本也是最重要的概念之一。它们帮助我们理解数据的分布特征,为更复杂的统计分析打下基础。本文将从零开始,详细介绍这些概念的定义、计算方法及其实际应用。

前置条件

  • 初步了解基本数学运算(加、减、乘、除)
  • 对统计学有一定兴趣
  • 掌握基础编程概念(非必须,但有助于理解代码演示)

一、介绍与预备知识

主题
描述
数据的重要性
解释为什么我们需要分析数据
统计学简介
简述统计学的基本概念及其在数据分析中的作用

二、方差

知识点
理论表达
通俗解释
评分(1-5)
定义
方差是衡量一组数值分散程度的度量
描述数值与其平均值之间的差异程度
5
计算方法
$\text{Var}(X) = \frac{\sum (x_i - \bar{x})^2}{n}$
平均每个数值与平均值之差的平方
4

三、协方差

知识点
理论表达
通俗解释
评分(1-5)
定义
衡量两个变量间的线性关系强度
变量如何一起变化
5
计算方法
$\text{Cov}(X,Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n}$
分析两组数据点之间的相关性
4

四、标准差

知识点
理论表达
通俗解释
评分(1-5)
定义
标准差是方差的平方根,用于表示数据的离散程度
显示数据集的波动大小
5
计算方法
$\sigma = \sqrt{\text{Var}(X)}$
数据分布的“平均”偏离幅度
3

五、平均绝对偏差

平均绝对偏差(Mean Absolute Deviation, MAD)是衡量一组数值与其平均值之间差异的另一种方法。与方差不同,它使用绝对值来避免正负误差相互抵消的情况,因此在某些情况下可能更直观地反映数据的离散程度。

$$\text{MAD} = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}$$

其中:

  • $x_i$ 是数据集中的每一个观测值,
  • $\bar{x}$ 是数据集的平均值,
  • $n$ 是数据集中观测值的数量。

与方差和标准差的比较

  • 方差:计算的是每个数据点与平均值之差的平方的平均值。由于采用了平方,方差对异常值更加敏感。
  • 标准差:是方差的平方根,提供了一个与原始数据相同单位的度量。
  • 平均绝对偏差:直接使用绝对值,不涉及平方或开方运算,因此它不容易受到极端值的影响,并且更容易解释。

应用场景

平均绝对偏差常用于需要对数据波动性进行描述但又希望避免受极端值过大影响的情景中。例如,在财务分析中,MAD可以用来评估投资回报率的稳定性;在预测模型中,它可以作为衡量预测误差的一个指标。

示例

假设我们有一个简单的数据集:$X = [1, 2, 3, 4, 5]$

  1. 首先计算这个数据集的平均值:$\bar{x} = \frac{1+2+3+4+5}{5} = 3$
  2. 然后计算每个数据点与平均值之间的绝对差,并求这些绝对差的平均值:

$$\text{MAD} = \frac{|1-3| + |2-3| + |3-3| + |4-3| + |5-3|}{5} = \frac{2+1+0+1+2}{5} = 1.2$$

因此,该数据集的平均绝对偏差为1.2。这表示在这个数据集中,一个典型的数值偏离其平均值大约1.2个单位。

通过理解和应用平均绝对偏差,我们可以更好地了解数据集内数据分布的紧密程度,以及识别出那些可能对整体分析造成误导的数据点。这对于数据分析、质量控制等领域尤为重要。

六、代码演示教程

import numpy as np

data = np.array([1, 2, 3, 4, 5])
variance = np.var(data)
std_dev = np.std(data)
print(f"方差: {variance}, 标准差: {std_dev}")

七、后续练习题

  • 计算给定数据集的方差、标准差
  • 比较两个不同数据集的标准差并讨论其含义

八、下一阶段学习内容

  • 学习概率分布
  • 探索更复杂的统计模型如回归分析

九、术语和术语解释

术语
解释
方差
衡量一组数值分散程度的度量
协方差
衡量两个变量间的线性关系强度
标准差
方差的平方根,用于表示数据的离散程度

十、重要问题解答

  1. :为什么要用方差而不是直接用平均绝对偏差?
    :因为方差能更好地反映数据的离散情况,特别是对极端值敏感。

  2. :协方差为正或负意味着什么?
    :正表示两个变量倾向于同向变动;负表示反向变动。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号