统计特征:偏度和峰度(可视化图例解释)
创作时间:
作者:
@小白创作中心
统计特征:偏度和峰度(可视化图例解释)
引用
CSDN
1.
https://blog.csdn.net/weixin_74268817/article/details/143508352
在数据分析和机器学习领域,了解数据的分布特征对于选择合适的模型和进行有效的特征工程至关重要。偏度和峰度作为衡量数据分布形状的两个重要指标,能够帮助我们更好地理解数据的特性。本文将详细解释偏度和峰度的概念,并通过可视化方法展示它们在数据分布中的表现形式。
基本概念
在机器学习和数据分析中,峰度和偏度可以作为特征提取的指标,用于评估数据的分布形状,从而帮助理解数据集的特征并选择合适的模型。
峰度
峰度衡量数据分布的尖锐程度或尾部的厚度。
- 高峰度:分布曲线尖锐,尾部较重,峰度较高,表示更多极值。
- 常态峰度:类似正态分布,峰度接近零。
- 低峰度:分布曲线较平缓,尾部轻,峰度较低,数据更分散。
偏度
偏度衡量数据分布的对称性或偏斜方向。
- 正偏(右偏):右偏分布指的是数据分布的尾部向右侧延伸,即较高的值(极端值)分布在右侧。此时,均值通常大于中位数。
- 负偏(左偏):左偏分布指的是数据分布的尾部向左侧延伸,即较低的值(极端值)分布在左侧。此时,均值通常小于中位数。
- 对称(无偏):分布呈对称形状,类似于正态分布,偏度接近零。
检验方法
1. 可视化方法(主观判断)
直方图
- 偏度:直方图的形状可以显示数据分布的偏斜程度。如果左侧尾巴较长,说明数据左偏;如果右侧尾巴较长,说明数据右偏。
- 峰度:直方图的尖峭程度可以反映峰度。如果直方图的形状很尖,则可能具有高峰度;如果形状比较平坦,则可能具有低峰度。
- 结合偏度和峰度一起判断。
箱线图
- 偏度:可以判断。通过观察箱体的对称性和须的长度,可以判断数据的偏度。如果箱体的中位线偏向一侧,或一侧的须较长,说明数据存在偏斜。
- 峰度:不直接判断。箱线图主要显示数据的四分位数和极端值,不能直接判断峰度。
QQ图
- 偏度:可以间接判断。QQ图通过将样本分位数与理论分布的分位数进行比较,偏离直线的程度可以间接反映数据的偏度。
- 峰度:可以判断。QQ图的偏离程度也可以用来判断峰度。如果尾部比理论分布的尾部更重,说明数据的峰度较高。
2. 统计方法(调包)
使用Python的scipy.stats库可以方便地计算偏度和峰度:
import numpy as np
from scipy.stats import skew, kurtosis
# 生成一个示例数据集
data = np.random.normal(loc=0, scale=1, size=100) # 正态分布数据
# 计算偏度和峰度
skewness_ = skew(data)
kurtosis_ = kurtosis(data) # 默认计算修正峰度
print(f"偏度: {skewness_:.4f}")
print(f"峰度: {kurtosis_:.4f}")
偏度的绝对值通常被认为是:
- [0, 0.5]:分布近似对称。
- [0.5, 1]:轻微的偏斜。
1:明显的偏斜。
正常峰度(以3为界点):
- 峰度 = 3:正态峰度。
- 峰度 > 3:高峰度(比正态更尖锐)。这通常意味着存在更多的极端值(异常值)。
- 峰度 < 3:低峰度(比正态更平坦)。这表明数据的极端值较少,数据分散更广。
修正峰度(正常峰度-3,即以0为界点):
- 修正峰度 = 0:正态峰度
- 修正峰度 > 0:高峰度
- 修正峰度 < 0:低峰度
特征处理
高峰度处理方法
- 去除异常值:这种方法简单有效,但可能导致信息丢失。
- 变换数据:对数据进行变换,如使用对数变换、平方根变换或Box-Cox变换,以减小异常值影响。
- 聚合数据:将数据分组并计算组内的均值或中位数,从而降低异常值的影响。
- 数据插补:如果异常值影响了模型的表现,可以考虑用插补方法(如均值、邻近值或插值法)来替换异常值。
- 利用模型鲁棒性:使用对异常值不敏感的模型,如决策树或随机森林。这些模型可以更好地处理高峰度数据。
低峰度处理方法
- 增加样本量:收集更多数据,以提高数据集中程度,减少扁平化效应。
- 特征工程:进行特征选择或构造新特征,增强模型对数据中重要特征的捕捉能力。
- 使用非参数方法:考虑使用非参数检验或建模方法(如决策树),这些方法对数据分布的假设要求较低。
- 归一化或标准化:将数据进行归一化或标准化,帮助数据更好地适应模型。
- 考虑多模型集成:结合不同模型的预测结果,可以帮助提升在低峰度数据上的表现。
左偏和右偏处理方法
- 数据变换:
- 对数变换:对右偏数据进行对数变换可以有效减小偏度,使数据更接近正态分布。
- 平方根变换:适合于计数数据,能够减少偏度的影响。
- 反向变换:使用反函数(例如 y=1/x )来处理极端高值,使用反函数(例如y=−x)来处理极端低值。
- 去除离群点:通过 Z-score 或 IQR 方法识别和去除极端值,以降低极端值对整体分析的影响
- 数据分组:将数据分组或分桶,例如使用类别变量来代替原始数值,减少极端值的影响。
- 模型选择:或者使用适合左偏或右偏分布的模型。
热门推荐
起名需要注意的文化习俗事项 取名字要有内涵具有积极意义
渝北中央公园片区完善升级 消费活力持续迸发
传说能预测后世历史,传得神乎其神的《推背图》真的可信吗?
甲状腺功能减退与生殖健康的关系
2024年干辣椒市场规模分析:5月中国进口未磨的辣椒干数量为21411848千克
绝美家居布置指南:20个实用案例教你玩转软装设计
梅自强:从孤儿到解读《黄帝外经》的丹道大师,他的一生很传奇
全国首单数字孪生数据资产入表融资案例在珠海香洲诞生
红茶VS绿茶:每天该喝哪种?90%的人都选错了
华硕电脑如何使用U盘重装系统(以华硕电脑为例,详细教你使用U盘重装系统)
企业的绩效考核体系包括哪些主要内容?
新资产减值会计准则的影响以及完善建议
你好,这里是江苏!|氾水:素称“金氾水”和“宝应首镇”
万家乐热水器显示E1?快速排查与解决方法,恢复热水舒适体验!
长大才明白,《西游记》里句句都是人生
植物画入门从小白到“艺术家”的秘密指南!
股票市场出现牛市的原因是什么?牛市行情对投资者有哪些影响?
詹姆斯儿子成了带货一哥?NBA球衣的隐藏财富链
AT、湿式双离合、CVT 和 AMT 变速箱怎么选?老司机做了分析
统考倒计时!美术生从考前到考后都要注意些啥?一文说清
40岁拿到总冠军有多难?历史仅4人,1人43岁夺冠,贾巴尔领衔
脚趾甲盖发黑是什么病的前兆
探索焊接奇迹:揭秘埋弧半自动焊的技术奥秘
长沙长雅中学:语文课上教腌制咸鸭蛋,跨学科融合教学显成效
老人带娃,最好在这个年龄段退出,否则伤害大,对娃成长不利
命运方舟航空法师/气象雨伞技能介绍
不能公开的关系,你要让他有失去感
茯苓山楂泡水的功效与适用人群
进门竖厅装修效果图,教你打造高品质现代简约家
NBA历史三分球排名 詹姆斯排名第八 哈登位列第三!他第一 您意外吗