【科普】厚尾分布:特征、应用场景及与正态分布的对比
创作时间:
作者:
@小白创作中心
【科普】厚尾分布:特征、应用场景及与正态分布的对比
引用
CSDN
1.
https://blog.csdn.net/AdamCY888/article/details/145116570
厚尾分布(Fat-tailed distribution)是一种概率分布,其尾部比正态分布更“厚”,即尾部的概率密度更大,极端值出现的概率更高。
厚尾分布的特征
- 尾部概率大
- 在正态分布中,极端值(如距离均值很远的值)出现的概率非常小。例如,对于一个标准正态分布(均值为0,标准差为1),数据落在距离均值3个标准差之外的概率约为0.27%。然而,在厚尾分布中,这种极端值出现的概率要大得多。以柯西分布(一种典型的厚尾分布)为例,它没有定义方差,其尾部的概率密度衰减速度比正态分布慢很多。在柯西分布中,数据落在距离“中心位置”(类似正态分布的均值)较远区域的概率显著高于正态分布。这就意味着在厚尾分布中,出现极端异常值的可能性更大。
- 峰度高
- 峰度是衡量分布形状的一个指标,它反映了分布的尖峭程度和尾部的厚重程度。厚尾分布通常具有较高的峰度。正态分布的峰度为0(以它为基准),而厚尾分布的峰度大于0。高峰度意味着分布的中间部分(峰部)更尖,同时尾部更厚。例如,学生t分布(自由度较小时)是一种厚尾分布,当自由度较小时,它的峰度比正态分布高,这使得它在描述一些金融资产收益率等数据时,能更好地捕捉到极端波动的情况。
- 均值和方差的特性
- 对于一些厚尾分布,其均值和方差可能不存在或者不具有实际意义。以柯西分布为例,它的均值和方差都是未定义的。这是因为其尾部太厚,极端值对均值和方差的计算影响过大,导致这些统计量无法收敛到一个有限的值。这与正态分布等轻尾分布不同,正态分布的均值和方差都是良好定义的,且具有实际的统计意义,可以很好地描述数据的集中趋势和离散程度。
厚尾分布的应用场景
- 金融领域
- 在金融市场中,资产价格的波动往往不符合正态分布。例如,股票价格的收益率分布通常具有厚尾特征。这是因为股票市场会受到各种突发事件(如政治动荡、公司丑闻等)的影响,导致价格出现极端的上涨或下跌。厚尾分布能够更好地描述这种极端波动的情况。像学生t分布就被广泛用于金融风险建模,如在计算投资组合的风险价值(Value at Risk,VaR)时,使用厚尾分布可以更准确地估计极端市场情况下投资组合可能遭受的损失。
- 保险领域
- 保险理赔金额的分布也常常是厚尾的。因为虽然大部分理赔金额可能比较小(如一些小额的财产损失),但是偶尔会出现一些巨额的理赔,如自然灾害导致的大规模财产损失。厚尾分布能够更合理地反映这种理赔金额分布的特点,帮助保险公司更准确地评估风险和制定保险费率。例如,帕累托分布是一种厚尾分布,它在描述大额保险理赔数据时效果很好,能够更好地捕捉到大额理赔出现的概率,从而为保险公司的风险管理和定价提供依据。
- 网络流量分析
- 网络流量数据也呈现出厚尾分布的特性。大部分时间网络流量可能处于较低水平,但是偶尔会出现流量的突发高峰,如大型在线活动期间。厚尾分布可以用来建模这种网络流量的波动情况,有助于网络运营商更好地规划网络资源,应对可能出现的流量高峰,避免网络拥堵等问题。
厚尾分布与正态分布的对比
为了更直观地理解厚尾分布的特点,我们可以通过代码绘制学生t分布和正态分布的对比图:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm
# 设置自由度
df = 3
# 生成x值,这里从-5到5,共100个点
x = np.linspace(-5, 5, 100)
# 计算学生t分布的概率密度函数值
y_t = t.pdf(x, df)
# 计算正态分布的概率密度函数值,均值为0,标准差为1
y_norm = norm.pdf(x, 0, 1)
# 绘制学生t分布图像
plt.plot(x, y_t, label=f"Student's t distribution (df={df})", color='blue')
# 绘制正态分布图像
plt.plot(x, y_norm, label="Normal distribution (mean=0, std=1)", color='red', linestyle='--')
# 添加标题和标签
plt.title("Comparison of Student's t Distribution and Normal Distribution")
plt.xlabel("x")
plt.ylabel("Probability Density")
# 添加图例
plt.legend()
# 显示图像
plt.show()
在这段代码中,我们增加了对正态分布的计算和绘制。使用 scipy.stats
中的 norm
模块来计算正态分布的概率密度函数值,这里设置正态分布的均值为0,标准差为1,这是标准正态分布的参数。
- 图像对比分析:
- 尾部:在图像的两端(尾部),学生t分布(蓝色曲线)的概率密度明显高于正态分布(红色虚线)。这表明在学生t分布中,极端值(距离中心位置较远的值)出现的概率更大,这就是厚尾分布的典型特征。
- 峰部:在图像的中间部分(峰部),学生t分布的峰值相对较低,而正态分布的峰值较高。这说明正态分布的数据更集中于均值附近,而学生t分布的数据分布相对更分散,这也是厚尾分布与轻尾分布在数据集中趋势描述上的差异。
- 整体形状:从整体形状上看,学生t分布的曲线更“丰满”,尾部更“肥厚”,而正态分布的曲线更“瘦高”,尾部迅速衰减。这种形状差异直观地反映了两种分布在描述数据极端波动能力上的不同,厚尾分布更适合描述那些极端波动较为频繁的数据,如金融资产收益率等。
下面是一个绘制柯西分布和正态分布对比图的代码示例:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import cauchy, norm
# 生成x值,这里从-10到10,共400个点
x = np.linspace(-10, 10, 400)
# 计算标准柯西分布的概率密度函数值
y_cauchy = cauchy.pdf(x, loc=0, scale=1)
# 计算标准正态分布的概率密度函数值
y_norm = norm.pdf(x, loc=0, scale=1)
# 绘制柯西分布图像
plt.plot(x, y_cauchy, label='Cauchy Distribution', color='blue')
# 绘制正态分布图像
plt.plot(x, y_norm, label='Normal Distribution', color='red', linestyle='--')
# 添加标题和标签
plt.title('Comparison of Cauchy and Normal Distributions')
plt.xlabel('x')
plt.ylabel('Probability Density')
# 添加图例
plt.legend()
# 显示图像
plt.show()
代码解释
- 导入库:
numpy
用于生成数据点。matplotlib.pyplot
用于绘图。scipy.stats
中的cauchy
和norm
模块分别用于计算柯西分布和正态分布的概率密度函数值。
- 生成x值:
np.linspace(-10, 10, 400)
生成从-10到10的400个等间距的点,这些点将用于计算概率密度函数值。
- 计算概率密度函数值:
cauchy.pdf(x, loc=0, scale=1)
计算标准柯西分布的概率密度函数值。norm.pdf(x, loc=0, scale=1)
计算标准正态分布的概率密度函数值。
- 绘制图像:
plt.plot(x, y_cauchy, label='Cauchy Distribution', color='blue')
绘制柯西分布的图像。plt.plot(x, y_norm, label='Normal Distribution', color='red', linestyle='--')
绘制正态分布的图像,使用虚线表示。
- 添加标题和标签:
plt.title('Comparison of Cauchy and Normal Distributions')
添加标题。plt.xlabel('x')
和plt.ylabel('Probability Density')
分别添加x轴和y轴的标签。
- 添加图例:
plt.legend()
添加图例,显示每条曲线的标签。
- 显示图像:
plt.show()
显示图像。
图像对比分析
- 尾部:柯西分布的尾部明显比正态分布的尾部更厚,这意味着柯西分布中极端值出现的概率更高。这使得柯西分布更适合描述那些极端波动较为频繁的数据,如金融资产收益率等。
- 峰部:柯西分布的峰值相对较低,而正态分布的峰值较高。这表明正态分布的数据更集中于均值附近,而柯西分布的数据分布相对更分散。
- 整体形状:柯西分布的曲线更“丰满”,尾部更“肥厚”,而正态分布的曲线更“瘦高”,尾部迅速衰减。
通过这种对比,可以更直观地理解厚尾分布(柯西分布)与轻尾分布(正态分布)的差异。
热门推荐
心悸發作別慌!掌握症狀、原因及舒緩方法,讓心跳恢復平靜
奈飞版《三体》史上最贵、雨果奖多项入围……中国科幻加速“文化出海”
中年大叔追求年轻姑娘:挑战与策略的深度解析
上海市精神卫生中心就医指南
牙龈出血中医如何辨证
健身吃鸡胸肉好还是吃牛肉好?营养师教你科学选择
宝宝呕吐如何诊断
儒商精神——「义利之辨」与企业的社会责任(图)
穿出品质:选对POLO衫TC面料与CVC面料
揭秘特斯拉电池管理系统:电动汽车长寿命与卓越性能的奥秘
一场横跨山海的听证会:同心守护传统村落 传承优秀文化
1丈等于多少米?丈与米的换算及历史演变详解
如何照顾宠物猫的健康?养猫攻略助你成为贴心主人
好关系胜过好教育!父母一定要知道的亲子沟通密码
探索个人网页设计的美学与创意魅力之旅
冷白皮最不适合的大衣颜色
冷白皮的专属指南:如何选择最合适的服装颜色
蛋挞好吃,但不要贪吃,否则胖你没商量
人工智能学院召开辅导员辩论研讨会:创新举措助力学生思辨能力提升
发朋友圈被别人在评论里污蔑,看法院怎么判?
温控器如何精准调控温度,守护舒适与安全?
如何判断我的U盘是USB 2.0还是USB 3.0?
空气净化器选购指南:理性分析与实用建议
医疗养老万亿级蓝海!中国医疗养老行业发展现状与市场前瞻
无论关系多好,都千万别收对方送来的这 3 个礼物,不是迷信
陕西丨推进秦岭生态保护修复高质量发展
京都将军塚青龙殿:古都起源地的自然人文之美
螃蟹怎么保存:冷藏还是冷冻?
宜昌徒步的经典户外线路有哪些?宜昌20个景美人少的徒步的好去处推荐
圣经中的天使:真实形象与流行文化差异