问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数据分析(Analytics)--置信区间(CI)

创作时间:
作者:
@小白创作中心

数据分析(Analytics)--置信区间(CI)

引用
CSDN
1.
https://blog.csdn.net/jianqimingtian/article/details/145657569

置信区间(CI)是一个值范围,用于估计真实总体值可能下降的位置。与其说学生的平均身高是165厘米,不如说我们95%的信心,真正的平均身高在160厘米到170厘米之间。

在深入研究置信区间之前,您应该熟悉以下内容:

  • t检验
  • z检验

解释置信区间

假设我们抽取50名学生的样本,计算出他们平均身高的95%置信区间,结果是160-170厘米。这意味着,如果我们重复采用类似的样本,则这些区间的95%将包含总体中所有学生的真实平均身高。

置信区间

Confidence level告诉我们true值在计算范围内的确定程度。如果我们必须多次重复采样过程,我们预计这些区间的一定百分比将包括true值。

  • 90%置信度:90%的区间将包括真实的总体值。
  • 95%置信度:95%的区间将包括数据科学中常用的真实值。
  • 99%置信度:99%的区间将包含真实值,但区间会更宽。

为什么置信区间在数据科学中很重要?

  • 它们有助于衡量预测和估计中的不确定性。
  • 通过这些数据,科学家们找到了可靠的结果,而不仅仅是给出一个数字。
  • 它们广泛用于A/B测试、机器学习和调查分析,我们稍后会研究这些分析以检查结果是否有意义。

构造置信区间的步骤

要计算置信区间,请遵循以下简单的4个步骤:

步骤1:确定样本问题。

定义要估计的总体参数,例如,学生的平均身高。选择正确的统计数据,例如样本均值。

第2步:选择置信度。

在此步骤中,我们选择置信度,一些常见的选择是90%、95%或99%。它代表了我们对估计的确定程度。

第3步:找到误差幅度。

要找到Margin of Error,请使用以下公式:

Margin of Error = Critical Value × Standard Error

对于小样品,使用Z表或T表找到临界值。首先,您选择显著性水平(α),对于95%的置信水平,该水平通常为0.05。然后决定您是执行单尾还是双尾测试,其中双尾是更常见的选择。在此之后,您可以根据显著性水平和测试类型在Z表或T表中查看相应的值。

标准误差衡量样本的变异性,通过将样本的标准差除以样本量的平方根来计算。将临界值和标准误差组合在一起,可以得到误差幅度,它告诉您预期真实值所在的范围。

步骤4:指定置信区间。

要找到Confidence Interval,我们使用以下公式:

Confidence Interval = Point Estimate ± Margin of Error

现在,Point Estimate通常是样本的平均值或平均值。这是基于样本数据对真实值的最佳猜测。Margin of Error(边距误差)告诉您样本数据可能与我们在上一步中计算的真实值相差多少。

因此,当您从点估计值中增加或减去误差幅度时,您会得到一个范围。此范围告诉您真实值可能落在何处。

置信区间的类型

一些常见的Confidence Interval类型包括:

置信区间的类型

1. 正态分布数据平均值的置信区间

当我们想根据样本找到总体的平均值时,我们使用这种方法。

  • 如果样本量较小(小于30),则使用T分布,因为小样本往往具有更大的可变性。
  • 如果样本量很大(超过30),则我们使用Z分布,因为大样本往往给出更准确的估计值。

2. 比例的置信区间

在估计人口比例(如喜欢产品的人数百分比)时,使用此类型。在这里,我们使用样本比例、标准误差和临界Z值来计算区间。它为我们提供了基于样本数据的实际值可能落在何处的想法。

3. 非正态分布数据的置信区间

有时,您拥有的数据不是正态分布的,这意味着它不遵循钟形曲线。在这种情况下,传统的置信区间并不是最好的方法。相反,我们可以使用bootstrap方法。这涉及对数据进行多次重新采样以创建不同的样本,然后从这些重新采样中计算置信区间。

计算置信区间

在了解了t检验和z检验之后,我们现在开始讨论如何计算置信区间。要计算置信区间,您需要两个关键统计数据:

  • 平均值(μ)—算术平均值是数字的平均值。它被定义为n个数字之和除以数字计数直到n。

μ = 1+2+3+…+nn

  • 标准差(σ)—它是衡量数字分布程度的指标。它被定义为每个数字与平均值之差的平方和。

σ = ∑(xi−μ)2n

获得这些后,您可以使用t分布或z分布计算置信区间,具体取决于样本量,无论总体标准差是否已知。

A) 使用t分布

当您的样本量较小(通常为n < 30)并且您不知道总体标准差时,我们使用t分布。这在A/B测试等领域或处理小型数据集时很常见。

请考虑以下示例。随机抽取10名UFC战士的样本并测量他们的体重。发现平均体重为240公斤。构建平均重量的95%置信区间估计值。样品标准差为25公斤。求所有UFC战士的真实平均体重的样本的置信区间。

分步过程:

  • 自由度(df):

对于t分布,我们首先计算自由度:df = n−1 = 10−1 = 9DF系列=n−1=10 -1=9

  • 显著性水平(α):

置信水平(CL)为95%,因此显著性水平为:α = 1–CL2 = 1–0.952 = 0.025α=21–CL =21–0.95 =0.025

  • 从t分布表中查找t值:

从df = 9和α = 0.025的t表中,t值为2.262,可以使用下表找到。

(df)/(α) 0.1 0.05 0.025 ..
∞ 1.282 1.645 1.960 ..
1 3.078 6.314 12.706 ..
2 1.886 2.920 4.303 ..
: : : : ..
8 1.397 1.860 2.306 ..
9 1.383 1.833 2.262 ..

  • 在公式中应用t值:

置信区间的公式为:μ±t(σn)μ±t(n σ )使用以下值:240±2.262×(2510)240±2.262×(10 25 )

  • 置信区间变为:(222.117,257.883)(222.117,257.883)

因此,我们有95%的信心认为UFC战士的真实平均体重在222.117公斤到257.883公斤之间。

这可以使用Python的库进行计算,以查找t值并执行必要的计算。stats模块提供各种统计函数、概率分布和统计检验。

scipy.stats

import scipy.stats as stats
import math

sample_mean = 240
sample_std_dev = 25
sample_size = 10
confidence_level = 0.95

df = sample_size - 1
alpha = (1 - confidence_level) / 2
t_value = stats.t.ppf(1 - alpha, df)
margin_of_error = t_value * (sample_std_dev / math.sqrt(sample_size))
lower_limit = sample_mean - margin_of_error
upper_limit = sample_mean + margin_of_error

print(f"Confidence Interval: ({lower_limit}, {upper_limit})")

输出:

Confidence Interval: (222.1160773511857, 257.8839226488143)

B) 使用Z分布

当样本量较大(n > 30)或总体标准差已知时,将使用z分布。这在大规模调查、市场研究中很常见。

请考虑以下示例。随机抽取50名成年女性的样本并测量她们的红细胞计数。样本均值为4.63,RBC计数的标准差为0.54。为成年女性的真实平均RBC计数构建95%置信区间估计。

分步过程:

  1. 找到问题中给出的平均值和标准差。
  2. 查找置信水平的z值:

对于95%置信区间,z值为1.960。

  1. 在公式中应用z值:μ±z(σn)

使用值:下表中的一些常见值:

置信区间 z值
90% 1.645
95% 1.960
99% 2.576

置信区间变为:(4.480,4.780)

因此,我们有95%的信心认为成年女性的真实平均RBC计数在4.480和4.780之间。

现在让我们使用Python(统计库)实现它

from scipy import stats
import numpy as np

sample_mean = 4.63
std_dev = 0.54
sample_size = 50
confidence_level = 0.95

standard_error = std_dev / np.sqrt(sample_size)
z_value = 1.960
margin_of_error = z_value * (std_dev / math.sqrt(sample_size))
lower_limit = sample_mean - margin_of_error
upper_limit = sample_mean + margin_of_error

print(f"Confidence Interval: ({lower_limit:.3f}, {upper_limit:.3f})")

输出:

Confidence Interval: (4.480, 4.780)

Confidence Interval的一些关键要点是:

  • 置信区间在数据科学中至关重要,可以发现估计的不确定性并使预测更可靠。
  • t分布用于小样本量(n < 30),而z分布用于大样本量(n > 30)。
  • 置信区间通过提供范围而不是单个点估计来帮助做出数据驱动的决策。这在A/B测试、市场研究和机器学习中尤为重要。

常见问题(FAQ)

1. 什么是95%置信区间规则?

95%置信区间规则指出,如果我们为总体参数重复构造95%置信区间,我们可以预期其中95%的区间包含真实参数值。

2. 如果95个置信区间包括1怎么办?

如果95%置信区间包括1,则意味着我们在统计上没有信心说真实参数值与1不同。换句话说,数据不够强,无法排除true参数值为1的可能性。

3. 置信水平和置信区间有什么区别?

置信水平是置信区间包含true参数值的概率。置信区间是可能包含true参数值的值范围。

4. 如何找到样本量?

样本数量是样本中的观测值个数。样本量由所需的置信水平、所需的误差幅度和数据变异性决定。

5. 什么是5显著性水平?

显著性水平是在原假设实际为真时拒绝原假设的概率。显著性水平通常设置为0.05,这意味着我们愿意接受5%的几率出现I类错误。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号