资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

【统计学基础】P值的全面解析

创作时间:

作者:

@小白创作中心

【统计学基础】P值的全面解析

引用

CSDN

https://blog.csdn.net/weixin_43615654/article/details/103689934

P值是统计学中一个重要的概念，它在假设检验中扮演着关键角色。本文将通过一个具体的例子，帮助读者理解假设检验、正态分布、P值以及统计显著性的概念。

1. 假设检验

首先了解一下假设检验，在这里，P值被用来决定结果的统计显著性（statistical significance）。统计显著性基于三点：

假设检验
正态分布
P值

假设检验用来检验原假设的有效性。备择假设是如果原假设都不成立，你会相信的假设。

换句话说，原假设与使用样本检查声明是否有效。假如声明无效，则我们选择备择假设。

如何判断声明是否有效？

使用P值。如果证据支持备择假设，那么我们将拒绝原假设并接受备择假设。这将在后面的章节中进一步解释。

一个例子：

假设一家披萨店声称他们的送货时间平均不超过30分钟，但你认为他们超时了。因此，您进行一个假设检验，并随机抽取一些交货时间来检验该声明。

原假设 — 平均送货时间是30分钟或更短（不超时）
备择假设 — 平均送货时间大于30分钟（超时的选项）

目标是确定从我们的样本数据中找到的证据可以更好地支持哪种说法（无效或替代）。一种通常用的测试就是Z检验。

2. 正态分布

上图表明：

68％的数据在平均值（μ）的1个标准偏差（σ）内
95％的数据在平均值（μ）的2个标准偏差（σ）内
99.7％的数据在平均值（μ）的3个标准偏差（σ）之内

由于我们使用Z检验来进行假设检验，因此我们需要计算Z分数（用于我们的检验统计量），即与数据点均值的标准偏差数。在我们的案例中，每个数据点都是我们收集的比萨送达时间。

查看标准正态分布曲线很有用，因为我们可以将测试结果与标准偏差为标准单位的“正态”总体进行比较。

这就是我们需要最后一项来解决难题的地方——P值，并根据我们开始实验前设定的显著性水平(也称为α)来检查我们的结果是否具有统计显著性。

3. 什么是P值

如果最终证据支持比萨饼店的索赔（平均交货时间为30分钟或更短），那么我们将不会拒绝原假设。否则，我们将拒绝原假设。

P值越低，原假设看起来就越荒谬。此时，我们拒绝原假设并且采用备择假设取代。

P值在披萨配送时间中的应用

现在，我们已经收集了一些采样的交付时间，我们进行了计算，发现平均交付时间延长了10分钟，P值为0.03。

这意味着在世界上披萨的运送时间为30分钟或更短的时间（原假设是正确的）的情况下，由于随机噪音，我们有3％的可能性会发现平均披萨的运送时间至少要长10分钟。

P值越低，结果越有意义，因为它不太可能是由噪音引起的。

多数人对P值有误解：

以下是我们如何使用0.03的P值来帮助我们做出合理的决定(重要):

想象一下，我们生活在一个平均交货时间始终为30分钟或更短的世界中（原假设是正确的）-因为我们相信披萨店（我们最初的信念）！
在分析了收集的样本交付时间之后，P值0.03低于显着性水平（significance level）0.05（假设我们在实验之前进行了设置），并且可以说结果具有统计学意义。
因为我们一直相信的披萨店,它可以履行其承诺提供披萨在30分钟或更短的时间内,我们现在需要认为如果这个信念仍然是有意义的,因为结果告诉我们,披萨店未能兑现其承诺,并且这个结果具有统计学意义。