问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

数据科学家的武器库：四大假设检验方法全解析

创作时间:

作者:

@小白创作中心

数据科学家的武器库：四大假设检验方法全解析

引用

1

来源

1.

http://www.360doc.com/content/24/0926/23/50382475_1135120825.shtml

在数据分析中，我们经常会遇到一个问题：我们的数据是否能够支持我们的假设？

为了回答这个问题，统计学提供了一种强大的工具—假设检验。

今天，我们就来聊聊常见的四大假设检验方法：

什么是假设检验？

假设检验是一种统计方法，用于基于样本数据判断一个关于总体的假设是否成立。

简单来说，它帮助我们决定是否有足够的证据来支持或拒绝一个假设。

常见的四种假设检验的方法：

有关总体均值参数的假设检验。根据是否已知方差,分为两类检验：Z检验和T检验。如果已知方差，则使用U检验，如果方差未知则采取T检验。
有关参数方差的假设检验。F检验是对两个正态分布的方差齐性检验，简单来说，就是检验两个分布的方差是否相等。
检验两个或多个变量之间是否关联?卡方检验属于非参数检验，主要是比较两个及两个以上样本率（构成比）以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题。

Z检验：大样本的宠儿

Z检验，也称为U检验或正态检验，常用于大样本数据，检验两个比例或均值之间的差异是否显著。

基本原理

Z检验的基本原理是利用标准正态分布的理论来推断两个均值的差异是否显著。

Z检验图像

如果样本数据服从正态分布，那么可以通过计算Z统计量来确定样本均值与总体均值之间的差异是否超出了随机误差的范围。

核心公式

式中：是样本均值，是总体均值，是总体标准差，是样本大小。

特点

😊计算简单，理论成熟。
😊适用于大样本数据。
😞要求样本量较大（一般n>30）。
😞总体标准差必须已知。

应用案例

检验一个产品的合格率是否达到公司宣称的95%。

T检验：小样本的利器

T检验，也称为学生t检验（Student's t-test），是由威廉·戈塞特（William Sealy Gosset）提出的。它是一种用于比较两组数据均值的统计方法，尤其在样本量较小且数据呈正态分布时非常有效。

基本原理

T检验的基本原理是利用T分布（在小样本情况下接近正态分布）来估计两个样本均值之间的差异是否超出了随机误差的范围。

核心公式

单样本t检验
独立样本t检验
配对样本t检验

上述式中，是样本均值，是总体均值，是样本标准差，是样本大小，是配对差异的均值，是配对差异的标准差，是期望的配对差异均值。

特点

😊适用于小样本数据。
😊不需要总体标准差已知。
😞当样本量较大时，功效可能低于Z检验。
😞对数据的正态性和方差齐性有一定要求。

应用案例

研究新药物是否比现有药物更有效。

F检验：方差分析的基石

F检验，全称方差比率检验，是一种在零假设之下统计值服从F分布的检验。它用于分析用了超过一个参数的统计模型，以判断该模型中的全部或一部分参数是否适合用来估计母体。

基本原理

F检验的基本原理是通过比较组间变异与组内变异来判断不同组的均值是否存在显著差异。如果组间变异远大于组内变异，那么我们可以认为不同组之间存在显著差异。

核心公式

式中，

总平方和：，表示所有数据的平均值与总平均值差的平方和。
组间平方和：，表示组间平均值与总平均值差的平方和。
组内平方和：，表示各组内部数据与各自组平均值差的平方和。
-组数，-是第组的样本量，-是第组的平均值，-是所有数据的总平均值。

特点

😊F检验不仅用于方差分析（ANOVA），还用于回归分析中评估模型的整体显著性。
😊可以评估模型中的变量对因变量的整体影响。
😞数据需要满足正态分布的假设，尤其是在样本量较小的情况下。
😞各组数据的方差需要相等，这是F检验的一个核心假设。

案例

比较三种不同肥料对植物生长的影响是否有显著差异。

卡方检验：分类数据的专家

卡方检验是一种统计方法，用于基于样本数据推断总体分布与期望分布是否存在显著差异，或推断两个分类变量是否相关或相互独立。

卡方分布

基本原理

卡方检验的基本原理是比较观测频数与期望频数之间的差异。如果观测频数与期望频数之间的差异足够大，以至于我们认为这不太可能仅仅是由于随机抽样误差造成的，那么我们就有理由拒绝原假设，认为两个变量之间存在关联。

核心公式

式中，是卡方检验统计量，遵循卡方分布；自由度；是二维列联表中数据样本大小；是二维列联表中数据的观测值；是二维列联表中数据的期望值。

特点

😊卡方检验专为分类变量或名义变量设计，不要求数据服从正态分布。
😊可以用于检验一个变量的分布情况，也可以用于检验两个变量的独立性。
😊大多数统计软件都可以进行卡方检验。
😞样本量过小可能导致检验功效不足。
😞卡方检验只能揭示变量之间的关联性，而不能确定因果关系。
😞每个类别的期望频数应大于5，否则检验结果可能不准确。

案例

检验男性和女性选择不同职业的倾向是否独立。

结语

这四种假设检验方法都有其独特的应用场景和限制。在选择适合的检验方法时，需要考虑数据的类型、样本大小、是否满足分布假设以及研究目的。

热门推荐

人类文明的“轴心时代”是什么？

人类文明的“轴心时代”是什么？

掌握法律知识，必背重点内容全解析

掌握法律知识，必背重点内容全解析

人声与杂音：人声与其他杂音的赫兹范围解析

人声与杂音：人声与其他杂音的赫兹范围解析

全球十大电脑品牌笔记本排名及趋势分析（探寻市场领导者及未来发展方向）

全球十大电脑品牌笔记本排名及趋势分析（探寻市场领导者及未来发展方向）

稳健理财，如何选择合适的银行理财产品？

稳健理财，如何选择合适的银行理财产品？

如何使用示波器测量占空比？

如何使用示波器测量占空比？

张志磊公布下一战对手：三选一包括约书亚，另两个也不好打

张志磊公布下一战对手：三选一包括约书亚，另两个也不好打

成都九道堰生态文明建设主题公园：180公顷生态空间里的水文化之旅

成都九道堰生态文明建设主题公园：180公顷生态空间里的水文化之旅

在河南信阳冬季种什么牧草养牛好

在河南信阳冬季种什么牧草养牛好

兄弟宫指亲兄弟吗？紫微斗数中的家族与伴侣关系解析

兄弟宫指亲兄弟吗？紫微斗数中的家族与伴侣关系解析

邢台市十大特产

邢台市十大特产

世界末日前的故事

世界末日前的故事

高速公路安全行车知识|高速驰骋这些安全细节别放过

高速公路安全行车知识|高速驰骋这些安全细节别放过

房产抵押贷款合同要仔细看吗

房产抵押贷款合同要仔细看吗

诗词中的数字“密钥”

诗词中的数字“密钥”

火线零线的字母代表

火线零线的字母代表

当土地再也种不出作物...过量的化肥正在杀死土壤下一步我们如何「救土」？

当土地再也种不出作物...过量的化肥正在杀死土壤下一步我们如何「救土」？

Cell子刊：生酮饮食促进健康衰老，即使在老年时开始也不晚

Cell子刊：生酮饮食促进健康衰老，即使在老年时开始也不晚

缅怀丨纪念邓演达诞辰130周年

缅怀丨纪念邓演达诞辰130周年

石油的物理性质和化学性质

石油的物理性质和化学性质

小白入门：容器化部署详解

小白入门：容器化部署详解

应该通过哪些渠道寻找高质量的实习机会

应该通过哪些渠道寻找高质量的实习机会

如何主动和别人聊天：实用指南

如何主动和别人聊天：实用指南

AI时代下的本格推理新风貌：2024年日系推理小说中译盘点

AI时代下的本格推理新风貌：2024年日系推理小说中译盘点

离婚案件中共同财产分割的调解技巧提升与策略运用

离婚案件中共同财产分割的调解技巧提升与策略运用

长期吃红曲的好处和坏处

长期吃红曲的好处和坏处

氧化镓器件光电探测器应用与测试

氧化镓器件光电探测器应用与测试

香港小学与中学教育实务问答

香港小学与中学教育实务问答

中国令人不可思议的城市之一：锦州

中国令人不可思议的城市之一：锦州

云南移动携手合作伙伴完成5G-A蜂窝无源物联网3.0应用验证

云南移动携手合作伙伴完成5G-A蜂窝无源物联网3.0应用验证

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号