方差分析【单/双因素方差分析】
创作时间:
作者:
@小白创作中心
方差分析【单/双因素方差分析】
引用
CSDN
1.
https://m.blog.csdn.net/qq_49288362/article/details/139887473
方差分析是一种统计方法,用于比较不同分组之间均值是否存在显著差异。它可以分为单因素方差分析和双因素方差分析。
一、单因素方差分析(Analysis of Variance)
- 方差分析在做什么?
- 比较不同分组(通常组别大于等于3)之间均值是否存在显著差异,如果组别是两组,直接使用t检验就可以;
- n个分类,它们的某一些特征值的平均值,是否有显著区别;
- 分类:因素(factor or independent variable)。是分类型变量,且类别大于3;
- n个分类,它们的某一特征值的平均值,是否有显著区别;
- 特征值(dependent variable):连续型变量;
- 方差分析的思路:
- 数据整体波动(sum of squares total):组内波动与组间波动
- 组内波动:某一分组内,个体特征值的离散程度
- Sum of Squares Within,SSW
- 例子:协和医学院学生考试成绩的离散程度
- 组间波动:不同分组之间,分组特征值的平均值的离散程度
- Sum of Squares Between,SSB
- 例子:协和医学院、北大医学院、哈弗医学院,学生考试成绩均值的离散程度v
结论:
- 组间波动占整体越大,组内波动占整体越小,各组均值相等的可能性越小
- 组内波动占整体越大,组间波动占整体越小,各组均值相等的可能性越大
- 方差分析中的计算:
- SST:
- SSW:
- SSB
- 整体波动 = 组内波动 + 组间波动
- 构造F统计量:
- 自由度
- 如果F统计量很大(例如:F统计量对应的P值小于0.05),意味着SSB显著的大于SSW,有理由认为各分组之间的平均值存在显著差异,拒绝原假设;
- 如果F统计量很小(例如:F统计量对应的P值大于0.05),意味着SSB不显著的大于SSW,有理由认为各分组之间的平均值不存在显著差别,接受原假设;
二、双因素方差分析(Two-way ANOVA)
- 双因素方差分析在做什么?
- 根据两个因素进行分组时,不同分组之间特征值的平均值是否相等。
- 特征值:连续变量(例如:播放量、成绩)
- 因素:分类型变量(例如:视频分区、学历、院校、性别)
- 分类组别不一定大于3
- 双因素方差探讨三个问题:
- 问题一:根据第一个因素进行分组时,不同分组之间的特征均值是否相等
- 原假设:第一个因素对特征值没有显著影响
- 备择假设:第一个因素对特征值均值存在显著影响
- 问题二:根据第二个因素进行分组时,不同分组之间的特征均值是否相等
- 原假设:第一个因素对特征值没有显著影响
- 备择假设:第一个因素对特征值均值存在显著影响
- 问题三:第一个因素和第二个因素的交互效应,是否对不同分组之间的特征值均值产生影响
- 原假设:交换效应对特征值均值没有显著影响
- 备择假设:交互效应对特征值均值存在显著影响
- 双因素方差分析的检验思路
- 第一步:计算出因素一波动、因素波动、交互项波动、误差波动
- 第二步:分别将因素一波动、因素二波动、交互项波动、与误差项波动进行比较
- 因素一波动 v.s. 误差项波动进行比较
- 因素二波动 v.s. 误差项波动进行比较
- 交互项波动 v.s. 误差项波动进行比较
- 计算五个波动
- 数据整体波动(sum of squares total)
- 第一个因素所带来的波动(sum of squares first factor)
- 第二个因素所带来的波动(sum of squares secon factor)
- 两个因素交互项所带来的波动(sum of squares interaction)
- 误差项所带来的波动(sum of squares error)
- 例子:
- 双因素方差分析中的计算方法
- 数据整体波动:每个个体的数值减去总体的平均值的平方和
- 第一个因素所带来的波动
- 认为的构造一组数据,使得它只有由性别引起的波动,而没有由其他因素引起的波动。
- 第二个因素所带来的波动
- 人为的构造一组数据,使得它只有由医学院引起的波动而没有由其他因素引起的波动;
- 交互项所带来的波动
- 交互项所带来的波动 = 模型波动 - 因素一波动 - 因素二波动
- 模型波动
- 误差项所带来的波动
- 模型所不能解释的波动,个体取值减去模型所能解释的取值
- 模型所能解释的取值:如果某个个体,只受性别和学校影响,不受其他因素的影响,个体取值应该为所在性别和学校的平均值
- 构造F统计量
- 根据F统计量,查找对应的p值,如果小于0.05,则表明因素显著的影响特征值,如果大于0.05或者大于提前设置的临界值,则表明因素对特征值取值没有显著的影响。
热门推荐
DNA复制过程动画
春季养生正当时!老人日必吃‘长寿面’,搭配3样食材,健康一整年
从绿色运输到国际合作,中国可持续交通成果惠及世界
小型机箱大作为:深入解析 ITX 机箱选购与装机秘籍
铸造工艺必备知识:型芯的种类、设计要点全解析
患有腰突的神经痛应该如何得以缓解
运放的虚短虚断,正反馈和负反馈
DIY电脑装机必看:从硬件选择到解决常见问题详解
计算机提示系统繁忙的解决策略
父母离婚对孩子当兵有影响吗
从广州到海南岛的飞行时间及旅行攻略大全
吉他是怎样起源的
在家轻松制作口感绝佳的饺子:从选材到烹饪技巧全攻略
在职证明和工作证明有何区别
培养独立思考能力的18条实用建议
760万竞拍的土地不能建房,划拨土地有哪些风险?
防水密封胶正确的施工工艺和步骤
汽修店老板不会告诉你的变速箱油选择秘诀
汽车全方位保养指南:从变速箱到日常维护
糖尿病患者在家怎样监测血糖?
汽车转向系统的构造与原理(图解)
青花八仙贺寿纹大碗:一件精美的古代瓷器
百合栽培对环境的要求
小狗吃骨头卡住了喉咙怎么办
多地交管部门优化违停处理方式:先短信提醒再处罚,车主点赞
最大心率的谬论,打破不合理。
流动河水中的钓鱼技巧:从钓位到钓技的全面指南
洗衣机程序混乱怎么办?7个实用解决方案帮你轻松应对
按照消费者收入进行细分:探究不同收入群体的消费行为与需求
燕麦片和燕麦麸皮有什么区别?哪个更有利于减肥?