问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

主成分分析:从原理到SPSS实战

创作时间:
作者:
@小白创作中心

主成分分析:从原理到SPSS实战

引用
1
来源
1.
https://www.bilibili.com/read/mobile?id=35376228

主成分分析(PCA)是一种常用的多元统计方法,用于将多个指标转化为几个综合指标,从而实现降维和数据简化。本文将详细介绍主成分分析的定义、原理、步骤以及在SPSS软件中的具体应用,并通过一个实际案例来展示其在数据分析中的应用。

主成分分析法的定义

主成分分析法是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。

主成分分析法与因子分析法的区别

  1. 主成分分析的目的是尽量将评价对象分成三六九等,凸显其差异;因子分析的目的是从分项指标提取公共因子,以解释分项指标的相关性。
  2. 主成分分析最重要的成果是形成一个或者多个主成分;因子分析最重要的成果是建立一个能够将分项指标用公共因子来表示的模型。
  3. 针对相同的数据集,不同的人进行主成分分析会得到相同的几个综合性指标;但不同的人进行因子分析可能会得到不同的模型:
  • 这取决于要提炼出几个公共因子;
  • 即使公共因子的定义完全一样,但不同人可能选用不同的数学方法来估计因子载荷。

主成分分析法在数学建模竞赛中的应用场景

  1. 特征提取与降维:在数学建模竞赛中,数据往往是多维的,包含大量特征。使用PCA可以帮助选手提取数据中最重要的特征,降低数据的维度,简化问题,提高建模效率。
  2. 数据可视化:通过PCA将高维数据映射到二维或三维空间,选手可以更直观地观察数据之间的关系,发现数据的规律和趋势,为建模提供更好的理解和指导。
  3. 模型优化:PCA可以帮助选手去除数据中的噪声和冗余信息,提高模型的泛化能力和准确性,从而优化建模过程。
  4. 数据预处理:在数学建模竞赛中,数据预处理是非常重要的一步。PCA可以用于数据的标准化、去除异常值等预处理步骤,提高建模的稳定性和效果。
  5. 模型解释:通过PCA,选手可以解释数据中的主要变化和关联性,从而更好地理解问题背后的机制和因果关系,为建模过程提供指导和启发。

基本原理

如果用如果用x1, x2, ..., xp表示p门课程,c1, c2, ..., cp表示各门课程的权重,那么加权之和就是S=c1x1+c2x2+...+cpxp.
我们希望选择适当的权重能更好地区分学生的成绩。每个学生都对应一个这样的综合成绩,记为s1, s2, ...,sn,n为学生人数。
我们需要的是能找到合适的c1,c2,...,cp,使得s1, s2, ...,sn能尽可能的分散(以便更好区分学生成绩)。当然,必须加上某种限制,否则权值可选择无穷大而没有意义,通常规定c1^2+c2^2+...+cp^2=1.
一个主成分不足以代表原来的p个变量,因此需要寻找第二个乃至第三、第四主成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交。具体确定各个主成分的方法如下:

基本步骤

  1. 将原始数据标准化,以消除量纲的影响。(SPSS自动计算)
  2. 建立变量之间的相关系数矩阵R
  3. 计算相关系数矩阵R的特征值和特征向量
  4. 写出主成分并计算综合得分

案例

题目:
2024年四川省18个市国民经济主要指标有:x1-人均生产总值(元),x2-全社会从业人员年末数(万人),x3-社会消费品零售总额(亿元),x4-固定资产投资(亿元),x5-出口总额(亿美元),x6-财政总收入(亿元),x7-地方财政收入,x8-城乡居民储蓄存款年末余额(亿元),x9-城镇居民人均可支配收入(元),x10-农村居民人均纯收入(元)。
对四川省18座城市的国民经济发展水平进行主成分分析,并计算18个城市国民经济主要指标主成分综合得分。

数据导入:

操作步骤:

  1. SPSS:分析-降维-因子分析-【变量】框中选入x1-x10
  2. 【描述】:系数、KMO和Bartlett的球形检验-继续
  3. 【抽取】:碎石图-继续
  4. 【旋转】:载荷图-继续
  5. 【选项】:按大小排序-继续-确定
  6. 输出结果:相关矩阵、KMO和Bartlett的球形检验、公因子方差、解释的总方差、碎石图、成分矩阵、成分图(载荷图)

注1:
一般来说,由协方差矩阵出发求解主成分所得结果与由相关矩阵出发求解主成分所得结果有很大不同。
对于度量单位不同的指标或取值范围彼此差异非常大的指标,不能直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化(从相关性矩阵出发)。
对于同度量单位或取值范围在同量级的数据还是直接从协方差矩阵求解。
此案例中由于数据度量单位和量级不同,使用相关性矩阵分析。

注2:
主成分分析适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,应用主成分分后不能起到很好的降维作用,所得的各个主成分浓缩原始变量信息的能力相差不大。一般认为,相关系数越接近于1,表明因素之间相关性越强,做主成分分析取得的效果就越理想;当原始数据大部分变量的相关系数都小于0.3时,应用主成分分析取得的效果不理想,不适合做主成分分析。

注3:
KMO和Bartlett的球形检验的目的:检验各因素之间有没有关联程度。
一般情况下KMO值≥0.6
sig值≤0.05(各因素关联程度高,主成分分析结果理想)

注4:
使用主成分分析法后,提取出两个特征值>1的主成分。这两个指标可以代表原本10个指标的91.973%的信息。

注5:
主成分1和主成分2的特征值居于前两位。

注6:

10个因素分别=ax1+bx2

注7:
载荷图-越聚在一起越相关
不是聚类,分完类就结束,下面要进行计算综合得分的步骤以判断哪个城市的国民经济发展较好来给出排名。

  1. 计算
    (1)找出主成分1和主成分2的特征值后开根号。
    (2)将每个变量的主成分系数分别对应除以步骤一得到的值。
    (3)得到两个主成分表达式。
    (4)将标准化后的原始数据代入主成分表达式计算各个样本的主成分得分。
    转换-计算变量-目标变量:y1-数字表达式:y1主成分表达式(y2-数字表达式:y2主成分表达式)
    (5)标准化数据的方法:
    SPSS-分析-描述统计-描述-选中10个指标放入变量-勾选将标准化得分另存为变量-确定
    (6)计算综合得分
    根据主成分占比书写表达式
    得到综合得分

  2. 排序+解释

说明

  1. 主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的,所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分析。
  2. 为使方差达到最大的主成分分析,所以不用转轴(由于统计软件常把主成分分析和因子分析放在一起,后者往往需要转轴,使用时应注意)。
  3. 主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成分予以放弃(这也是SPSS软件的默认值)。
  4. 在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率)就行了。

论文说明

  1. 检验数据是否适合使用主成分分析法;
  2. 提取两个主成分;
  3. 分别得到主成分表达式;
  4. 计算主成分得分和综合得分;
  5. 结论。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号