问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

对应分析:把数据关系可视化

创作时间:
作者:
@小白创作中心

对应分析:把数据关系可视化

引用
1
来源
1.
https://cxhub.cn/post/0968feCYD41wHy34

对应分析是一种探索性多元统计分析方法,主要用于分析定类变量之间的关系。它通过将行、列变量的交叉表变换为一张散点图,直观地展示变量不同类别间的联系。本文将详细介绍对应分析的概念、分类、应用场景、前提条件、局限性以及具体操作步骤。

概念描述

抽象描述

对应分析法(同质性分析或数量化方法)是一种探索性多元统计分析方法,主要用于分析定类变量之间的关系。它通过二维平面展现几组看不出联系的数据,实现数据关系的可视化。

具象描述

对应分析将行、列变量的交叉表变换为一张散点图,把表格中包含的关联信息用散点空间位置关系的形式表现出来。具体来说,就是将交叉表里面的频数数据作变换以后,利用散点图方式,直观地解释变量不同类别间的联系。

另外一种说法就是将交叉表里面的频数数据作变换以后,利用散点图方式,直观地解释变量不同类别间的联系。

(无兴趣可忽略)
对应分析的原理在于首先将数据降维,然后将具体数值点投影到维度空间中;维度只是个数学上的概念,并无实际名字意义,通俗理解为将‘关系’浓缩成‘几个维度’,比如将‘差异’关系浓缩成‘2个维度’。绝大多数情况下,对应分析只需要建立2个维度,因为这样只需要投影出一个对应图便于实际分析;如果维度个数超过2个,那么则会出现很多个对应图,这样会加大实际分析的难度。

分类类别

  • 简单对应分析(CA):两个分类变量间的联系
  • 多重对应分析(MCA):多个分类变量间的联系
  • 均值对应分析:对应分析家族的“异类”

多重对应分析的原理和简单对应分析略有不同,当多重对应分析只分析2个变量时,得到的结果可能和简单对应分析不完全一样,但趋势是一致的。

应用场景

应用场景非常广泛,以市场研究为例:品牌形象的测定&消费者市场细分研究是较为常见的研究方向。

前提条件

  1. 数据类型:基本以无序分类数据为主。
  2. 假设检验:数据之间有着差异关系(两两之间具有差异性)是前置条件,变量纳入前先做卡方检验,只有具有相关性,才有必要作对应分析。具体P值的界值为多少才合适并无统一的标准,一般如果P值大于0.2,则没必要进行对应分析;如果在P值在0.05~0.2之间,可以考虑进行对应分析,但对结果的解释仍需要慎重。
  3. 样本量:对极端值敏感,分析时有必要去除频数过少的单元格;对于小样本不推荐使用。
  4. 无量纲化:各变量应具有相同的量纲(或者均无量纲)。
  5. 控制变量量:变量不要太多,因为只用两维图解释信息损失太多;多重对应分析的变量数越多,越容易出错,不建议分析太多变量,经验来说一般最多3-4组变量为上限(解释不通时/和TGI有矛盾时减少变量)。
  6. 谨慎放入变量:需要针对数据含义和业务知识对变量纳入可行性进行初步判断。

局限性

  1. 不能进行假设检验:其本质仍然只是一种描述方法,无法在统计上对变量间联系加以确认。因此在结果解释上需要谨慎,正式分析之前一定要采用卡方检验等方法进行预分析,筛除实际上无关的变量。将得到的图形结果和原始数据反复对照,以确保结论的正确性。
  2. 不能自动判断最佳维度数:需要研究者对提取的维度数量进行制定。一般提取二维或三维最为常见,能够较好的平衡信息量和易读性,如果解释困难,则需要考虑加入新维度来完善结果解释。
  3. 存在数据信息丢失:对应分析输出的图形通常是二维的,这是一种降维的方法,将原始的高维数据按一定规则投影到二维图形上。而投影可能引起部分信息的丢失。

SPSS操作

简单对应分析

  1. 数据输入及预处理
  • step1:设置为数值型名义变量
  • step2:以频数变量进行加权
  1. 选取分析方法
  • 选择“分析”-“降维”-“对应分析”,定义行/列变量及其取值范围,单击“更新”按钮。
  • 一般默认采取2维,距离测量默认勾选【卡方】。
  • 【卡方】:分类变量的对应分析
  • 【欧氏】:数值变量的对应分析
  1. 常规参数设置
  • 默认勾选【对应表】【行点概述】【列点概述】
  • 有兴趣可考虑全部都选,多试试
  1. 对应分析图参数设置
  • 点击【图】按钮,默认勾选【双标图】

结果分析

  1. 【对应表】
  • 【行】和【列】在不同组合下的实际样本数。
  1. 【摘要】
  • 【维数】:其个数等于变量的最小分类数减1,往往前2~3个维度就已携带绝大多数信息;
  • 【惯量占比】:各个维度所能解释的两个变量关系的百分比,前两个维度就累计解释了100%的信息。通常情况下累积解释率达80%以上即说明模型非常好
  • 【总计-显著性】:卡方检验结果,显著性小于0.05,说明XXX和XXXX之间存在相关关系,这决定能否继续进行对应分析。
  • 【奇异值和惯量】:奇异值的平方就是惯量;惯量:各维度的结果能够解释两个变量之间联系的程度。
  • 【惯量比例(方差解释比例)】:每个维度的惯量占惯量总和的比例,体现每个维度携带的信息量。
  1. 【概要】
  • 活动边际:表示该行的总计百分比
  • 数量:表示该行个案数目占总个案数目的百分比
  • 活动边际:表示该列的总计百分比
  • 数量:表示该列个案数目占总个案数目的百分比
  1. 【总览】
  • 【点对维的惯量】:分类变量中每个类别对维度的贡献,本例中第一维数主要被B/D/E所携带,也就是说这3个类别在第一维数上的区分比较好。
  • 【维对点的惯量】:各类别的信息在各维数上的分布比例,如低收入的信息在第一个维度中占99.9%,第二个维度只有0.1%。
  • 【数量】:各种类别的构成比,如偏好A的人占总数的构成比例是0.125;
  • 【维得分】:行变量和列变量中每个类别在新产生两个维度中的坐标值。通过这两个表格的数据结果就能够做出对应分析散点图
  • 【惯量】:总惯量(0.794)在行变量中的分解情况,数值越大表示该类别对惯量的贡献越大。代表对应维度在解释原始数据信息中的重要性
  • 【总计】:各维数的信息比例之和,1表示某一类别在前两维中提取的100%的信息,效果最好。

  1. 【对应分析图】

如何看图

  1. 离原点越远,意味着该点对于‘关系幅度’的表达越强,即说明该点越能体现出‘关系’。
  2. 点与点之间挨着越近(远),意味着它们之间关联关系越强(弱)。
  3. 位于相同象限的不同变量的分类点之间的关联较强。
  4. 靠近原点的散点通常没有倾向性,不做解释。没有差异并不代表不重要,只是没有差异
  5. 每个维度可能代表了一种特征:实际上是提取出的主成分,但由于分类变量的信息较少,可能找不到合理的解释。eg:B/E和低收入,A/C/F和高收入,D和中收入存在着比较强的联系。从品牌角度思考,越远离中心的品牌,消费者很容易识别,说明品牌特征越明显,越靠近中心的品牌,消费者不易识别。

多重对应分析

简单对应分析中,模型会自动给出卡方检验,但多重对应分析需另外处理

  1. 根据经验和卡方检验,筛选合适的变量进入模型。卡方检验此处不做详细说明,需证明两两具有相关性
  2. 频数加权。此处同上
  3. 【分析】-【降维】-【最优标度】
  • step1:把要分析的三个变量都放在对话框里。解释维度默认是2。
  • step2:把三个变量都放进联合类别图。

结果分析

  1. 【模型摘要】
  • 给出了各个维度上的特征值、惯量和解释方差百分比的信息,如第一维度和第二维度上分别可以解释数据变异的83%和79%
  • 这张图可不看:这个模型是经过最优标度变换之后,再把信息投射在两个维度上,由于变换中损失了多少信息不知道,所以再看模型的两个维度携带了多少信息就没有意义了。

  1. 【区分测量】
  • 三个变量,在两个维度上投射的信息都很多(线段越长,投射信息越多)
  • 假如有的变量在两个维度上携带的信息都很少,即线段很短,可考虑不放入模型。
  • 变量若靠近维2或者维1,意味着不同变量在维度上有高的区分度和分散度。
  1. 【联合图】
  • 分析同上
  1. 偏好排序
  • 拓展部分,一般用不上
  • 从中心向任意点连线-向量,往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好。
  • 偏好E品牌的依次为中收入、高收入、低收入。
  1. 属性相似性
  • 向量夹角, 从余弦定理的角度看相似性。
  • 夹角是锐角的话表示两个品牌具有相似性,锐角越小越相似;如果向量是钝角&平角,即为完全不同的品牌。
  1. 产品定位:理想点与反理想点模型
  • 以E为定位点,以它的利益为半径画圆:越先圈进来的人就是最喜欢这个品牌的消费群,越先圈进来的品牌越可能是竞争品牌,其他同理;

均值对应分析

根据对应分析的原理进行扩展应用,对应分析家族中的“异类”。与简单对应分析一样,都只涉及两个分类变量。

区别:均值对应分析基于定距变量,简单对应分析基于定类变量

  1. 数据转换
  • 需要将数据转换成表示行、列分类变量相关关系强度的数据
  • 与简单对应分析不同,由于单元格内的数据不是频数,因此不能使用标准化残差来表示相关强度,而只能使用距离来表示相关强度。
  • 举例说明转换过程:
  • step1:单元格内的数字代表品牌销售数量
  • step2:通过标准化残差公式,以第一个单元格的数据为例说明转换过程:
  • step3:通过上述操作就顺利把频数转换为距离(单元格内的数据为连续型数据)

均值对应分析由于涉及数据转换和标准化方式选择,不同的数据标准化方式,最终作出的对应分析图也有很大的差别,应该结合原始数据和对应分析图来对分析结果的优劣做出综合评价。

  1. 实践操作
  • 以下为原始数据汇总表,与常规的对应分析数据类型不一致
  • (数据纯属杜撰)
  • 采用Syntax编程语言,将数据读入软件,这种方法简单快捷
  • step1:【文件】-【新建】-【语法】,输入下面的语句,然后点击运行按钮。
  • 也可以借用简单对应分析的操作步骤,复制并修改代码。即可省去自己手动编写的功夫。
  1. 结果分析
  • 前两个维度总共解释了原始数据信息量的98.2%,因此使用前两个维度就能展示分类变量的作用结果。通常情况下累积解释率达80%以上即说明模型非常好
  • 如果发现前两个维度信息量太少,可以考虑选择3个(根据数据情况来),修改“解中的维数”,重新分析报告。

解读:

  1. 通车里程和道路长度基本相近,水处理量则处在另一象限;
  2. 城市2-9和城市11-20基本分开为两类城市,可以初步判断两类城市特点不同;
  3. 城市1与其他城市明显有差异,返回原始数据看到城市1在三个维度上都是TOP1的数值;

参考文献

  1. 李沛良 《社会研究的统计应用》
  2. 陈哲 《活用数据》
  3. 郑宗成,陈进《市场研究实务》
  4. 张文彤《SPSS统计分析高级教程》
  5. 王怀亮《R软件在对应分析中应用研究》

本文原文来自cxhub.cn

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号