对应分析

对应分析
Correspondence Analysis
    在进行数据分析时,经常要研究两个定性变量(品质变量)之间的相关关系。我们曾经介绍过使用列联表和卡方检验来检验两个品质变量之间相关性的方法,但是该方法存在一定的局限性。卡方检验只能对两个变量之间是否存在相关性进行检验,而无法衡量两个品质型变量各水平之间的内在联系。例如,汽车按产品类型可以分豪华型、商务型、节能型、耐用型,按销售区域可分为华北区、华南区、华中区、华东区、西南区、西北区、东北区。利用卡方检验,只能检验销售地区与对型的偏好之间是否相关,但无法知道不同地区的消费者到底比较偏好哪种车型。
对应分析方法(Correspondence Analysis)又称相应分析、关联分析,是一种多元相依变量统计分析技术,是对两个定性变量(因素)的多种水平之间的对应性进行研究,通过分析由定性变量构成的交互汇总数据来解释变量之间的内在联系。同时,使用这种分析技术还可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。特别是当分类变量的层级数比较大时,对应分析可以将列联表中众多的行和列的关系在低维的空间中表示
出来。而且,变量划分的类别越多,这种方法的优势就越明显。
对应分析以两变量的交叉列联表为研究对象,利用“降维”的方法,通过图形的方式,直观揭示变量不同类别之间的联系,特别适合于多分类定性变量的研究。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
该统计研究技术在市场细分、产品定位、品牌形象以及满意度研究等领域得到了广泛的运用。
对应分析的关键问题是:第一,如何将多个类别点表示在低维空间中,以易于直观观察;第二,如何确定各类别点的坐标,以易于鉴别类别间联系的强弱。
对应分析的基本步骤
第一步,编制交叉列联表并计算概率矩阵P
编制两定性变量的交叉列联表,得到一个的矩阵,即:
   
南京八一肝病医院其中,为行变量的分类数,为列变量的分类数,且要求。将矩阵规格化为的概率矩阵,即:
   
其中,,为各单元频数的总百分比。于是,矩阵表示了一组关于比例的相对数据。
第二步,根据矩阵确定数据点坐标
将P矩阵的行看成个样本,并将这个样本看成维空间中的个数据点,且各数据点的坐标定义为:
   
其中, 。此时,各个数据点的坐标是一个相对数据,它在各单元总百分比的基础上,将在行和列上的分布比例考虑了进来。于是,如果某两个数据点相距较近,则表明行变量的相应两个类别在列变量所有类别上的频数分布差异均不明显;反之,则差异明显。
同理,将P矩阵的列看成个样本,并将这个样本看成维空间中的个数据点,且各数据点的坐标定义为:
   
其中, 。同理,各个数据点的坐标也是一个相对数据。于是,如果某两个数据点相距较近,则表明列变量的相应两个类别在行变量所有类别上的频数分布差异均不明显;反之,则差异明显。
第三步,行变量和列变量的分类降维处理
通过第二步能够将两变量的各个类别看作是多维空间上的点,并通过点与点间距离的测度分析类别间的联系。在变量的类别较多时,数据点所在空间维数必然较高。由于高维空间比较抽象,且高维空间中的数据点很难直观地表示出来,因此最直接的解决方法便是降维。对应分析采用类似因子分析的方式分别对行变量类别和列变量类别实施降维。具体做法是:
对列变量实施分类的降维
(1) 矩阵的列看作个变量,计算个变量的协方差矩阵A。可以证明,第个变量与第个变量的协方差矩阵为:,其中:,并记为
(2) 从协方差矩阵A出发,计算协方差矩阵A的特征根以及对应的特征向量
(3) 根据累计方差贡献率确定最终提取特征根的个数(通常取2),并计算出相应的因子载荷矩阵F,即:
   
            其中,因子载荷是列变量的某分类在某个因子上的载荷,反映了它们之间的相关关系。
对行变量实施分类的降维
(1) 矩阵的行看作个变量,计算个变量的协方差矩阵B。可以证明,第个变量与第个变量的协方差矩阵为:,其中:,并记为
(2) 敦煌学十八讲从协方差矩阵B出发,计算协方差矩阵B的特征根和特征向量。可以证明,协方差矩阵A和协方差矩阵B有相同的非零特征根。如果为矩阵A的相应特征根的特征向量,那么就是矩阵B的相应特征根的特征向量。
(3) 根据累计方差贡献率确定最终提取特征根的个数(通常取2),并计算出相应的因子载荷矩阵G,即:
   
        其中,因子载荷是列变量的某分类在某个因子上的载荷,反映了它们之间的相关关系。
第四步,绘制行列变量分类的对应分布图
由上步计算可知,因子载荷矩阵F和G中的元素,其取值范围是相同的,且元素数量大小的含义也是类似的,因此可以将它们分别看成个二维点和个二维点绘制在一个共同的坐标平面中,形成对应分布图,各点的坐标即为相应的因子载荷。
通过以上基本步骤,实现了对行列变量多类别的降维,并以因子载荷为坐标,将行列变量的多个分类点直观地表示在对应分布图中,实现了定性变量各类别间差异的量化。通过观察对应分布图中各数据点的远近就能判断各类别之间联系的强弱。
总结
方法原理
将数据整理为交叉表,进行变量变换。
分别对行变量和列变量进行因子分析,得到各自的因子分解方式和各类别的评分。
将行、列变量的因子分析结果结合起来观察,研究两变量各级别的关系。
要点
是多维图示分析技术的一种
与因子分析有关(分类资料的因子分析)
通过图形直观展示两个/多个分类变量各类间的关系
研究较多分类变量间关系时较佳
各个变量的类别较多时较佳
结果直观、简单
SPSS中的对应操作
菜单Analyze——Data Reduction——Correspondence Analysis
Define Range
黄金分割率None:表示不再对分类值重新分组
Categories must be equal:表示将某些分别绑定为一类。这样做的目的往往是为了消除列联表中理论频数过少(如小于5)的单元格。
Category is supplemental:表示指定某些分类值不参与分析但会在图形中标示。这样做的目的往往是为了消除列联表中异常值对分析结果的影响。
Model
Dimensions in solution:行列变量分类最终提取的因子个数。该数可以根据累计方差贡献率给定,或指定为2(默认)以便将各分类点表示在二维平面上。
Distance Measure:分类点间距离的定义方式。对定性变量通常选Chi Square。
Normalization Method:数据标准化的方式。当希望重点分析行列变量各类别之间的联系,而非每个变量各类别之间的差异时选Symmetrical项;当希望重点分析行变量各类别之间的差异时选Row principal项;当希望重点分析列变量各类别之间的差异时选Column principal项;当希望同时分析行列变量各类别之间的差异时选Principal项。
该对话框中的选项一般无须改动。
Statistics
Correspondence table:表示输出行列变量的交叉列联表。
Overview of row points:表示输出行变量分类的因子载荷以及方差贡献等。
Overview of column points:表示输出列变量分类的因子载荷以及方差贡献等。
Row profiles:表示输出频数的行百分比。
Column profiles:表示输出频数的列百分比。
Permutations of the correspondence table:指定前n个维度的行列得分表,如果该项被选中,下方的Maximum dimension for permutations被激活,用定指定维度。
Confidence Statistics:选择计算行变量各类别和列变量各类别在各类别的标准差以及相关系数。
Plots
Scatterplots:各种散点图,其中,Biplot为行列变量的对应分布图;Row points为行变
量各类别在第一因子和第二因子上的载荷图;Column points为列变量各类别在第一因子和第二因子上的载荷图。
供电设备Line plots:各种线图,其中,Transformed row categories为行变量各分类的因子载荷图;Transformed column categories为列变量各分类的因子载荷图。
  居民购房数据
Active Margin:边际频数
    Summary
铜牌小车手
Dimension
Singular Value
Inertia
Chi Square
Sig.
Proportion of Inertia
Confidence Singular Value
Accounted for
Cumulative
Standard Deviation
Correlation
2
1
.375
.141
.658
.658
.042
.424
2
.177
.031
.146
.804
.054
3
.161
.026
.121
.925
4
.111远华案内幕
.012
.058
.982
5
.062
.004
.018
1.000
Total
.214
154.016
.000(a)
1.000
1.000
a  50 degrees of freedom
Inertia:惯量(也就是特征根),为每一维到其重心的加权距离的平方。它度量的是行列关系的强度。
Singular Value:奇异值,是惯量的平方根,反映的是行与列各水平在二维图中分量的相关程度,是对行与列进行因子分析产生的新的综合变量的典型相关系数。
Chi Square:卡方统计量(原假设为行列变量相互独立)
Proportion of Inertia:惯量比例,是各维度(公因子)分别解释总惯量的比例及累积百分比,类似于因子分析中公因子解释能力的说明。
卡方统计量为154.016,对应的概率p值接近于0,有理由拒绝原假设,认为行列变量之间存在显著相关性,对应分析是意义的。
从该表可以看出,第一维的惯量比例占了总比例的65.8%,第二维的惯量比例占了总比例的14.6%,二者合计为80.4%,只取前两维进行分析就可以了。

本文发布于:2024-09-23 04:35:59,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/583598.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:变量   分类   分析
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议