主成分分析与因子分析的异同

成分分析与主成分分析与因子分析的异同
---------------------------------------------------------------------------------------------------------------------
ABSTRACT
=(X1 ,…,XP 为标准化随机向量(p≥2),R为相关系数矩阵, =(F1 ,…,Fm 为主成分向量, =(Z1 ,…,Zm 为因子向量,m≤p,为方便,因子、因子估计、因子得分用同一记号。
一、    问题的提出
主成分分析与R-型因子分析是多元统计分析中的两个重要方法,同是降维技术,应用范围十分广泛,但通过流行甚广的SPSS软件调用这两种方法的过程命令,有些使用者容易出现混淆性错误,如《统计研究》2003年第12期发表的论文《经济全球化程度的量化研究》(以下称《刘文》)、电子工业出版社2002年9月出版的《SPSS for Windows 统计分析(第二版)》(以下称《卢书》)就是这种情况。是什么原因造成这些错误呢?主成分分析与R-型因子分析到底有何异同呢?
经过对一些论文和一些SPSS软件教科书仔细查证分析、比较我们发现出错的主要原因在于有些使用者和SPSS软件教科书作者对怎样用SPSS软件得出主成分分析与R-型因子分析的结果掌握不全面,对主成分分析与R-型因子分析异同的认识不透彻。
经过仔细查证出现的错误有:
使用主成分分析时 叙述主成分分析概念出错。②主成分F 求解出错,如 = 为单位矩阵, 的意义见表1)。③不到主成分F 的命名依据,对主成分F 命名出错。④某变量Xk 被丢失。⑤对 错误地进行旋转。⑥错误地进行回归求F 苏拿。⑦错误地把因子分析法(含初始因子分析法)当作主成分分析法。
使用因子分析时①将因子分析的思想叙述为主成分分析的思想。②因子Zi 的命名出错,如用因子得分函数对因子Zi进行命名。③某变量Xk 被丢失。④将主成分或因子错误地表示为 的意义见表1)。⑤不知相关系数矩阵特征值 与因子贡献vi的区
别,如综合因子得分函数Z = Zi
中的vi错误地取为特征值
二、主成分分析与R-型因子分析数学模型的异同比较
相同之处:主成分分析与R-型因子分析都是对协差阵的逼近,都是打算降维解释数据集。具体为指标的正向化,指标的标准化(SPSS软件自动执行),通过相关系数矩阵判断变量间的相关性,求相关系数矩阵的特征值和特征向量, 主成分间、因子间线性无关,用累计贡献率( %)、变量不出现丢失确定主成分、因子个数m, 前m个主成分与前m个因子对X的综合贡献相同、是最大化的,命名依据都是主成分、因子与变量的相关系数。
不同之处:方差, 最大化方向,标准正交性, 应用上侧重等不同见表1。
主成分分析与因子分析计量上不同的显著性标志是方差。事实上,VarFi >(<) VarZi =1,即Fi 的取值范围比Zi 的取值范围大(小);通常VarF > VarZ ,即F的取值范围比Z的取值范围大,这些都肯定了主成分分析与因子分析的计量值、评价体系不同
结论:主成分分析与因子分析两种方法方差、最大化方向不同,直接导致主成分值、因子得分值、综合评价值和应用侧重上不同,综合评价应该分开进行, 混淆在一起是不同计量值交替错误。
三、避免出错的方法步骤
1.主成分分析法和SPSS软件应用时一对一的正确步骤:
    指标的正向化。
②指标数据标准化(SPSS软件自动执行).
③指标之间的相关性判定: 用SPSS软件
中表“Correlation Matrix(相关系数矩阵)”判定。
确定主成分个数m:用SPSS软件中表“Total Variance Explained(总方差解释)” 的主成分方差累计贡献率 %、结合表“Component Matrix(初始因子载荷阵)”中变量不出现丢失确定主成分个数m。 
⑤主成分Fi表达式(这是SPSS软件及其教科书中没完善的地方):将SPSS软件中表“Component Matrix”中的第i列向量除以第i个特征根的开根后就得到第i个主成分Fi的变量系数向量(在“transform -->compute”中进行计算),由此写出主成分
表1                        主成分分析与R-型因子分析的不同
区别项目
主成分分析数学模型:
R-型因子分析数学模型:
表达式与系数矩阵
=( ) =( …, ), , 是相应的特征值和单位特征向量, ≥…≥ ≥ 0。
+ ( 为特殊因子),
因子载荷矩阵 m = ( ) = ,
=( …,
为初始因子载荷矩阵* 同左)。
因变量方差最大化   
Fi依次达到信息贡献(方差)最大化,
Var Fi= 。             
Zi没有达到方差最大化,Var Zi=1。
矩阵方差最大化旋转
无, 旋转后就不是主成分了,因为
Var Fi ≠λi
有, 方差最大正交旋转矩阵, m达到方差最大化。
因变量对X
的贡献
特征值
vi= vi ,通常 > v1
相关系数
=
=
命名依据
( ,…, )式中系数绝对值大的对应变量对Fj命名,有时命名清晰性低。
的第j列绝对值大的对应变量归为Zj一类并由此对Zj命名,命名清晰性高(精细)。
回归过程
无。
有,因子得分函数
标准正交性
是, (判据之一)。
非,
综合评价函数及方差
F = Fi
Var F = (
…+ , 通常VarF> VarZ
即F的取值范围通常比Z大。
Z = Zi, vi (判据之一) Var Z = ( (旋转后因子贡献从 变为vi因此权数应取为vi/ ),
v1 + v2 +…+vm
应用上侧重
信息贡献影响力综合评价。
成因清晰性的综合评价。
*取初始因子的方法为主成分法
Fi表达式。用 =中宣部 检验之。
⑥主成分Fi命名:用SPSS软件中表“Component Matrix”中的第i列中系数绝对值大的对应变量对Fi命名(有时命名清晰性低)。
⑦主成分与综合主成分(评价)值:综合
主成分(评价)公式 F = Fi (在“transform -->compute”中进行计算),
  在SPSS软件中表“Total Variance Explained”下“Initial Eigrnvalues(主成分方差)”栏的“% of Variance(方差率)”中。
Var F = =(
⑧检验:综合主成分(评价)值用实际结
果、经验与原始数据做聚类分析进行检验(对有争议的结果,可用原始数据做判别分析解决争议)。
⑨综合实证分析。
2. 因子分析法和SPSS软件应用时一对一的正确步骤:
①∽③步骤同主成分分析步骤。
④确定因子个数m:用SPSS软件中表“Total Variance Explained”特征值累计贡献率 %、结合表“Rotated Component Matrix(旋转后因子载荷阵)”中变量不出现丢失确定因子个数m。
⑤求因子载荷矩阵 : SPSS软件中表“Rotated Component Matrix”。
⑥因子Zi的命名:将SPSS软件中表“Rotated Component Matrix”因子载荷矩阵 的第i列绝对值大的对应变量归为Zi一类, 并由此对Zi命名(命名清晰性高)。
⑦求因子得分函数Zi表达式:Zi=西安管材研究所 ,这里bi是SPSS软件中表“Component Score Coefficient Matrix(因子得分系数矩阵)”的第i列向量。
⑧求因子得分值与综合因子得分(评价)值:综合因子得分(评价)公式
Z= Zi
(在“transform -->compute”中进行计算),
在SPSS软件中表“Total Variance Explained”下“Rotation Sums of Squared Loadings(旋转后因子对X的方差)”栏的“% of
Variance”中。用vi= 检验, 通常 >
职工信息管理系统 v1 ,Var Z = (
⑨检验:综合评价值用实际结果、经验与
原始数据做聚类分析进行检验(对有争议的结果,可用原始数据做判别分析解决争议)。
⑩综合实证分析。
以上看出:使用SPSS软件时,主成分分析与因子分析是从初始因子载荷阵处分开的,表现为主成分分析是通过初始因子载荷阵列向量除相应特征值开根得到主成分系数距阵、主成分及其值等,而因子分析是通过初始因子载荷阵进行旋转得到因子载荷阵、再通过回归得到因子得分及其值等。
四、《刘文》、《卢书》正确的
主成分分析结果
经过仔细验算,《刘文》、《卢书》是将初始因子分析结果当成了主成分分析结果.
初始因子分析是因子分析中方差最大正交旋转矩阵 ,即无旋转的因子分析。表1中主成分分析与初始因子分析仍有方差、表达式与系数矩阵、回归过程、标准正交性、综合评价函数及方差5项的不同,故主成分值与初始因子得分值仍然计量不同,不能混淆。
现按主成分分析法和SPSS软件应用时一对一的正确步骤给出《刘文》的主成分分析结果,《卢书》的主成分分析结果读者同理自行给出。
笔者根据《刘文》给出的数据用SPSS软件Analyze菜单Factor过程进行主成分分析(通过相关系数矩阵判断变量间的相关性略),得出相关系数矩阵的特征根及主成分贡献率见表2,特征向量矩阵见表3。由于前三个主成分包含了全部的指标所具有的信息且累计方差贡献率已达到86.702%,且无变量丢失,故取3个主成分就够了,但为了与《刘文》进行比较,这里仍取4个主成分。
表2            方差解释
Total Variance Explained
 
Initial Eigenvalues
Extraction Sums of Squared Loadings
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
1
6.049
40.327
40.327
6.049
40.327
40.327
2
5.813
38.754
79.081
5.813
38.754
79.081
3
1.143
7.621
86.702
1.143
7.621
86.702
4
0.876
5.840
92.542
0.876
5.840
92.542
Extraction Method: Principal Component Analysis.
(第4以后的特征值省略)
主成分命名:表3中每一个载荷量表示主成分与对应变量的相关系数,且系数符号与题意相符,结合贡献率与正负相关性作用得出, X2-货物贸易占货物GDP的比重、 X7-外国直接投资占国内投资总额的比重、 X11-对外贸易依存度、X12-货物和服务进出口总额占GDP的比重、X14-对外金融
表3 Component Matrix
 
Component
1
2
3
4
x4
.895
-.333
-.182
.132
x13
.863
-.191
-.297
.169
湖水净化
x6
.826
-.123
-.281
.421
x14
.728
-.632
.146
-.101
x1
.407
.805
.269
-.278
x10
.552
.766
.196
-.165
x5
.614
.763
.028
-.055
x15
.579
.760
.005
-.129
x2
.596
-.727
.208
-.235
x8
.636
.703
.041
.190
x9
.619
.703
.008
.147
x11
.654
-.691
.171
-.237
x12
.666
-.685
.166
-.227
x7
.274
-.627
.183
.285
x3
-.147
.016
.822
.465
初始因子载荷阵)
资产负债总额占GDP的比重的综合影响是大至持平的(见后F表达式X2、 X7、X11、X12、X14的系数),因此,第一主成分F1与X4、X6、X8、X13十分显著正相关,所以我们可以称之为本国发生的全部收益占GNP的比重、对外直接投资和接受外国直接投资总额占GDP的比重、本国直接投资额占全球直接投资额的比重、国际金融总资本流量占GDP的比重综合指标;第二主成分F2与X1、X5、X8、X9、X10、X15十分显著正相关,所以我们可以称之为GDP占全球GDP的比重、本国发生的全部收益占世界发生的全部收益的比重、本国直接投资额占全球直接投资额的比重、跨国并购额占全球跨国并购额的比重、国际经济外向度、国际金融总资本流量占全球国际总资本流量的比重综合指标;第三主成分F3仅与X3十分显著正相关,所以我们可以称之为外国分支机构比重指标;而第四主成分与变量没有明显的相关性,因此不对其进行命名。从这里也可以看出前三个主成分包含了全部的指标所具有的信息。
四个主成分的表达式还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,为了得到四个主成分的表达式,以便求主成分值,还需进一步操作:将前四个因子载荷矩阵输入到数据编辑窗口(为变量B1、B2、B3、B4),然后利用“Transformàcompute”,在对话框中输入“A1=B1/SQR(6.049)”,即可得到主成分系数向量A1。同理,可得到A2、A3、A4。于是,四个
主成分表达式如下(ZXi是Xi的标准化数据):
F1=0.1653ZX1+0.2424ZX2-0.0596ZX3+0.364ZX4+0.2495ZX5+0.3357ZX6+0.1113ZX7+0.2584ZX8+0.2516ZX9+0.2244ZX10+0.2659ZX11+0.2707ZX12+0.3507ZX13+0.2961ZX14+0.2355ZX15
F2=0.3341ZX1-0.3016ZX2+0.0064ZX3-0.138ZX4+0.3163ZX5-0.0512ZX6-0.2602ZX7+0.29192ZX8+0.2914ZX9+0.3176ZX10-0.2865ZX11-0.284ZX12F4=-0.297ZX1-0.251ZX2+0.4973ZX3+0.1406ZX4-0.0593ZX5+0.4498ZX6+0.3046ZX7+0.2032ZX8+0.1569ZX9-0.1766ZX10-0.2528ZX11-0.2421ZX12新福林+0.1805ZX13-0.1084ZX14-0.1376ZX15
应用这一线性组合计算出各主成分值,最后利用综合主成分函数( = =15):
F=0.40327F1+0.38754F2+0.07621F3+0.0584F4
=0.1979zx1-0.0189zx2+0.066zx3+0.0885zx4+
0.2218zx5+0.1218zx6-0.0251zx7+0.2321zx8+
0.2241zx9+0.2172zx10-0.0064zx11-0.0032zx12+0.1002zx13+0.022zx14+0.2095zx15
可以求得各个国家世界经济全球化程度的综合主成分值(见表4)。]
表4:      主成分、综合主成分值
国家
F1
排名
F2
排名
F3
排名
F4
排名
F
排名
美国
3.29
3
6.07
1
1.46
2
-0.80
14
3.74
1
英国
4.45
2
0.98
4
-1.76
16
2.17
1
2.17
2
德国
1.40
4
1.34
3
-0.25
5
-0.23
8
1.05
3
日本
0.44
6
1.85
2
-0.25
6
-1.23
16
0.81
4
法国
0.87
5
0.46
5
-0.52
14
0.45
4
0.52
5
新加坡
5.27
1
-6.26
16
1.18
3
-0.95
15
-0.27
6
意大利
-0.61
8
0.11
6
-0.54
15
-0.65
13
-0.29
7
加拿大
-0.43
7
-0.47
12
-0.31
11
0.00
7
-0.38
8
中国
-2.18
14
0.05
7
3.00
1
1.83
2
-0.52
9
巴西
-1.91
13
-0.05
8
-0.43
12
0.14
6
-0.81
10
澳大利亚
-1.36
10
-0.92
14
-0.30
10
0.22
5
-0.91
11
韩国
-1.69
12
-0.45
11
-0.27
7
-0.61
12
-0.92
12
墨西哥
-1.67
11
-0.68
13
0.02
4
-0.30
9
-0.95
13
新西兰
-0.98
9
-1.73
15
-0.28
8
0.73
3
-1.05
14
俄罗斯
-2.34
15
-0.19
10
-0.30
9
-0.36
10
-1.06
15
印度
-2.56
16
-0.10
9
-0.46
13
-0.39
11
-1.13
16
五、主成分分析与(初始)因子分析的实证比较
《刘文》表2的结果为初始因子分析结果(经仔细验算确认),现将其与主成分分析结果表4进行比较。
主成分分析与初始因子分析的命名依据
都是初始因子载荷矩阵表3的相应列,《刘文》对初始因子分析的命名准确性不够,致使相应经济分析有些偏离实际,如《刘文》中“中国参与经济全球化程度总体水平很低,但对生产与贸易全球化依存度及投资全球化依存度很高”并不显现。实际结果表4中为:在华外国分支机构占世界全部外国分支机构的比重很高,表明中国参与经济全球化进程正受到世界各国的高度关注。
表4中主成分Fi 、F的值与《刘文》表2中因子fi(=Zi) 、F(=Z)的值全部不等,这是二者函数方差不同造成的,这里VarF=1.87, VarZ=0.32,VarF > VarZ
由表4与《刘文》的表2对比可知:部分国家参与经济全球化程度综合主成分值排名中,中国的排名相差较大,在本文表4中,中国排第9,而在《刘文》中国排第6;新加坡、意大利、加拿大、韩国在本文中表4分别排第6、7、8、12,而在《刘文》中分别排第7、8、9、13;墨西哥在本文中排第13,而在《刘文》中排第12。
通过表4可将综合主成分结果在等距d=
(3.74+1.13)/4=1.2175下可分为四类国家。
第一类国家:综合主成分值取值范围为 [2.523,3.74]。
第二类国家:综合主成分值取值范围为 (1.305,2.523]。
第三类国家:综合主成分值取值范围为 (0.086,1.305]。
第四类国家:综合主成分值取值范围为 (-1.13,0.086)。
通过样品的综合主成分值取值可以确定样品的类别,如美国的综合主成分值为3.74是第一类国家,英国的综合主成分值为2.17是第二类国家;但在《刘文》表2中,美国的综合值为1.57,在此只能划分为第二类国家,英国的综合值为0.9,在此只能划分为第三类国家。如果将表4中美国、英国、中国、巴西、澳大利亚、韩国、墨西哥、新西兰、俄罗斯、印度的综合主成分值在《刘文》表2中来确定样品的类别,结果是这些国家不在《刘文》表2的取值范围[-0.49,1.57]内。即不同计量值会带来混乱。
以上可看出:主成分分析与因子分析的实证结果是有差异的, 计量值全部不同, 不能混用。
本文经有关同仁提过建议, 特此感谢。

本文发布于:2024-09-22 18:20:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/583603.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:成分   因子   综合   分析
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议