-
因子分析作业:
全国30个省市的8项经济指标如下:
要求:先对数据做标准化处理,然后基于标准化数据进行以下操作 1、给出原始变量的相关系数矩阵;
2、用主成分法求公因子,公因子的提取按照默认提取(即特征值大于1),给出公因子的方差贡献度表; 3、给出共同度表,并进行解释;
4、给出因子载荷矩阵,据之分析提取的公因子的实际意义。如果不好解释,请用因子旋转(采用正交旋转中最大方差法)给出旋转后的因子载荷矩阵,然后分析旋转之后的公因子,要求给各个公因子赋予实际含义; 5、先利用提取的每个公因子分别对各省市进行排名并作简单分析。最后构造一个综合因子,计算各省市的综合因子的分值,并进行排序并作简单分析。
1、 输入数据,依次点选分析?描述统计?描述,将变量x1到x8选入右边变量下面,点选“将标准化得分另存为变量”,点确定即可的标准化的数据。
依次点选分析?降维?因子分析,打开因子分析窗口,将标准化的8个变量选入右边变量下面,
总结
-
点选描述?相关矩阵下选中系数及KMO和Bartlett的检验,点继续,确定,就可得出8个变量的相关系数矩阵如下图。
由表中数据可以看出大部分数据的绝对值都在0.3以上,说明变量间有较强的相关性。
KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。 Bartlett 的球形度检验 近似卡方
df Sig.
.621 231.420 28 .000 由上图看出,sig.值为0,所以拒绝相关系数为0(变量相互独立)的原假设,即说明变量间存在相关性。
2、依次点选在因子分析窗口点选抽取?方法:主成分;分析:相关性矩阵;输出:未旋转的因子解,碎石图;抽取:基于特征值(特征值大于1);继续,确定,输出结果如下3个图。
解释的总方差 初始特征值 成份 1 2 3 4 5 6 7 8 合计 3.748 2.198 1.222 .403 .212 .135 .067 .015 方差的 % 46.847 27.474 15.278 5.036 2.652 1.690 .840 .183 累积 % 46.847 74.321 89.599 94.635 97.287 98.977 99.817 100.000 合计 3.748 2.198 1.222 提取平方和载入 方差的 % 46.847 27.474 15.278 累积 % 46.847 74.321 89.599 提取方法:主成份分析。 总结
-
上表中第一列为特征值(主成分的方差),第二列为各个主成分的贡献率,第三列为累积贡献率,由上表看出前3个主成分的累计贡献率就达到了89.599%>85%,所以选取主成分个数为3。选y1为第一主成分,y2为第二主成分,y3为第三主成分。且这三个主成分的方差和占全部方差的89.599%,即基本上保留了原来指标的信息。这样由原来的8个指标变为了3个指标。
由上图看出,成分数为3时,特征值的变化曲线趋于平缓,所以由碎石图也可大致确定出主成分个数为3。与按累计贡献率确定的主成分个数是一致的。
3、共同度结果如下:
公因子方差
Zscore: 国内生产 Zscore: 居民消费 Zscore: 固定资产 Zscore: 职工工资 Zscore: 货物周转 Zscore: 消费价格 Zscore: 商品零售 Zscore: 工业产值
初始 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 提取
.945 .800 .902 .873 .858 .957 .929 .904 提取方法:主成份分析。
上表给出了该次分析从每个原始变量中提取的信息。由上表数据可以看出,主成分包含了各个原始变量的80%以上的信息。
总结
-
4、在因子分析窗口,旋转?输出:载荷阵。输出结果如下:
成份矩阵a Zscore: 国内生产 Zscore: 居民消费 Zscore: 固定资产 Zscore: 职工工资 Zscore: 货物周转 Zscore: 消费价格 Zscore: 商品零售 Zscore: 工业产值 提取方法 :主成分分析法。 a. 已提取了 3 个成份。 1 .885 .606 .912 .467 .486 -.500 -.619 .823 成份 2 .384 -.597 .162 -.722 .737 .257 .596 .427 3 .119 .276 .211 .365 -.280 .801 .437 .208 由上表数据第一列表明:第一主成分与各个变量之间的相关性;第二列表明:第二主成分与各个变量之间的相关性;第三列表明:第三主成分与各个变量之间的相关性。可以得出:x1x3x8主要由第一主成分解释,x4x5主要由第二主成分解释,x6主要由第三主成分解释。但是x2是由第一主成分还是第二主成分解释不好确定,x7是由三个主成分中的哪个解释也不好确定。 下面作因子旋转后的因子载荷阵。
在因子分析窗口,抽取?输出:旋转的因子解,继续;旋转?方法:最大方差法,继续;确定。输出结果如下2图; 旋转成份矩阵a Zscore: 国内生产 Zscore: 居民消费 Zscore: 固定资产 Zscore: 职工工资 Zscore: 货物周转 Zscore: 消费价格 Zscore: 商品零售 Zscore: 工业产值 提取方法 :主成分分析法。 1 .955 .218 .872 .051 .753 -.129 -.104 .944 成份 2 .126 .843 .353 .926 -.505 -.008 -.497 .111 3 -.128 -.207 -.134 -.116 -.191 .970 .819 -.012 旋转法 :具有 Kaiser 标准化的正交旋转法。 总结
-
a. 旋转在 5 次迭代后收敛。
由上表数据可以得出:x1x3x5x8主要由第一主成分解释,x2x4主要由第二主成分解释,x6x7主要由第三主成分解释。与第一因子关系密切的变量主要是投入(投资:固定资产投资)与产出(产值:
国内生产总值、工业总产值)方面的变量,货物周转又是投入产出的中介过程,可以命名为投入产出因子;与第二因子关系密切的都是反映民众生活水平的变量,可以命名为消费能力因子;与第三因子关系密切的是价格指数方面的变量,可以命名为价格指数因子。
解释的总方差 初始特征值 成份 1 2 3 4 5 6 7 8 合计 3.748 2.198 1.222 .403 .212 .135 .067 .015 方差的 % 46.847 27.474 15.278 5.036 2.652 1.690 .840 .183 累积 % 46.847 74.321 89.599 94.635 97.287 98.977 99.817 100.000 合计 3.207 2.222 1.739 旋转平方和载入 方差的 % 40.089 27.770 21.740 累积 % 40.089 67.859 89.599 提取方法:主成份分析。 由上表可以看出:第二列数据表明,各个主成分的贡献率与旋转前的有变化,但是3个主成分的累积贡献率相同都是89.599%。
5、在因子分析窗口,得分?因子得分保存为变量f1f2f3;方法:回归。再按三个主成分降序排列:数据?排序个案:将f1选入排序依据,排列顺序:降序。同理得出按f2f3排序的结果。结果如下;
最后,以各因子的方差贡献率占三个因子总方差贡献率的比重作为权重进行加权汇总,得出各城市的综合得分f。即
f=(0.40089*f1+0.277*f2+0.2174*f3)/0.89599
f得分在转换?计算变量中的出。最后再按f得分排序。排序结果如下:
f1
2.11763 2.03281 1.48171 1.22895 1.10693 1.07313
排序
f2
3.66094 1.6829 1.58836 0.99048 0.74993 0.6314
排序
XX
f3
2.07204 1.69291 1.28542 1.16111 0.98784 0.90343
排序
XX
f
1.62 0.95 0.95 0.88 0.58 0.5
排序
总结
-
0.96184 0.65225 0.60326 0.60136 0.26238 0.23633 -0.06617 -0.26842 -0.28002 -0.28376 -0.36466 -0.39638 -0.41389
0.27409 0.26647 0.18476 0.11802 0.04579 0.00117
XX
XX
0.84557 0.77625 0.62601 0.53464 0.47211 0.25513 0.21824 -0.00481 -0.0403 -0.13117 -0.13995 -0.17691 -0.25054
-0.15123 -0.19777 -0.27211 XX -0.29037 -0.29779 -0.34462 -0.37617
-0.47727 内蒙 -0.39701 -0.51327 -0.43068 -0.56026 -0.52044 -0.57753 -0.74551 -0.76636 -0.88229 -1.34465
XX
XX
-0.52561 -0.53203 -0.66221
-0.68 -0.79471
XX
内蒙
0.44 0.42 0.25 0.14 0.09 0.07 -0.02 -0.05 -0.05 -0.12 -0.12 -0.16 -0.23
XX
XX
-0.32565 -0.46473 -0.57616
XX
-1.35668 -1.46804 -1.59344
-0.61312 -0.78714 -0.79854 -0.94379 -1.1953
-0.88339 内蒙 -1.50695 -1.3165 -1.62403 -1.52165 -2.25163
-0.24
-0.4 -0.42
-0.43 内蒙 -0.47
-0.5 XX -0.52 -0.59 -0.66 -0.69 -1.23
有了对各个公因子的合理的解释,结合各个城市在三个公因子的得分和综合得分,就可对各城市的经济发展水平进行评价了。在投入产出因子f1上得分最高的6个城市是XX、、、、。其中XX得分
为2.11763,XX得分为2.03281,高于其他城市,说明XX、XX的工业的投入产出能力最高,工业发展相对较快,从而推动城市发展;而XX、、、XX的投入产出能力较差,可能由于地理位置的缘故工业发展相对落后。、、、XX在消费能力因子f2上的得分较高,说明它们的消费能力较高,人们的收入也较高,从而生活质量较好,城市发展较快;而XX、XX得分较低,它们的消费能力较低,从而说明人们的收入也相对较低,生活质量相对差一点,城市发展较慢。、、、XX在价格指数因子f3上的得分较高,说明在这些城市物价相对较高,可能以些非本地产的东西由于运输的不方便,使得这些物价相对较高,而XX、、XX、XX的价格指数较低,说明,在这些城市,交通相对便捷,运输方便,或者本地产的东西较多基本满足需求,使得物价相对较低,但从侧面也可看出这些城市与其他城市的联系可能较少,不利于自己的总和发展,从而也说明了这些城市的发展相对较慢。由综合因子f的分就可综合评价城市的经济发展水平,综合得分的前3名XX、、,得分最低的3个城市XX、、。
总结