SPSS在主成分分析中的应用 - 图文

由天下分享时间：2025/2/5 11:56:38 加入收藏我要投稿点赞

SPSS在主成分分析中的应用

摘要主成成分分析是一种对数据进行分析的技术，最重要的应用是对原有数据进行简化。本文首先对主成成分分析方法的原理进行了简单的阐述。介绍了进行主成成分分析的工具SPSS，并以分析全国31个省市的8项经济目标为例，给出了详尽的分析。实验结果表明，主成成分分析能有效的将原有的复杂数据降维，同时包含原数据的大部分信息。

关键词 SPSS 主成分分析经济发展指标

一．主成分分析的原理。

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1 （选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最打的，故称 F1为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息，再考虑选取F2 即选第二个线性组合，为了有效地反映原来信息，F1 已有的信息就不需要再出现再 F2 中，用数学语言表达就是要求 Cov(F1, F2)=0，则称 F2 为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

主成分模型：

?F1?a11X1?a21X2??ap1Xp??F2?a12X1?a22X2??ap2Xp???? ??Fp?a1pX1?a2pX2??appXp

满足以下条件：

221.每个主成分系数平方和为1即：a12i?a2,2,?m) i??api?1(i?12.主成分之前互不相关即：cov(Fi,Fi)?0

3.主成分方差依次递减，即Var(F1)?Var(F2)??Var(Fp) 二．利用SPSS进行主成成分分析实例

以全国31个省市的8项经济指标为例，进行主成分分析。第一步：录入或调入数据（图1）。

图1 原始数据（未经标准化）

第二步：打开“因子分析”对话框。

沿着主菜单的“Analyze→Data Reduction→Factor?”的路径（图2）打开因子分析选项框（图3）。

图2 打开因子分析对话框的路径

图3 因子分析选项框

第三步：选项设置。

首先，在源变量框中选中需要进行分析的变量，点击右边的箭头符号，将需要的变量调入变量（Variables）栏中（图3）。在本例中，全部8个变量都要用上，故全部调入（图4）。因无特殊需要，故不必理会“Value?”栏。下面逐项设置。

图4 将变量移到变量栏以后

⒈ 设置Descriptives选项。

单击Descriptives按钮（图4），弹出Descriptives对话框（图5）。

图5 描述选项框

在Statistics栏中选中Univariate descriptives复选项，则输出结果中将会给出原始数据的抽样均值、方差和样本数目（这一栏结果可供检验参考）；选中Initial solution复选项，则会给出主成分载荷的公因子方差（这一栏数据分析时有用）。

在Correlation Matrix栏中，选中Coefficients复选项，则会给出原始变量的相关系数矩阵（分析时可参考）；选中Determinant复选项，则会给出相关系数矩阵的行列式，如果希望在Excel中对某些计算过程进行了解，可选此项，否则用途不大。其它复选项一般不用，但在特殊情况下可以用到（本例不选）。

设置完成以后，单击Continue按钮完成设置（图5）。

⒉ 设置Extraction选项。

打开Extraction对话框（图6）。因子提取方法主要有7种，在Method栏中可以看到，系统默认的提取方法是主成分.因此对此栏不作变动，就是认可了主成分分析方法。

在Analyze栏中，选中Correlation matirx复选项，则因子分析基于数据的相关系数矩阵进行分析；如果选中Covariance matrix复选项，则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言，由于数据标准化了，这两个结果没有分别，因此任选其一即可。

在Display栏中，选中Unrotated factor solution（非旋转因子解）复选项，则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言，这一项选择与否都一样；对于旋转因子分析，选择此项，可将旋转前后的结果同时给出，以便对比。

选中Scree Plot（“山麓”图），则在分析结果中给出特征根按大小分布的折线图（形如山麓截面，故得名），以便我们直观地判定因子的提取数量是否准确。

在Extract栏中，有两种方法可以决定提取主成分（因子）的数目。一是根据特征根（Eigenvalues）的数值，系统默认的是

?c?1。我们知道，在主成分

分析中，主成分得分的方差就是对应的特征根数值。如果默认

?c?1，则所有方

差大于等于1的主成分将被保留，其余舍弃。如果觉得最后选取的主成分数量不足，可以将

?c值降低，例如取

?c?0.9；如果认为最后的提取的主成分数量偏多，则可以提高

?c值，例如取

?c?1.1。主成分数目是否合适，要在进行一轮分析以后才能肯定。

?c?0.8），这样提取的主成分将会偏多，

因此，特征根数值的设定，要在反复试验以后才能决定。一般而言，在初次分析时，最好降低特征根的临界值（如取

根据初次分析的结果，在第二轮分析过程中可以调整特征根的大小。

第二种方法是直接指定主成分的数目即因子数目，这要选中Number of factors复选项。主成分的数目选多少合适？开始我们并不十分清楚。因此，首次不妨将数值设大一些，但不能超过变量数目。本例有8个变量，因此，最大的主成分提取数目为8，不得超过此数。在我们第一轮分析中，采用系统默认的方法提取主成分。

图6 提取对话框

需要注意的是：主成分计算是利用迭代（Iterations）方法，系统默认的迭代次数是25次。但是，当数据量较大时，25次迭代是不够的，需要改为50次、100次乃至更多。对于本例而言，变量较少，25次迭代足够，故无需改动。

设置完成以后，单击Continue按钮完成设置（图6）。