实验指导之二
判别分析的SPSS软件的基本操作
[实验例题] 为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。
1991年30个省、市、自治区城镇居民月平均收人数据表
单位:元/人
x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体)
x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 x5:人均集体所有制职工标准工资
样品序类 序1 2 3 4 5 G1 6 7 8 9 10 11 1 2 3 4 5 G2 6 7 8 9 10 11 1 2 G3 3 4 5 地区 x1 x2 110.2 82.58 83.33 107.8 86.21 85.41 98.61 99.97 74.96 93.54 101.4 71.72 76.27 72.99 62.99 69.45 72.23 80.79 75.6 84.31 80.41 88.2l 68.91 73.18 80.11 71.07 79.09 x3 59.76 50.98 53.39 60.24 52.30 53.02 48.18 45.60 50.13 50.57 69.70 47.72 46.19 44.60 42.95 43.04 47.31 47.52 50.88 52.78 50.45 51.85 43.4l 44.54 45.99 43.64 44.19 x4 8.38 13.4 11.0 15.6 15.9 13.1 8.90 6.30 13.9 10.5 6.30 9.42 9.65 13.7 11.1 11.4 9.48 6.06 5.21 7.81 7.27 8.81 22.4 23.9 24.3 19.4 18.5 x5 4.49 9.33 7.52 8.88 10.5 8.44 4.34 1.56 9.62 5.87 3.86 6.96 6.27 9.01 7.4l 7.95 6.43 3.42 3.86 5.44 4.07 5.63 15.3 15.2 13.9 12.5 10.5 x6 26.80 21.30 17.30 31.00 20.6l 13.87 21.49 18.67 16.14 19.41 11.30 13.12 9.655 9.435 8.342 10.59 13.14 13.69 12.94 10.82 8.371 13.95 13.88 22.38 29.54 16.68 20.23 x7 16.44 12.36 11.79 21.01 12.14 16.47 26.12 29.49 10.18 21.20 18.96 7.9 20.1O 20.61 10.19 16.50 10.43 16.53 9.492 16.43 18.98 22.65 12.42 9.661 10.90 9.698 16.47 x8 11.9 9.21 12.0 11.8 9.61 8.38 13.6 11.8 14.5 12.6 5.62 6.66 6.97 6.65 6.45 7.69 8.30 8.37 6.77 3.79 5.95 4.75 9.01 13.9 13.0 7.02 7.67 x9 0.41 1.05 0.70 0.16 0.47 0.51 4.56 3.82 1.21 0.90 4.62 0.61 0.96 1.68 2.68 1.08 1.11 2.85 1.27 1.19 0.83 0.97 1.41 1.19 3.47 0.63 3.08 北 京 170.03 天 津 141.55 河 北 119.40 上 海 194.53 山 东 130.46 湖 北 119.29 广 西 134.46 海 南 143.79 四 川 128.05 云 南 127.41 新 疆 122.96 山 西 内蒙古 吉 林 黑龙江 江 西 河 南 贵 州 陕 西 甘 肃 青 海 宁 夏 辽 宁 江 苏 浙 江 安 徽 福 建 102.49 106.14 104.93 103.34 98.089 104.12 108.49 113.99 114.06 108.80 115.96 128.46 135.24 162.53 111.77 139.09 待判 6 1 2 湖 南 广 东 西 藏 124.00 211.30 175.93 84.66 114.0 163.8 44.05 41.44 57.89 13.5 33.2 4.22 7.47 11.2 3.37 19.11 48.72 17.81 20.49 30.77 82.32 10.3 14.9 15.7 1.76 11.1 0.00 贝叶斯判别的SPSS操作方法: 1. 建立数据文件
2.单击Analyze→ Classify→ Discriminant,打开Discriminant Analysis判别分析对话框如图1所示:
图1 Discriminant Analysis判别分析对话框
3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。
从对话框左侧的变量列表中选分组变量Group进入Grouping Variable框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。。选择后点击Continue按钮返回Discriminant Analysis主对话框。
图2 Define Range对话框 4、选择分析方法
? ?
Enter independent together 所有变量全部参与判别分析(系统默认)。本例选择此项。
Use stepwise method 采用逐步判别法自动筛选变量。
单击该项时Method 按钮激活,打开Stepwise Method对话框如图3所
示,从中可进一步选择判别分析方法。
图3 Stepwise Method对话框 ? Method栏,选择变量的统计量方法
Wilks’lambda (默认)按统计量Wilks λ最小值选择变量; Unexplained variance :按照所有组方差之和最小值选择变量; Mahalanobis’distance:按照相邻两组的最大马氏距离选择变量; Smallest F ratio:按组间最小F值比的最大值选择变量; Rao’s V按照统计量Rao V最大值选择变量。
? Criteria 选择逐步回归的标准(略)选择系统默认项。
5. 单击Statistics 按钮,打开Statistics对话框如图4所示,从中指定输出
的统计量。 ?
Descriptives描述统计量栏
Means -各类中各自变量的均值,标准差std Dev 和各自变量总样本的均值和标准差(本例选择)。
Univariate ANOV----对各类中同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果(本例选择)。
Box’s M --对各类的协方差矩阵相等的假设进行检验(本例选择)。
图4 Statistics对话框
? Function coefficients 选择输出判别函数系数
Fisherh’s 给出贝叶斯判别函数系数(本例选择)
Unstandardized 给出未标准化的典型判别(也称典则判别)系数(费舍尔判别函数)。
? Matrices 栏选择给出的自变量系数矩阵
Within-groups correlation 合并类内相关系数矩阵(本例选择) Within-groups covariance 合并类内协方差矩阵(本例选择) Separate-groups covariance 各类内协方差矩阵 (本例选择) Total covariance 总协方差矩阵(本例选择)
6. 单击Classify按钮,打开Classify对话框如图5所示:
图5 Classify对话框
? Prior Probabilities栏, 选择先验概率。
All groups equal 各类先验概率相等(系统默认);
Compute from groups sizes 各类的先验概率与其样本量成正比. (本例选择)
? Use Covariance Matrix 栏,选择使用的协方差矩阵
Within-groups --使用合并类内协方差矩阵进行分类(系统默认)(本例选择)
Separate-groups --使用各类协方差矩阵进行分类 ? Display栏,选择生成到输出窗口中的分类结果
Casewise results 输出每个观测量包括判别分数实际类预测类(根据判别函数求得的分类结果)和后验概率等。
Summary table 输出分类的小结给出正确分类观测量数(原始类和根据判别函数计算的预测类相同)和错分观测量数和错分率(本例选择)。 Leave-one-out classification 输出交互验证结果。 ? Plots栏,要求输出的统计图
Combined-groups 生成一张包括各类的散点图(本例选择); Separate-groups 每类生成一个散点图;
Territorial map 根据生成的函数值把各观测值分到各组的区域图。(本例选择)
6. 单击Save 按钮,打开Save对话框,见图6.
图6 Save对话框
? Predicted group membership 建立一个新变量,系统根据判别分数,把
观测量按后验概率最大指派所属的类;(本例选择) ? Discriminant score 建立表明判别得分的新变量,该得分是由未标准化
的典则判别函数计算。(本例选择)