常用统计软件SPSS使用简介
SPSS是社会科学统计软件包,界面友好、操作简单,具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。它用对话框方式实现各种管理和分析数据的功能,诸如线性回归、T检验、方差分析等基础统计,判别分析、因子分析、聚类分析等专业统计,多元方差分析、对数线形模型等分析。同时能在屏幕上显示如正态分布图、直方图、散点图等各种统计图表,并以多种格式输出[11]。基于以上优点SPSS软件已广泛应用于生产生活各个方面,服务于广大人民。
SPSS是英文Statistical Package for the Social Science(社会科学统计软件包)的缩写。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。SPSS名为社会科学统计软件包,这是为了强调其在社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学来进行研究),而实际上广泛应用于经济学、社会学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。SPSS现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。
SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、加权估计、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法
1
及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
一、SPSS基本操作
(一)SPSS的启动、主界面与退出
启动SPSS:单击Windows的【开始】按钮(如图1-1所示),在【程序】菜单项【SPSS Statistics】中找到【SPSS Statistics】并单击。(在本文中以SPSS17.0中文版为标准介绍)
图1-1 启动SPSS
SPSS的主界面:启动SPSS之后,就会弹出如图1-2所示的开始对话框。
图1-2 开始对话框
2
点击【输入数据】后,出现SPSS主界面(数据编辑器)。同大多数Windows程序一样,SPSS是以菜单驱动的,多数功能通过从菜单中选择完成。主菜单包括十个菜单项(如图1-3所示)。
图1-3 SPSS主界面(数据编辑器)
【文件】用于新建SPSS各种类型文件,或者打开一个已存在的文件。 【编辑】用于撤消操作、剪切、复制、粘贴、查找、改变SPSS默认设置等。
【视图】显示或隐藏状态行、工具栏、网络线、值标签和改变字体。 【数据】对SPSS数据文件进行全局变化,例如定义变量,合并文件,转置变量和记录,或产生分析的观测值子集等。
【转换】在数据文件中对所选择的变量进行变换,并在已有变量值的基础上计算新的变量。
【分析】可进行各种统计分析,包括各种统计过程,如回归分析、相关分析、因子分析等等。
【图行】产生条形图、饼图、直方图、散点图和其它全颜色、高分辨率的图形,以及动态的交互式图形。有些统计过程也产生图形,所有的图形都可以编辑。
【实用程序】可以显示数据文件和变量的信息,定义子集,运行脚本程
3
序,自定义SPSS菜单等。
【附加内容】本软件未实现。
【窗口】用于选择不同窗口和最小化所有窗口。
【帮助】包含SPSS帮助主题、SPSS教程、SPSS公司主页、统计教练等菜单项。
退出SPSS:可以直接点击数据编辑器右上角的关闭按钮,也可以打开【文件】菜单上,单击【退出】选项退出SPSS,如图1-4所示。
图1-4 退出SPSS
(二)数据文件的建立及整理
使用SPSS进行统计分析时,首先要录入数据或者打开一个已经存在的数据文件,根据需要进行数据转换;然后选择合适的统计分析过程,选择统计分析所采用的方法和参数;最后分析SPSS输出的结果,并保存结果。
1.数据管理[2]
启动SPSS后,出现的界面是数据编辑器窗口(如图1-3所示),它的底部有两个标签:【数据视图】和【变量视图】,它们提供了一种类似于电子表格的方法,用以产生和编辑SPSS数据文件。【数据视图】用于查看、录入和修改数据,【变量视图】定义和修改变量的定义。需要注意的是:(1)
4
列是变量,即每一列代表一个变量或一个被观测量的特征。例如问卷上的每一项就是一个变量。(2)行是个案,即每一行代表一个个体、一个样品,在SPSS中称为个案。例如,问卷上的每一个人就是一个观测。(3)单元格,即每个单元格包括一个个案中的单个变量值。单元格是个案和变量的交叉。与电子表格不同,单元格只能包括数据值而不能含公式。(4)数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。可以在任一个单元格中输入数据。如果在定义好的数据文件边界以外键入数据,SPSS将数据长方形延长到包括那个单元和文件边界之间的任何行和列。如果要分析的数据还没有录入,可用数据编辑器来键入数据并保存为一个SPSS数据文件(其默认扩展名为.sav)。
(1)定义变量:输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式,步骤如下:单击数据编辑窗口中的【变量视图】标签,显示如图2-5所示的变量定义视图,在出现的变量视图中定义变量,每一行存放一个变量的定义信息。
图1-5 定义变量
【名称】定义变量名。变量名必须以字母或字符@开头,其他字符可以是任何字母、数字或_、@、#、$等符号。变量名总长度不能超过8个字符(即4个汉字)。
【类型】定义变量类型。SPSS的主要变量类型有:数值、逗号、点、
5
科学计数法、日期、美元、设定货币、字符串。单击【类型】相应单元中的按钮,显示如图1-6所示的对话框,选择合适的变量类型并单击【确定】。
图1-6 定义变量类型对话框
【宽度】变量长度。设置数值值变量的长度,当变量为日期型时无效。 【小数】变量小数位数。设置数值型变量的小数位数,当变量为日期型时无效。
【标签】变量标签。变量标签是对变量名的进一步描述,变量只能由不超过8个字符组成,8个字符经常不足以表示变量的含义。而变量标签可长达120个字符,变量标签对大小写敏感,显示时与输入值完全一样,需要时可用变量标签对变量名的含义加以解释。
【值】变量值标签。值标签是对变量的每一个可能取值的进一步描述,当变量是定类或定序变量时,这是非常有用的。单击【值】相应单元,在如图1-7所示的对话框中进行设置。
图1-7 修改变量标签和值标签
6
【缺失】缺失值的定义方式。SPSS有两类缺失值:系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为系统缺失值,用点号(·)表示。SPSS可以指定那些由于特殊原因造成的信息缺失值,然后将它们标为用户缺失值,统计过程识别这种标识,带有缺失值的观测被特别处理。默认值为【没有缺失值】如图1-8所示。
图1-8 缺失值的定义方式
【列】变量的显示宽度。输入变量的显示宽度,默认为8。
【对齐】变量显示的对齐方式。选择变量值显示时的对齐方式:【左对齐】、【右对齐】、【居中】。
【度量标准】变量的测量尺度。正如前面所说的,变量按测量精度可以分为定类变量、定序变量、定距变量和定比变量,定距变量和定比变量经常不加以区别。如果变量为定距变量或定比变量,则在【度量标准】相应单元的下拉列表中选择【度量】;如果变量为定序变量,则选择【有序】;如果变量为定类变量,则选择【名义】。
(2)数据的输入与编辑:定义了变量后就可以输入数据了,数据窗口如图1-9所示。
7
图1-9 数据文件格式
由于各种原因,已经输入的数据往往会有错误,这就需要进行编辑。用Windows的基本操作方式可实现对数据的编辑,例如,可用方向键或鼠标移动到要修改的单元,键入新值。如果数据文件较大且知道要修改的数据单元的行号,可通过选择【编辑】中的【转至个案】打开如所图1-10示的对话框,在对话框中【转向个案数】的右框输入行号来查找特定观测(行)。如果要查找某变量中的特定值或值标签,选择该变量,再选择【编辑】中的【查找】,打开如图1-11所示的对话框,在【查找】右框中输入要查找的数值或标签。如果要替换的话,点击【替换】前的方框,然后输入要替换的内容就可以了。
图1-10 转向个案对话框
8
图1-11 查找和替换对话框
(3)数据转换:在理想情况下,输入的原始数据要完全适合要执行的统计分析类型,但遗憾的是,这种情况很罕见,经常需要通过数据转换来提示变量之间的真实关系。利用SPSS可进行从简单到复杂的数据转换。例如:
根据已存在的变量建立新变量:选择【转换】中的【计算变量】,就会打开如图1-12所示的【计算变量】的对话框。
图1-12 计算变量对话框
计算器板包括数字、算术运算符、关系运算符和逻辑运算符,可以像使用计算器一样使用它们。计算器板上的算术运算符有+(加)、-(减)、*(乘)、/(除)、**(指数)、()(运算符顺序);关系运算符有<(小于)、>(大于)、<=(小于等于)、>=(大于等于)、=(等于)、~=(不
9
等于)等;逻辑运算符有&(and,与运算,、两种关系均为真时&才为真)、|(or,或运算,、任一种关系为真时|即为真)、~(not,非运算,颠倒表达式的真假结果,为真则~为假,为假则~为真)。
函数表中有70多种函数,包括算术函数、统计函数、分布函数、逻辑函数、日期和时间汇总与提取函数、缺失值函数、字符串函数、随机变量函数等等,例如自然对数
,返回以为底数的
、求和函数
的对数,
等。
必须为大于0的数字;绝对值对数
计算器板下面有一个【如果】按钮,单击该按钮打开条件表达式对话框。在条件表达式对话框中指定一个逻辑表达式,一个逻辑表达式对每一个个案返回真、假或缺失值。如果一个逻辑表达式的结果是真,就把转换应用于那个观测;如果结果是假或缺失值,就不对那个观测应用转换。
对个案进行排序:在数据文件中,可根据一个或多个排序变量的值重排观测的顺序。选择【数据】中的【排序个案】,打开【排序个案】对话框,如图1-13所示。
图1-13 排序个案对话框
观测或变量转置:SPSS中将行作为观测,列作为变量。对那些观测和变量的行列关系与此相反的数据文件,可以选择【数据】中的【转置】将行列互换,对话框如图1-14所示。
10
图1-14 转置对话框
文件合并:可以将两个或更多个数据文件合并在一起,即可将具有相同变量但观测不同的文件合并,也可将观测相同变量不同的文件相合并。选择【数据】中的【合并文件】会出现另一个子菜单,包括【添加个案】和【添加变量】两个选项,如图2-15所示。【添加个案】从第二个文件即外部SPSS数据文件向当前工作数据文件追加个案,如图2-16所示;【添加变量】与第二个文件即外部SPSS数据文件合并含有相同个案但不同变量的两个SPSS外部文件,如图1-17所示。
图1-15 合并文件菜单
11
图1-16 添加个案对话框 图1-17 添加变量对话框
选取观测子集:可以选择【数据】中的【选择个案】根据包含变量和复杂的表达式的准则把统计分析限于某一特定观测子集,也可选取一个随机观测样本,这样就可以同时对不同的观测子集作不同的统计分析。选择个案的对话框如图1-18所示。
图1-18 选择个案对话框
其它转换:
数据汇总:【数据】→【分类汇总】; 数据加权:【数据】→【加权个案】; 数据求秩:【转换】→【个案排秩】;
产生时间序列:【转置】→【创建时间序列】;等等。
(4)保存数据文件:在数据文件中所做的任何变化都仅在这个SPSS过程期间保留,除非明确地保存它们。要保存对前面建立的数据文件进行的任何改变,选择【文件】中的【保存】即可。如果要把数据文件保存为一个新
12
文件或将数据以不同格式保存,可选择【文件】中的【另存为】,打开如图1-19所示的对话框。主要的保存类型有:
SPSS(*.sav),SPSS17.0默认格式; SPSS7.0(*.sav),SPSS7.0格式; SPSS/PC+(*.sys),SPSS/PC+格式; Excel(*.xls),Microsoft Excel格式;等等。
图1-19 另存为对话框
(5)打开已经存在的数据文件:选择【文件】中的【打开】或按快捷键Ctrl+O,显示【打开】对话框,如图1-20所示。选择要打开的文件的文件类型和文件名,单击【打开】。
图1-20 打开对话框
2. 统计分析
13
在SPSS中建立了数据文件或打开一个数据文件之后,选择正确的统计分析方法,是得到正确分析结果的关键步骤。统计分析过程在主菜单【分析】中的下拉菜单中,如图1-21所示。
图2-21 分析菜单
(三)图形
统计图是用点的位置、线段的升降、直条的长短或面积的大小等方法来表达统计数据的一种形式,它可以把资料所反映的变化趋势、数量多少、分布状态和相互关系等形象直观地表现出来,以便于读者的阅读、比较和分析。统计图具有简明生动、形象具体和通俗易懂的特点。SPSS的图形分析功能很强,许多高精度的统计图形可从【分析】菜单的各种统计分析过程产生,也可以直接从【图形】菜单中所包含的各个选项完成。图形分析的一般过程为:建立或打开数据文件,若数据文件结构不符合分析需要,则必须转换数据文件结构;生成图形;修饰生成的图形,保存结果。
常用的统计图形有条形图、线图、面积图、圆饼图、散点图、直方图、箱线图等等,见图2-22。其中统计图形有两种形式,一种为一般图形,另一种为交互式图形,交互式图形提供了更多的选项,可绘制出更强大的图形。
14
图1-22 图形菜单
(四)输出管理
不管是统计分析还是图形分析,其结果都输出到新的窗口——查看器窗口,SPSS默认输出窗口为查看器窗口,如图1-23所示。查看器窗口的左边是输出大纲视图,可以单击统计过程名称左边的“+”和“-”展开或收缩输出大纲,也可以拖动输出内容项目改变项目的位置。查看器窗口的右边显示具体的输出内容,一般通过文字、表格、图形显示统计计算结果。许多输出结果以数据透视表的表格形式显示,数据透视表功能强大,便于用户自行定义所需格式。
图1-23 查看器窗口
15
二、常用统计方法及其在SPSS中的应用
(一)统计分析方法的分类与选择
对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必须考虑许多因素,主要有:(1)统计分析的目的;(2)所用变量的特征;(3)对变量所作的假定;(4)数据的收集方法(即抽样过程)。
根据统计分析方法根据统计分析目的的不同,可以分成四大类:相关分析方法、结构简化方法、分类分析方法、预测决策方法。
变量可以分为因变量、自变量(定量变量、定性变量),也可把统计分析方法根据变量特征的不同一一进行归类(如表3-1所示),这是正确选择统计分析方法的一种有效方法。
表1-1 统计分析方法分类表
[3]
变量类型 因变量 定量
自变量 定量
统计分析方法统计分析目的
回归分析(或线性模型)、相关分析
描述一个或多个自变量与一个因变量之间的因果依存关系,或变量之间的相关关系。
定量 定量
定性
T检验、方差分描述一个连续型因变量与一个或多析 协方差分析
个自变量之间的关系。
描述了一个或多个连续型自变量影响下一个连续因变量与一个或多个自变量之间的关系。
描述定性变量之间的相互影响关系。
16
定量、定性(或线性模
型)
定性 定性
列联分析,Logit模型
续表1-1
变量类型 因变量 定性
自变量 定量
统计分析方法统计分析目的
Logistic回归分析、判别分析、聚类分析
描述多个定量变量与定性变量之间的依赖关系。
定性
定量、定量对数线性模型
主成分分析、因子分析、对应分析等
描述定性或定量变量与分类变量之间的关系。
描述变量、样品或类型之间的结构关系。
相依模型
(二)回归分析实例
1. SPSS的线性回归分析
线性回归过程中包括一元、多元线性回归、多元逐步回归。可以给出所求回归方程的回归系数估计值(即回归系数参数估计和区间估计)、协方差矩阵、复相关系数、因变量的最佳预测值,方差分析表等。还可以输出变量值的散点图等[4]。
线性回归过程对数据的要求是:自变量和因变量必须是具有Scale测度的数值型变量;标志或范畴变量,如宗教、专业等,必须记录为二元的哑变量(虚拟变量)或者其他类型的相应变量。
对于因变量的所有观测值应该认为是来自于相互独立的等方差的正态总体,并且因变量与各个自变量之间应具有一定的线性关系。
假定一组变量,
,
其中,
,
,…,,…,
,作了次观测,得到的观测值为 ,,
,…,分别为第次观测值时自变量,,…,的
17
取值;为因变量的观测值,线性回归的一般数学模型是:
,=1,2,,
假定(=1,2,,)相互独立,且均服从同一正态分布变量,
为未知常数。
的随机
根据这个数学模型可知,因变量(=1,2,,)也相互独立,且他们都服从正态分布的未知参数
,
,…,
以及:
。回归分析需要对模型中
做出估计,并且对建立的回归方程进行(=1,2,,)。如果检验拒绝
,
显著性检验,即检验假设
则认为回归方程有意义可用于对因变量的值的预测[10]。
回归分析之前,需要对所掌握的样本资料是否满足要求进行判断。可以先使用相关分析的方法确定自变量与因变量之间的相关系数,相关系数的值接近于1,则说明变量之间存在较为显著的线性关系。或者运用SPSS的【图形】菜单的【散点图】,观察因变量随自变量的改变而变动的情况。
2、 回归分析过程
在SPSS软件中的操作命令为:【分析】→【回归】,其中有线性回归、非线性回归、有序回归、权重估计等,主要应用线性回归,如图1-24所示。
图1-24 回归菜单
18
线性回归就是通过SPSS软件的内部计算过程建立一个或多个自变量与一个因变量之间的函数关系。其具体的操作步骤为:
(1)执行【分析】→【回归】→【线性】,就可以打开【线性回归】的对话框,如图1-25所示。
图1-25线性回归对话框
从原变量清单中选择一个数值型变量作为因变量,选择一个或多个变量作为自变量。当仅选择了一个自变量时,就是一元线性回归。
选择回归模型中自变量的进入方法。
在因变量和自变量都选定之后,单击【方法】的箭头按钮展开下拉式列表,如图1-26所示,从中选择回归模型中自变量的进入方法:
图1-26 方法的下拉列表
【进入】所有选择的自变量全部进入回归方程,进入为系统默认的方法。 【逐步】逐步回归方法,系统根据在选项对话框里所设定的F检验统计
19
量的显著水平进行逐步回归,从所有可供选择的自变量中逐步地选择加入或者剔除单个自变量,直到建立起最优的回归方程为止。
【删除】在建立的回归方程中,根据设定的条件删除部分自变量。 【向后】向后剔除法,首先将所有自变量都引入方程,然后根据在选项对画框里设定的F统计量的概率标准值(作为移出标准),从与因变量的偏相关系数绝对值最小的自变量开始,一次一个顺序从方程中移出,直到所建立的回归方程中不再含有可剔除的变量为止。
【向前】向前剔除法,首先将与因变量的偏相关系数绝对值最大的自变量引入方程,然后根据在选项对画框里设定的F统计量的概率标准,再加入偏相关系数绝对值第二大的自变量,直到将所有符合条件的自变量全部都加入到回归方程中后为止。
(3)参与分析的个案选择规则。
选择个案的子集参与回归分析,将为选入这个子集的个案排除在分析之外。选择参与分析的个案的规则是:从源变量清单中选择一个决定参与分析的个案的参照变量,例如例3.1中,我们选择按钮,打开设置规则对话框,如图1-27所示。
,单击被激活的【规则】
图1-27 设置规则对话框
对话框中【定义选择规则】下的两个小矩形框,在右边的值框中指定一
20
个数值,单击左框边上的箭头按钮,从展开的列表中选择一种规则或关系,凡满足关系的个案将被选入参与分析的个案子集。
(4)从源变量清单中选择一个指示变量加到【个案标签】矩形框里,这个变量将用于在散点图中标记所选中的个案所对应的点,它可以是字符型变量。
(5)可以选择一个权重变量移入【WLS权重框】,输出一个加权最小平方模型,个案值将得到一个案方差的倒数为权重的权重值,这意味着是具有较大方差的个案对分析的影响小于具有较小方差的个案对分析的影响。
(6)单击【统计量】按钮,打开如图1-28所示的统计量对话框。
图1-28 统计量对话框
【回归系数】对话框用于选择输出与回归系数有关的统计量: 【估计】回归系数的估计值,标准误差,标准化系数值以及分布的双尾显著性概率等;
【误差条形图的表征】回归系数的95%置信区间。 【残差】对话框:
【Durbin-Watson】杜宾-瓦特森检验,即
21
,统计量
检验,残差的序列相关性
检验;
【个案诊断】在激活的离群值边上输入正的标准差数值,系统将对标准残差的绝对值大于这个输入值的观测量进行诊断,系统默认的标准差值是3。如果选择【所有个案】,则对所有观测量进行诊断。
其他统计量:
【模型拟合度】输出拟合优度统计量值,如复相关系数、决定系数经校正的
、估计标准误差、方差分析表等;
变化,交换以及显著性;
、
【R方变化】即
【描述性】回归分析中各变量的描述统计量值;
【共线性诊断】输出各变量随方差扩大因素以及容许公差显示比例特征值、非中心叉积矩阵、方差分解比例等。
(7)单击【绘制】按钮,打开绘制对话框,如图1-29所示。
图1-29 绘制对话框
对话框提供绘制散点图、直方图等功能。通过观察这些图形有助于确认样本的正态性、线性性和等方差性,也有助于发现和察觉那些异常观测值和超界值。
选择散点图变量,从左边变量框中选择变量决定绘制何种散点图。 DEPENDNT:因变量 ZPRED:标准化预测值
22
ZRESID:标准化残差 DREEID:提出残差 ADJPRED:经调整的预测值 SRESID:学生化残差 SDRESID:学生化剔除残差
选择变量分别移入和边上的矩形框,决定散点图的Y坐标轴和坐标轴。选定以后单击【下一张】按钮,在设置另一张散点图的坐标轴。
单击【标准化残差图】栏选项,决定是否输出标准化残差图。 对话框另有一个【产生所有部分图】选项,选择它将输出每一个自变量对于因变量残差的散点图。
(8)单击【保存】按钮,打开保存对话框,如图1-30所示。
图1-30保存对话框
选择此对话框的选项,决定将预测值、残差或其他诊断结果值作为新变量保存于当前工作文件或保存于新文件。
【预测值】栏,选择输出回归模型每一观测值的预测值。
23
【距离】栏,决定将自变量的异常观测值和对回归模型产生较大影响的观测区分出来:
【Mahalanobis距离】马哈拉诺比斯距离,简称马氏距离,是一个测量自变量观测之中有多少观测值与所有观测量均值不同的测度,把马氏距离数最大值的观测量视为极端值;
【Cook距离】库克距离,如果一个特殊的观测值被排除在回归系数的计算之外时,库克距离用于测量所有观测量的残差将会有多大的变化。库克距离数值大的个案被排除在回归分析的计算之外,会导致回归系数发生实质性变化;
【杠杆值】用于侧重回归拟合中一个点的影响。中心化杠杆值范围从0到
,拟合中没有影响则杠杆值为0。
【残差】栏:
【未标准化残差】即因变量的实际值与预测值之差;
【标准化残差】是未标准化残差被估计标准误差除后的数值,即所谓的主观残差,其均值为0,标准差为1;
【学生化残差】是从一个个案到另一个个案的残差被估计标准差除后的数值;
【踢除残差】是从回归系数的计算中的剔除的个案的残差,等于因变量与经调整的预测值之差;
【学生化已剔除】学生化剔除残差,是一个个案的剔除残差被他的标准误差除后的数值[5]。
【影响统计量】栏: 【DfBeta】化;
【DfFit】拟合值之差,是由于排除一个特定观测组织所引起的预测值的变化;
24
值之差,是排除一个特定观测值所引起的回归系数的变
【协方差比率】是一个被从回归系数计算中提出的特定故事内测值的协方差矩阵与包括全部观测量的协方差矩阵的比率,如果这个比率接近于1,说明这个特定观测值对于协方差矩阵的变更没有显著的影响。
(9)单击选项按钮,打开选项对话框,如图1-31所示。
图1-31 选项对话框
【步进方法标准】栏:
【使用的概率】作为变量的进入或移出回归方程的标准。在进入和删除框里输入一个数值,系统默认的值分别为0.05和0.10。统计量的显著性概率
,变量将被引入回归方程;
,变量将被移出回归
方程,一般情况下二者的数值相等;
【使用值】使用统计值本身作为决定变量的进入或移出回归方程的标准。在进入和删除框里输入一个数值,系统默认的分别为3.84和2.71。
,变量将被引入回归方程;
般情况下二者的数值相等;
【在等式中包含常量】此项为系统默认选项,如果不选择这一项将迫使回归通过坐标原点。
25
,变量将被移出回归方程,一
3. 回归分析案例
例3.1[1] 在考察硝酸钠的可溶性程度时,在不同的温度下观测100ml的水中溶解的硝酸钠的重量,得到如表3-2所示的数据。根据经验和理论指导溶解的硝酸钠重量与温度之间存在线性关系,试用线性回归过程分析他们之间的关系。
表1-2 100ml水中溶解的硝酸钠重量与温度的观测值
序号 1 2 3 4 5 6 7 8 9 温度 0.00 4.00 10.00重量 66.70 71.00
76.30
15.0080.60
21.0085.70
29.0092.90
36.0099.40
51.00 68.00 113.60 125.10 的散点
根据表中的数据,我们以温度为轴,重量为轴,画出图。具体步骤如下:
1.建立数据文件,定义变量名:number(序号)、temper(硝酸钠溶液温度)、weight(100ml水中溶解的硝酸钠重量),均为数值型。
2.执行【图形】→【旧对话框】→【散点/点状】命令,如图3-9所示,就会打开如图3-10所示的对话框。
3.点击【简单分布】,然后点击【定义】按钮,就会打开简单分布的散点图对话框,如图3-11所示。
4.按照图1-32中的选项选择,然后点击【确定】按钮,提交系统运行就可以了。
图1-32 打开散点图
26
图1-33 散点图
图1-34 简单分布的散点图对话框
图1-35
散点图
由图1-35我们可以看出,和成一元线性关系,所以这是一个一元线性
27
回归分析问题。
线性回归分析的具体分析步骤如下:
1.打开主对话框,按照图1-25所示,选择各参与分析的变量,在选择自变量temper之后,首先建立一个使用全部个案的回归模型。选择变量number为个案标签,对输出的散点图中的散点进行标记。
2.选项设置,作为示例,为了不至于是输出结果过于复杂,各选项对话框里的选项均按照图1-28 到图1-30中所示进行选择。选项确认后,单击确定运行。
3.输出结果及其分析如下。 (1)描述统计量表,如表1-3所示
表1-3 描述统计量表
变量
100ml水中溶解的硝酸钠重量 硝酸钠溶液温度
均值 90.144426.0000
标准差 19.6341022.52776
个案数
9 9 (2)相关性及检验表,如表1-4所示。
表1-4 相关性及检验表
100ml水中溶
解的硝酸钠硝酸钠溶液重量 温度
1.0000.999
.0.000
99
0.999 1.000 0.000 . 9 9 皮尔逊相关系数 100ml水中溶解的硝酸
钠重量
硝酸钠溶液温度
显著性水平 (1-结尾) 个案数
100ml水中溶解的硝酸钠重量 硝酸钠溶液温度 100ml水中溶解的硝酸钠重量 硝酸钠溶液温度
28
表中给出两个变量之间的皮尔逊相关系数为0.999,说明两个变量之间高度线性相关。
(3)变量进入/移出方式表,如表1-5所示。
表1-5 变量进入/移出表
模型1
变量进入 硝酸钠溶液温度
变量移出 方式 .进入
注:a.选定变量全部进入模型
b.因变量为100ml水中溶解的硝酸钠重量
(4)回归模型概述表,如表1-6所示。
表1-6 模型概述表
模型 1
0.999 0.998
经调整的
0.998
估计标准误差
0.95936 注:a.预测因子:(常数)硝酸钠溶液温度
b.因变量为100ml水中溶解的硝酸钠重量
表中显示相关系数=0.999,=0.998,估计标准误为0.95936。这些
数值表明因变量weight与自变量temper之间存在极为显著的线性相关关系。
(5)方差分析表,如表1-7所示。
表1-7 方差分析表
模型 来源 1
回归 残差 总和
平方和 3077.5406.4433083.982
自由度
178
平均方差
0.920
比
显著性水平
0.000
3077.5403343.824
注:a.预测:(常量)硝酸钠溶液温度 b.因变量:100ml水中溶解的硝酸钠重量
比为3343.824,分布的显著性概率为0.000,即检验效果显著,说明
29
回归效果显著。
(6)线性回归方程系数表,如表1-8所示。
表1-8 模型系数表
非标准化预测标准化预系数值 测系数值
模型 参数
1
常数项 硝酸钠溶
液温度
回归系
标准误标准化系数
差 数Beta 67.5080.871
0.505 0.015 的0.95的置信区间 统计量
133.553
显著性水平 0.0000.000
下限 0.835 上限 0.906 66.313 68.703 0.99957.826
注:a.因变量为100ml水中溶解的硝酸钠重量
表中显示回归模型中的回归系数是:常数项为67.508,自变量temper为0.871,由此可知回归方程为:
即
回归系数的显著性水平皆为0.000,表明用t统计量检验假设“回归系数等于0的概率为0.000”,同样说明了两变量之间的线性相关关系极为显著,建立的回归方程是有意义的。
(7)残差统计表,如表1-9所示。
表1-9 残差统计表
预测值 标准预测值 预测值标准误差经调整的预测值非标准化残差 标准残差
最小值 -1.154 0.323 最大值 1.8640.709
均值 0.0000.4370.000000.000
标准差 1.000 0.123 0.89740 0.935 个案数 9 9 9 9 9 9
67.5078 126.711390.144419.61358 67.8182 128.6460-1.61134 1.68955-1.680 1.761
30
90.313019.94188 学生化残差 剔除残差 学生化踢除残差马氏距离 库克距离 中心杠杆值
-2.492 -6.859 0.018 0.000 0.002 2.0543.0183.4763.7270.434
-0.068-0.4510.8890.5230.111
1.214 1.55350 2.638 1.091 1.227 0.136 9 9 9 9 9 9
-3.54604 2.29886-0.16856
注:a.因变量为100ml水中溶解的硝酸钠重量
(8)散点图,如图1-36和1-37所示。
图1-36 硝酸钠重量的标准化预测值 图1-37 回归标准化残差图
图1-36的纵坐标为因变量,散点代表了用建立的回归方程计算
的各个温度下100ml水中溶解的硝酸钠的重量的标准化预测值,图中各点连线就是建立的回归直线。由于选择了
作为标记变量,各点均被该变
量相应标签标记出来。图的横坐标是标准化预测值。
图1-37散布的各点为回归的标准化残差,图的纵坐标为因变量,横坐标为残差,图中每一个点的横坐标表示在标记的水温下溶解的硝酸钠重量的标准化残差。
(9)保存于当前数据文件中的预测值、残差等数值,如图1-38所示。
31
图1-38 保存于原数据文件中的观测值
表中各变量的意义依次为非标准化预测值、非标准化残差值因变量x的均值的95%置信区间的上限和下限以及的单个观测值的95%置信区间的上限和下限。
参考文献
[1] 常兆光,王清河,杜彩凤.应用统计方法.北京:石油工业出版社,2009.11:2-34.
[2] 郝黎仁,樊元,郝哲欧.SPSS实用统计分析.北京:中国水利水电出版社,2002:155-300.
[3] 米红,张文璋.实用现代统计分析方法与SPSS 应用.北京:当代中国出版社,2000.10:2-34.
[4] 王静,宋敏,李冕.SPSS软件的应用研究.科学博览.2009,01(a):1. [5] 薛薇.统计分析与SPSS 的应用.北京:中国人民大学出版社,2001:166-249.
[6] 王清河,常兆光,李荣华.随机数据处理方法(第三版).石油工业出版社,2005.7:2-34.
32