曲线回归分析
SPSS里的曲线回归要求自变量与因变量的类型都为数值型的连续变量。如果选择了时间作为变量,曲线估计过程中将自动生成一个时间变量,其在各观测记录之间的间隔是等长的。同时要求因变量也是时间顺序数据。
SPSS的曲线估计模块能够自动拟合包括线性模型、对数曲线模型、二次曲线模型和指数曲线模型在内的十几种曲线模型。输出的统计量包括模型的回归系数、复相关系数、调整R方和方差分析表等。由于曲线估计的内容比较复杂,所以经常通过变量替换的方法把不满足线性关系的数据转换为符合线性回归模型的数据,再利用线性回归进行估计。文档收集自网络,仅用于个人学习 在一元回归中,若因变量和自变量相关的趋势不是线性分布,呈现曲线关系。这种情况可以利用SPSS提供的曲线估计过程(Curve Estimation)方便地进行线性拟合,选出最佳的回归模型来拟合出相应曲线。文档收集自网络,仅用于个人学习 下面以一个实例来介绍曲线拟合的基本步骤和使用方法。 案例 台湾稻螟蚁螟侵入不同叶龄稻茎后的生存率数据(表4-1)。拟合出适合的曲线模型,来表达不同叶龄稻茎对台湾稻螟蚁螟侵入的生存关系。文档收集自网络,仅用于个人学习 表4-1 台湾稻螟蚁螟侵入不同叶龄稻茎后的生存率数据 生存率 8.9 2 10.3 3 12.3 4 12.9 5 13.1 6 13.5 7 13.8 8 13.6 9 12.7 10 13.5 11 叶龄 本例子数据保存在DATA6-3.SAV。文档收集自网络,仅用于个人学习 1)准备分析数据
在SPSS数据编辑窗口建立变量“生存率”和“叶龄”两个变量,把表6-13中的数据输入到对应的变量中。
或者打开已经存在的数据文件(DATA6-3.SAV)。文档收集自网络,仅用于个人学习 2)启动线性回归过程
单击SPSS主菜单的“Analyze”下的“Regression”中“Curve Estimation”项,将打开如图4-1所示的线回归对话窗口。文档收集自网络,仅用于个人学习 1 / 6
图4-1 线回归对话窗口 3) 设置分析变量 设置因变量:从左侧的变量列表框中选择一个或多个因变量进入“Dependent(s)”框。本例子选“生存率”变量为因变量。文档收集自网络,仅用于个人学习 设置自变量:选择一个变量为自变量,进入“Independent”框,也可选取“Independent”框中的“Time”项,即以时间为自变量。本例子选“叶龄”变量为自变量。 文档收集自网络,仅用于个人学习 选择标签变量: 选择一个变量进入到“Case Labels”框中,该变量为标签变量,可以利用该变量的值在图上查找观测值。本例子没有标签变量。文档收集自网络,仅用于个人学习 4)选择曲线方程模型 在“Models”框中选择一个或多个回归方程模型,这11个模型都可化为相应的线性模型。其中各项的意义分别为:文档收集自网络,仅用于个人学习 (1) Linear 线性模型 (2) Quadratic 二次模型 (3) Compound 复合模型 (4) Growth 生长模型 (5) Logarithmic 对数模型 (6) S 形模型 (7) Cubic 抛物线模型 (8) Exponential 指数的模型 (9) Inverse 倒数模型 2 / 6
(10) Power 幂函数模型 (11) Logistic 逻辑斯蒂模型 文档收集自网络,仅用于个人学习 在各项模型上单击鼠标右键,可以得到模型的方程类型。当选中“Logistic”项时,应在“Upper bound”框中输入一个数值作为逻辑模型的上限值。文档收集自网络,仅用于个人学习 本例子选中第9号模型(Inverse,倒数模型)。 5)设置方程常数项 选中“Include constant in equation”项回归方程中包含常数项。 6)绘制模型拟合图 选中“Plot models”项绘制出回归方程模型图。本例子选中此项。 7)输出方差分析表 选中“Display ANOVA table”项,将输出方差分析表。 8) 保存分析数据 单击“Save”按钮,将打开如图4-2所示的对话框。该对话框用于选择要保存的新变量。 图4-2 曲线回归保存值设置对话窗口 “Save Variables”框中列出了可保存的新变量: “Predicted values”预测值。因变量的预测值。 “Residuals”残差。因变量的观测值和预测值的差。 “Prediction intervals”残差因变量的预测区间。 当选中“Prediction intervals”项时,可在该项下面的“Confidence interval”框中输入显著性水平。文档收集自网络,仅用于个人学习 本例子选中“Predicted values”项、“Residuals”项和“Prediction intervals”项。文档收集自网络,仅用于个人学习 3 / 6
“Predict cases”:当选择时间序列为自变量时,本栏设置一个超过数据时间序列的预测周期。其中各项的意义分别为:文档收集自网络,仅用于个人学习 “Predict from estimation period through last case”根据估计周期为所有的观测量提供预测周期。文档收集自网络,仅用于个人学习 “Predict through”当要预测的观测量超过当前的数据时间序列时,输入观测量的一个周期数值。文档收集自网络,仅用于个人学习 9)提交执行 在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。输出结果主要分两部分:第一部分是文本输出,给出了曲线模型、各统计量、方差分析以及曲线方程系数,见图3-3;第二部分是预测模型与分析数据的图形比较,见图3-2。文档收集自网络,仅用于个人学习 有时SPSS在输出浏览窗口不会完全显示出来所有的文本,在文本框左下角显示了一个红色三角形来提示我们。可以使用鼠标选中文本块,拖动鼠标把文本框扩大,直至显示出全部文本。文档收集自网络,仅用于个人学习 根据“曲线回归保存值设置对话窗口”的设置,SPSS在数据编辑窗口增添如下变量: fit_1为线性预测值; err_1为观测值和线性预测值的差值; lcl_1和ucl_1分别为显著性水平为95%的线性预测区间的上限和下限。 10) 结果分析 主要结果:
4 / 6
图3-3 曲线回归的文字输出部分 5 / 6
图3-4 回归方程模型图 分析: 建立回归模型: 根据图3-3中方程变量表得: y = 14.861706 - 11.890356/x 回归方程的显著性检验: 回归方程的方差分析表明:F=81.94,显著水平为0.000。相关系数平方(R2)=0.91105。 从图3-4回归方程模型图中也可以看出模型拟合程度是很好的。 结果: 表明用“ y = 14.861706 - 11.890356/x”模型能很好地描述了水稻不同叶龄(x)对台湾稻螟蚁螟侵入后生存率(y)影响的数量相关关系。文档收集自网络,仅用于个人学习 6 / 6