好文档 - 专业文书写作范文服务资料分享网站

多元回归分析的步骤

天下 分享 时间: 加入收藏 我要投稿 点赞

三、研究方法

本文采取多元线性回归的方法来设定并建立模型,再利用逐步回归来对变量予以确认和剔除。逐步回归是通过筛选,挑选偏回归平方和贡献最大的因子建立回归方程,在决定是否引入一个新的因素时,回归方程要用方差比进行显著性检验。如果判别该影响因子通过显著性检验,那么可选入方程中,否则就不应该进入到回归方程,回归方程中剔除一个变量的标准也是用方差比进行显著性检验 剔除偏回归平方和贡献最小的变量,无论是入选回归方程还是从回归方程中剔除符合条件的选入项和剔除项为止,逐步回归的方法剔除了对因变量影响小的因素 减小了分析问题的难度,提高了计算效率和回归方程的稳定性有较好的预测精度。

运用多元线性回归预测的基本思路是在确定因变量和多个自变量以及它们之间的关系后,通过设定自变量参数的回归方程对因变量进行预测。具体如下:

Y =C+a1X1 +a2X2 +?+anXn

式中: Y 表示为粮食总产量,C和a为回归系数,C、a 是待定参数,X为所选取的影响因素.多元线性回归方法可分为强行进入法、消去法、向前选择法、向后剔除法和逐步进入法等,本文运用SPSS22.0 软件,对选择的自变量全部进入回归模型,即强行进入法进行预测。该模型的优点是方法简单、预测速度快、外推性好等。

四、分析与结果

本文选取6个解释变量,研究河南省粮食产量y,解释变量为:X1粮食播种面积,X2农业从业人,X3农用机械总动力,X4农田有效灌溉面积,X5化肥施用折纯量,X6农村用电量。以河南省粮食产量为因变量,以如上6个解释变量为自变量做多元线性回归(数据选取2014年《河南统计年鉴》,见附录一)。

用SPSS做变量的相关分析,从相关矩阵(表4-1)中可以看出y与自变量的相关系数大多都在0.9以上,说明所选择变量与y高度线性相关,用y与自变量做多元线性回归是合适的。

表4-1相关

X1 X2 X3 X4 X5 X6

X1 1 .687 .965 .918 .927 .970

X2 .687 1 .686 .456 .448 .731

X3 .965 .686 1 .946 .930 .990

X4 .918 .456 .946 1 .961 .921

X5 .927 .448 .930 .961 1 .901

X6 .970 .731 .990 .921 .901 1

y .978 .616 .985 .960 .965 .979

y .978 .616 .985 .960 .965 .979 1 用SPSS做变量系数分析(表4-2) 表4-2 系数

(常数) X1 X2 X3 X4 X5 X6

B 8.315 .155 -.199 2.619 5.770 1.086

标准错误 2.765 .296 .105 2.687 2.492 5.174

-6733.268 3146.969

Beta .262 .121 -.607 .169 1.047 .089

T -2.140 3.007 .524 -1.901 .974 2.315 .210

显著性 .041 .006 .604 .068 .338 .028 .835

从(表4-2)中可以得到解释变量与因变量之间的方程为:

y??6733.268?8.315x1?0.155x2?0.199x3?2.619x4?5.77x5?1.086x6

表4-3 变异数分析 回归 残差 估计 平方和 40712064.126 1149417.679 41861481.805 df 6 28 34 平均值平方 41050.631 F 显著性 .000 6785344.021 165.292 从(表4-3)中发现F=165.292,说明6个自变量整体对因变量y产生显著线性影响。但从表(4-2)中不难发现农业从业人员、农田有效灌溉面积、农村用电量的P值较大,说明方程某些解释变量并不显著,对没有通过检验的回归系数,在一定程度上说明他们对应的自变量在方程中可有可无,一般为了使模型简化,需要剔除不显著的自变量,重新建立回归方程。而且粮食播种面积、农业从业人员、农田有效灌溉面积、化肥施用折纯量、农村用电量对国民总收入起正影响,农用机械总动力却对国民总收入起负影响,与常识相违背,可能存在多重共线性。

应用SPSS进行异方差性检验。用斯皮尔曼相关系数检验异方差性也就是检验随机误差项的方差与解释变量观测值之间的相关性。若相关系数较高,则存在异方差性,则不能通过异方差性检验,此时可能会导致参数OLS估计的方差增大,t检验失效,预测精度降低。

表4-4 相关 Standard Error of Spearman 的 rho X1 X2 X3 X4 X5 X6 X1 X2 X3 X4 X5 X6 Predicted Value -.090 -.303 -.277 -.258 -.294 -.277 1.000 .441 .439 .377 .434 .439 .441 1.000 .993 .952 .991 .993 .439 .993 1.000 .951 .998 1.000 .377 .952 .951 1.000 .950 .951 .434 .991 .998 .950 1.000 .998 .439 .993 1.000 .951 .998 1.000 Standard Error of Predicted Value -.090 -.303 -.277 -.258 -.294 -.277 1.000 从表4-4中发现残差绝对值预与解释变量的皮尔逊相关系数最高为0.303,不能认为残差绝对值与解释变量显著相关。所以不存在异方差性。

应用SPSS进行自相关检验。检验自相关性就是检验针对不同的样本点与随 机误差项之间是否不相关。如果存在某种相关性,则认为出现了序列相关性。若存在自相关性,参数估计量仍然是线性的、无偏的,但非有效;OLS估计量的被估方差是有偏的且会被低估,因而会使相应的t值变大;甚至模型的t和F统计检验失效;导致最小二乘估计量对抽样波动非常敏感。首先用杜宾和沃特森检验法来判断其是否存在自相关性。 表4-5 模型摘要 R .986a R 平方 .973 调整后 R 平方 .967 标准偏斜度错误 202.60955 Durbin-Watson 1.616 由表4-5得到DW检验为1.616。查表可知在1%的上下界中k=6,n=36的dl=0.99,du=1.59,可知du

多元回归分析的步骤

三、研究方法本文采取多元线性回归的方法来设定并建立模型,再利用逐步回归来对变量予以确认和剔除。逐步回归是通过筛选,挑选偏回归平方和贡献最大的因子建立回归方程,在决定是否引入一个新的因素时,回归方程要用方差比进行显著性检验。如果判别该影响因子通过显著性检验,那么可选入方程中,否则就不应该进入到回归方程,回归方程中剔除一个变量的标准也是用方差比进行显著性检验剔除偏回归平方和贡献
推荐度:
点击下载文档文档为doc格式
4o0tx45s8d4i6jo0x1m776vac3ljqt012dp
领取福利

微信扫码领取福利

微信扫码分享