--
回归分析的基本思想及其初步应用
本周题目:回归分析的基本思想及其初步应用
本周重点:
(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;
(2)尝试做散点图,求回归直线方程;
(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
本周难点:
(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.
(2)掌握回归分析的实际价值与基本思想.
(3)能运用自己所学的知识对具体案例进行检验与说明.
(4)残差变量的解释;
(5)偏差平方和分解的思想;
本周内容: 一、基础知识梳理 1.回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数 →③写出回归直线方程 ,并利用回归直线方程进行预测说明.
2.回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
--
--
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.
3.利用统计方法解决实际问题的基本步骤: (1)提出问题;
(2)收集数据;
(3)分析整理数据;
(4)进行预测或决策。
4.残差变量 的主要来源:
(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。可能存在非线性的函数能够更好地描述
与 之间的关系,但
是现在却用线性函数来表述这种关系,结果就会产生误差。这种由于模型近似所引起的误差包含在 中。
(2)忽略了某些因素的影响。影响变量
的因素不只变量 一个,可能还包含其他许多
因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在 中。
(3)观测误差。由于测量工具等原因,得到的
的观测值一般是有误差的(比如一个人
的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在 中。
上面三项误差越小,说明我们的回归模型的拟合效果越好。
二、例题选讲
例1:研究某灌溉渠道水的流速
与水深 之间的关系,测得一组数据如下:
水深流速 1.40 1.70 1.50 1.79 1.60 1.88 1.70 1.95 1.80 2.03 1.90 2.10 2.00 2.16 2.10 2.21 --
--
(1)求
(2)预测水深为1.95
分析:本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。
解:
(1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:
时水的流速是多少?
对 的回归直线方程;
由图容易看出, 与 之间有近似的线性关系,或者说,可以用一个回归直线方程
来反映这种关系。
由计算器求得
对 的回归直线方程为
。
。
代入,易得
(2)由(1)中求出的回归直线方程,把
计算结果表示,当水深为
评注:
建立回归模型的一般步骤:
。
时可以预测渠水的流速为 。
(1)确定研究对象,明确两个变量即解释变量和预报变量;
--
--
(2)画出散点图,观察它们之间的关系;
(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等。
例2:1993年到2002年中国的国内生产总值(GDP)的数据如下:
年份 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
(1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么。
(2)建立年份为解释变量,GDP为预报变量的回归模型,并计算残差。
(3)根据你得到的模型,预报2003年的GDP,并查阅资料,看看你的预报与实际GDP的误差是多少。
(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由。
解:
(1)由表中数据制作的散点图如下:
GDP 34634.4 46759.4 58478.1 67884.6 74462.6 78345.2 82067.5 89468.1 97314.8 104790.6 --
--
从散点图中可以看出GDP值与年份近线呈线性关系;
(2)用yt表示GDP值,t表示年份,根据截距和斜率的最小二乘计算公式, 得:
从而得线性回归方程: 残差计算结果见下表:
GDP值与年份线性拟合残差表
年份 残差 年份 残差
(3)2003年的GDP预报值为112976.360,根据国家统计局2004年统计,2003年实际GDP值为117251.9,所以预报与实际相-4275.540;
(4)上面建立的回归方程的R2=0.974,说明年份能够解释约97%的GDP值变化,因此所建立的模型能够很好地刻画GDP和年份的关系。
说明: 关于2003年的GDP的值来源,不同的渠道可能会有所不同。
例3:如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试建立回归方程表述二者之间的关系。 震级 地震数 震级 3 28381 5.2 3.2 2 5.4 3.4 5.6 3.6 5.8 3.8 6 4 6.2 4.2 6.4 4.4 6.6 4.6 6.8 4.8 1356 7 5.0 973
1993 -6422.269 1998 1328.685 1994 -1489.238 1999 -2140.984 1995 3037.493 2 -1932.353 1996 5252.024 -1277.622 1997 4638.055 -993.791
--