3.1回归分析的基本思想及其初步应用
1.了解随机误差、残差、残差图的概念. 2.会通过分析残差判断线性回归模型的拟合效果.
3.掌握建立线性回归模型的步骤.
1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型
n
∑ (xi-x)(yi-y)
^^^^i=1^-^--1n(1)在线性回归直线方程y=a+bx中,b=,a=y-bx,其中x=∑nni=12
∑ (x-x)i=
i1
-1n
xi,y=∑y,(x,y)称为样本点的中心,回归直线过样本点的中心.
ni=1i(2)线性回归模型y=bx+a+e,其中e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
[注意] (1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=a+bx相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.
^^^^^^
(2)线性回归方程y=bx+a中a,b的意义是:以a为基数,x每增加1个单位,y相应地平均增^
加b个单位.
3.刻画回归效果的方式
方式方法 22计算公式 i1=1-n刻画效果 R2越接近于1,表示回归的效果越好 R R^2∑ (y-yi)i=∑ (yi-y)2n i=1残差图 ^ei称为相应于点(xi,yi)的残差,残差点比较均匀地落在水平的^^ei=yi-yi 带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高 残差平方和 ^2∑ (y-yi) i=n残差平方和越小,模型的拟合效果越好
i1 判断正误(正确的打“√”,错误的打“×”)
(1)求线性回归方程前可以不进行相关性检验.( )
(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( ) (3)利用线性回归方程求出的值是准确值.( ) 答案:(1)× (2)√ (3)×
变量x与y之间的回归方程表示( ) A.x与y之间的函数关系 B.x与y之间的不确定性关系 C.x与y之间的真实关系形式
D.x与y之间的真实关系达到最大限度的吻合 答案:D
在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 答案:A
^
已知线性回归方程y=0.75x+0.7,则x=11时,y的估计值为________. 答案:8.95
探究点1 线性回归方程
在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x之间的一组观察值如下表.
x(s) y(μm) 5 6 10 10 15 10 20 13 30 16 40 17 50 19 60 23 70 25 90 29 120 46 (1)画出散点图;
(2)求y对x的线性回归方程;
(3)利用线性回归方程预测时间为100 s时腐蚀深度为多少. 【解】 (1)散点图如
图所示.
(2)从散点图中,我们可以看出y对x的样本点分布在一条直线附近,因而求回归直线方程有意义.
1
x=(5+10+15+…+120) 11
5101214=,y=(6+10+10+…+46)=, 111111
510^^214
a=y-bx≈-0.304×=5.36.
1111
故腐蚀深度对腐蚀时间的线性回归方程为y=0.304x+5.36.
^
(3)根据(2)求得的线性回归方程,当腐蚀时间为100 s时,y=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s时腐蚀深度大约为35.76 μm.
求线性回归方程的三个步骤
(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.
(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.
炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,
必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x与冶炼
时间y(从炼料熔化完毕到出钢的时间)的数据(xi,yi)(i=1,2,…,10)并已计算出=1 589,
?yi=1 720,
i=1
10
^
故冶炼时间y对钢水的含碳量x的回归直线方程为y=1.267x-30.47. 探究点2 线性回归分析
假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x y 15.0 39.4 25.8 42.9 30.0 42.9 36.6 43.1 44.4 49.2 (1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;
(4)求相关指数R2,并说明残差变量对有效穗的影响占百分之几? 【解】 (1)散点图如下.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.
^^^--
设回归方程为y=bx+a,x=30.36,y=43.5,
(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; ^
②残差平方和法:残差平方和? (yi-yi)2越小,模型的拟合效果越好;
i=1n
关于x与y有如下数据:
x y 2 30 4 40 5 60 6 50 8 70