3.1.2 回归分析的基本思想及其初步应用
【教学目标】1.了解相关系数r;2 了解随机误差;3 会简单应用残差分析 【教学重难点】
教学重点:相关系数和随机误差 教学难点:残差分析应用。 【教学过程】
一、设置情境,引入课题
上节例题中,身高172cm女大学生,体重一定是60kg吗?如果不是,其原因是什么? 二、引导探究,发现问题,解决问题
$?0.849是斜率的估计值,说明身高x每增加1个单位,体1 $y?0.849x?85.712对于b重就 ,表明体重与身高具有 的线性相关关系。
2 如何描述线性相关关系的强弱? (1)r>0表明两个变量正相关;(2)r<0表明两个变量负相关;
(3)r的绝对值越接近1,表明相关性越强,r的绝对值越接近0,表明相关性越弱。 (4)当r的绝对值大于0.75认为两个变量具有很强的相关性关系。
3 身高172cm的女大学生显然不一定体重是60.316kg,但一般可以认为她的体重接近于60.316kg.
①样本点与回归直线的 ②所有的样本点不共线,而是散布在某一条直线的附近,该直线表示身高与体重的关系的线性回归模型表示y?bx?a??
e是y与$y?bx?a的误差,e为随机变量,e称为随机误差。 ③E(e)=0,D(e)= ?>0.④D(e)越小,预报真实值y的精度越高。 ⑤随机误差是引起预报值$y与真实值y之间的误差之一。
2
$$为截距和斜率的估计值,与a,b的真实值之间存在误差,这种误差也引起$⑥a,by与真实值
y之间的误差之一。 4 思考
产生随机误差项e的原因是什么?
5 探究在线性回归模型中,e是用$y预报真实值y的误差,它是一个不可观测的量,那么应该怎样研究随机误差?如何衡量预报的精度?
μ?y?μ$?a$①D(e)??来衡量随机误差的大小。②ei?yi?μ yi ③eyi?yi?bxiii22μ$$⑤Q(a,b)称为残差平方和,?越小,预报精度越高。
6 思考
当样本容量为1或2时,残差平方和是多少?用这样的样本建立的线性回归方程的预报误差为0吗? 7 残差分析
第 1 页
①判断原始数据中是否存在可疑数据;②残差图 ③相关指数R?1?2y)?(y?μiin2?(y?y)ii?12
2
i?1n
2④R越大,残差平方和越小,拟合效果越好;R越接近1,表明回归的效果越好。 8 建立回归模型的基本步骤:
①确定研究对象,明确哪个变量时解释变量,哪个变量时预报变量。 ②画出确定好的解释变量和预报变量得散点图,观察它们之间的关系; ③由经验确定回归方程的类型;
④按一定规则估计回归方程中的参数; ⑤得出结果后分析残差图是否异常。 三、典型例题
例1 下表是某年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,y表示响应的年均价格,求y关于x的回归方程 2 3 4 5 6 7 8 9 10 使用1 年数x 538 484 290 226 204 年均2651 1943 1494 1087 765 价格y(美元) 分析:由已知表格先画出散点图,可以看出随着使用年数的增加,轿车的平均价格在递减,但不在一条直线附近,但据此认为y与x之间具有线性回归关系是不科学的,要根据图的形状进行合理转化,转化成线性关系的变量间的关系。 解:作出散点图如下图
可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系.
$?bx$?a$,$?ln$与已学函数图像比较,用$ y?ebx?a来刻画题中模型更为合理,令zy,则zμμ题中数据变成如下表所示: x y 1 7.883 2 7.572 3 7.309 4 6.991 5 6.640 6 6.288 7 6.182 8 5.670 9 5.421 10 5.318 在散点图中可以看出变换的样本点分布在一条直线附近,因此可以用线性回归模型方程拟合,由表中数据可得r??0.996,r?0.75,认为x与z之间具有线性相关关系,由表中数
$??0.298x?8.165,最后回代z$??0.298,a$?8.165,所以z$?ln$据的by,
即$y?e?0.298x?8.165
四、当堂练习:
1 两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A 模型1的R?0.98 B 模型2的R?0.80 C 模型3的R?0.50 D模型4的R?0.25
2222第 2 页
答案 A
五、课堂小结
1 相关系数r和相关指数R2 2 残差分析 六、作业布置 课本90页习题3
第 3 页