§1.1 回归分析的基本思想及其初步(三)
【学情分析】:
教学对象是高二文科学生,学生已经学会建立回归模型的基本步骤,并有检验回归方程的拟合精确度的方法,并能解决一些实际问题。两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,通过探究使学生体会对回归模型的选择,非线性模型可以通过变换转化为线性回归模型,让学生直观的观察、思考,借助于线性回归模型研究呈非线性关系的两个变量之间的关系,并通过回归分析体会不同模型拟合数据的效果。
【教学目标】:
(1)知识与技能:
了解回归模型的选择;进一步理解非线性模型通过变换转化为线性回归模型;体会不同模型拟合数据的效果。
(2)过程与方法:
从实例出发,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,通过学习相关指数,用相关指数来刻画回归的效果,进而归纳出回归分析的一般步骤,并对具体问题进行回归分析,用于解决实际问题。 (3)情感态度与价值观:
任何事物都是相对的,但又有一定的规律性,我们只要从实际出发,不断探求事物的内在联系,就会找出其中的规律性,形成解决实际问题的方法和能力。
【教学重点】:
1、加深体会有些非线性模型通过变换可以转化为线性回归模型;
2、了解在解决问题的过程中寻找更好的模型的方法。
【教学难点】:
1、了解常用函数的图像特点,选择不同的模型建模;
2、通过比较相关指数对不同的模型进行比较。
【课前准备】:
课件
【教学过程设计】: 教学环节 一、复习引入 教学活动 问题一:你能回忆一下建立回归模型的基本步骤? 师:提出问题,引导学生回忆建立回归模型的基本步骤(选变量、画散点图、选模型、估计参数、分析与预测) 生:回忆、叙述建立回归模型的基本步骤 问题二:观察例2的图1.1-6中的散点图,红铃虫的产卵数y与温度x的图像特点:随着自变量的增加,因变量也随之增加。这些点可以除了可以看作是落在指数函数模型上,还可以认为它是落在什么函数的模型上? 师:引导学生观察散点图的特点,并引导学生探究红铃虫的产卵数y与温度x还可能是什么关系。(二次函数模型) 生:讨论、回忆一些常见函数图像的特点,判断红铃虫的产卵数y与温度x的可能关系 样本点还可以看作是分布在二次函数曲线y?c1x?c2的周围。 2设计意图 复习建立线性回归模型的基本步骤 引导学生根据散点图判断两个变量的关系,使学生了解不是任何两个变量都一定是只有一种关系。
二、探究新知
产卵数y/个350产卵数与温度的关系30025020015010050 温度3032343602022242628 问题三:对模型y?c1x?c2是否有办法求参数c1和c2的最小二乘估计? 师:从简单的模型入手,逐步引导学生思考把原来两个变量的非线性关系转化为另外两个变量的线性关系 生:观察模型,探究变换的方法并发表自己的意见。最后给出具体的方法。 令t?x,建立y与t之间的线性回归方程y?c1t?c2 问题四:经过变换后这个模型都转化为线性回归模型,你如何得到这几个线性回归模型的参数估计? 师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。 生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算器) 解答过程如下: 令b?c1,a?c2,即y?a?bt 分析y与t之间的关系,通过画散点图(如下图), 变换后样本点的散点图350300250200150100500400y22500600700800900100011001200t=x^21300 可看到y与t的散点图并不分布在一条直线的周围,即不宜用线性回 让学生知道有时因变量与自变量的非线性关系经过变换后可以转化为两个新变量间的线性关系 使学生进一步体会把因变量与自变量的非线性关系经过变换后转化为另外两个变量的线性关系的方法。 使学生熟悉线性回归模型的参数估计的方法
归方程来拟合它,即不宜用二次曲线y?c1x?c2来拟合y与x之间的关系,这个结论还可以用残差分析得到。 为比较两个不同模型的残差,需建立相应的回归模型,让学生用线性回归模型拟合回归方程y?a?bt。 编号温度x/°C产卵数y/个t= x2ti2tiyin2121722311325214272452966632115735325合计192569得出红铃虫的产卵数y与温度x的模型 引导学生尝试进行不同模型的比较。 44152962572984110241225541419448127984139062553144170728110485761500625465287030875819131251749655506117760398125610918t?773.429y?81.286???bt2i?4652870i?1n?ntiyi?610918?x?-202.543??z?bai?1?xizi?nxzxi?nz2i?1n??0.3672i?1 所以y?0.367t?202.543 2因为t?x,即y关于x的二次回归方程为y?0.367x?202.543。 2 问题五:指数回归模型与二次回归模型中哪个能更好地刻画红铃虫的产卵数y与温度x的关系?通过什么数据说明? 师:提出问题,引导学生回忆评价线性回归模型拟合好坏的标准(相关指数、残差平方和),进一步引导学生探讨如何进行不同模型的比较,介绍计算模型相关指导数和残差平方和的方法,说明一般在参数个数一定的条件下,相关指数越大或残差平方和越小说明模型拟合得越好。 生:讨论,提出自己的想法,计算每个模型的相关指数,并进行模型的比较。 指数函数模型的相关指数 编号温度x/°C产卵数y/个12172231111.2-70.3-0.24940.10.03?1450.683252119.2-60.31.83634.43.10427240.272x?3.8435296657.1-15.38.9233.779.01632115735325合计192569??ey关于x的指数回归方程y6.5-74.3?i?yi?y?ie0.55518.4???y?y??e0.2722iiix?27.429y?81.286?iye????yi?y?i??i?1i?12inn2??yi?1n33.1-57.3-9.13281.783.702i129.2292.1548.37433.7243.70-14.232.920.62571136.759396.778141.4200.321084.261450.68?y??78141.4
R2?1???yi?1ni?1ni?i??y?y?2?0.98 2i??y二次函数模型的相关指数 从相关指数的计算结果来看,指数函数模型的R2比二次函数模型的R2更接近于1,所以指数函数模型的回归效果好。 再从残差图看: 从图中可看出指数函数模型的残差点比较均匀地落在水平的带状域中,所以指数函数模型拟合精度较二次函数模型的高。 通过学生自己动手计算感受,归纳判断模型拟合效果的方法: ⑴可以通过变换后的散点图观察两个新变量之间是否存在线性回归方程; ⑵通过残差分析比较两种模型的拟合效果。一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果。残差平方和越小的模型,拟合的效果越好。 三、练习 某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下: x 1 2 3 5 10 20 30 50 100 200
y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 检验每册书的成本费y与印刷册数倒数系,如有,求出y对x的回归方程。 1之间是否具有线性相关关x1,题意要求对x分析:本题是非线性回归分析问题,不妨设变量u?u与y作相关性检验,如果它们具有线性相关关系,就可以进一步求出y1对u的回归直线方程,这时,再回代u?,就得到了y对x的回归曲线x方程。 解:首先作变量置换u?数据: u y 1 10.15 1,题目所给数据变成如下表所示的10对x0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 然后作相关性检验。 经计算得r?0.9998?0.75,从而认为u与y之间具有线性相关关??1.125?8.973u, 系,由公式得a?1.125,b?8.973,所以y最后回代u?18.973??1.125?,可得到y对x的回归曲线方程y xx让学生整理解决本例的思路,鼓励学生探究建立更好的模型。 四、小结 1. 强调要借助散点图的直观性、联想已学过的基本函数图像、以及知识间的联系,鼓励学生在建模中大胆尝试; 2. 用回归方程探究非线性回归问题的方法、步骤; 3. 残差分析的步骤、作用。 4. 梳理本节书的知识结构 问题背景分析 散点图 线性相关系数 两个变量线性相关 最小二乘法 线性回归模型 相关指数 残差分析 两个变量非线性相关 非线性回归模型 应用
练习与测试
1. 在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合
效果最好的模型是( A )
A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25
2. 已知两个变量的回归模型为y?2?2,则样本点的(1,4.4)的残差是_____________________ 答案:0.4
3. 残差平方和用数学符号表示为___________________,它代表了随机误差的效应;解释变量的效应
值称为回归平方和,可以用相关指数R来刻画回归的效果,其计算公式是___________________。显然,R的值越大,说明残差平方和越小,也就是说模型的拟合效果越好。
2???y?y?iinx22答案:
2???y?y?ii;R2i?1n?1???yi?1i?1n。
i?y?24. 在研究硝酸纳的可溶性程度时,对不同的温度观测它在水中的溶解度,得观测结果如下表所示:
温度(x) 0 10 20 50 70 溶解度(y) 66.7 76.0 85.0 112.3 128.0 则由此得到的回归直线的斜率是____________。
答案:0.8809
5. 已知线性相关的两变量x,y的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作
为其预测模型,则其相关指数R?________。
2?3?12 ?AB?3x,y?7,y?2?3,y?1?0,y答案:y?3?y?5 ?1?y??7,y?2?y??4,yy?3?1 ?2?0,e?1?0,ee1?0.989 906. 已知线性相关的两变量x,y的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作
R2?1?为其预测模型,则点C 的残差是________。
?C?12,e?C?1。 ?AB?3x,y答案:y7. 若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足yi=bxi+a+ei (i=1、2. …n)若ei恒为0,则R2为 答案:1