素材来源于网络,林老师搜集编辑整理
专题十 回归分析和独立性检验学生版
1、回归分析
(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系,与函数关系不同,相关关系是一种非确定关系.
(2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量正相关;若这些散点有y随x增大而减小的趋势,则称两个变量负相关.
∑xy-nxy
^^^^i=1ii^-^
(3)回归方程:y=bx+a,其中b=n,a=y-bx;
2
∑x2i-nxi=1(4)相关系数:r=
; 22
?i∑x2y2i-nx??∑i-ny?=1i=1
n
nn
∑xiyi-nxyi=1
n
它主要用于衡量线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|
越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间相关性越弱.
2、独立性检验
(1)2×2列联表:设X,Y为两个分类变量,其样本频数列联表(2×2列联表)如下:
y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d n?ad-bc?222
(2)独立性检验:利用随机变量K(也可表示为X)=(其中n=a+b+c+d为样
?a+b??c+d??a+c??b+d?
本容量)来判断“两个变量有关系”的方法称为独立性检验.
(3)独立性检验的一般步骤
①根据样本数据列出2×2列联表;
②计算随机变量K2的观测值k,查表确定临界值k0:
③如果k≥k0,就推断“X与Y有关系\\”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关”.
一、相关系数及应用
【例1】 (2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20% B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20% C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20% D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
【练习1】对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( )
A.r2 B.r4 素材来源于网络,林老师搜集编辑整理 素材来源于网络,林老师搜集编辑整理 【例2】(2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95 16161161161162222经计算得x=i∑x=9.97,s=∑ ?x-x?=?∑x-16x?≈0.212,i∑ ?i-8.5?≈18.439,∑ =1i=116=1i16i=1i16i=1i(xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16. (1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的 进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小); (2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. ①从这一天抽检的结果看,是否需对当天的生产过程进行检查? ②在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(xi,yi)(i=1,2,…,n)的相关系数r= i=1n ∑ ?xi-x??yi-y? i=1 n i=1 ∑ ?xi-x?2∑ ?yi-y?2 n .0.008≈0.09. 【练习】 (2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图. (1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合) (2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系: 周光照量X/小时 30<X<50 50≤X≤70 X>70 光照控制仪运行台数 3 2 1 对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值. ? (xi-x)(yi-y) i=1 n 相关系数公式:r=, ? (xi-x)2 i=1 n ? (yi-y)2 i=1 n 参考数据:0.3≈0.55,0.9≈0.95. 二、求线性回归方程 素材来源于网络,林老师搜集编辑整理 素材来源于网络,林老师搜集编辑整理 【例3】(2019·湘东五校联考)已知具有相关关系的两个变量x,y的几组数据如下表所示: x 2 4 6 8 10 y 3 6 7 10 12 (1)请根据上表数据在网格纸中绘制散点图; ^^^ (2)请根据上表数据,用最小二乘法求出y关于x的线性回归方程y=bx+a,并估计当x=20时y的值. ?xiyi-nx y ^参考公式:b= i=1 n n ^^,a=y-bx. 2 ?x2i-nx i=1 【例4】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表: x 1 2 3 4 5 6 7 y 60 110 210 340 660 1 010 1 960 根据以上数据,绘制了散点图(如右图). 参考数据: y 621 v 2.54 ?xiyi i=17?xivi i=17100.54 3.47 25 350 78.12 17 其中vi=lg yi,v=?vi. 7i=1 (1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型(给出判断即可,不必说明理由)? (2)根据(1)的判断结果及上表中数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次. ^^^ 参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βμ的斜率和截距的最小 ?uivi-n u v i=1 n 二乘估计公式分别为β= ?u2i-n u i=1 n ^^ ,α=v-β U. 2 【练习1】(2019·惠州调研)某商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表: 素材来源于网络,林老师搜集编辑整理 素材来源于网络,林老师搜集编辑整理 月平均气温x/℃ 月销售量y/件 17 24 13 33 8 40 2 55 ^^^^由表中数据算出线性回归方程y=bx+a中的b=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( ) A.46件 C.38件 B.40件 D.58件 【练习2】(2019·湖南郴州模拟)某公司想了解对某产品投入的宣传费用对该产品的营业额的影响.下面是以往公司对该产品的宣传费用x(单位:万元)和产品营业额y(单位:万元)的统计折线图. (1)根据折线图可以判断,可用线性回归模型拟合宣传费用x与产品营业额y的关系,请用相关系数加以说明; (2)建立产品营业额y关于宣传费用x的回归方程; (3)若某段时间内产品利润z与宣传费用x和营业额y的关系为z=x(y-1.01x-0.09)+50,应投入宣传费用多少万元才能使利润最大?并求最大利润. 参考数据:∑yi=37.28,∑xiyi=160.68,i=1i=1 n 7 7 i=1 ∑ ?yi-y?2=2.2,7≈2.65. =-- ∑xy-nxyiii=1 nni=1 n 7 参考公式:相关系数r= ∑ ?xi-x??yi-y?i=1 nni=1 , ∑ ?xi-x?2i∑ ?yi-y?2 =1∑ ?xi-x?2i∑ ?yi-y?2 =1 nn -- ∑ ?x-x??y-y?∑xy-nxyiiii i=1^^^^i=1 回归方程y=a+bx中斜率和截距的最小二乘估计公式分别为b==n, n222 ∑ ?xi-x?∑xi-nxi=1i=1 ^^ a=y-bx,(计算结果保留两位小数) 【练习3】某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下: 年份 2012 2013 2014 2015 2016 2017 2018 素材来源于网络,林老师搜集编辑整理 素材来源于网络,林老师搜集编辑整理 广告费支出x 销售量y 1 1.9 2 3.2 4 4.0 6 4.4 11 5.2 13 5.3 19 5.4 (1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程; ^ (2)若用y=c+dx模型拟合y与x的关系,可得回归方程y=1.63+0.99x,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好; (3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果,求当广告费x=20时,销售量及利润的预报值. ^^^ 参考公式:回归直线y=a+bx的斜率和截距的最小二乘估计分别为 ?xiyi-n x y ^i=1b= x2i-n i=1 n ? (xi-x)(yi-y) i=1 n ? n =x 2 ? (xi-x)2 i=1 n ^^ ,a=y-b x,参考数据:5≈2.24. 【练习4】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. 素材来源于网络,林老师搜集编辑整理