好文档 - 专业文书写作范文服务资料分享网站

回归分析与独立性检验学生版

天下 分享 时间: 加入收藏 我要投稿 点赞

素材来源于网络,林老师搜集编辑整理

专题十 回归分析和独立性检验学生版

1、回归分析

(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系,与函数关系不同,相关关系是一种非确定关系.

(2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量正相关;若这些散点有y随x增大而减小的趋势,则称两个变量负相关.

∑xy-nxy

^^^^i=1ii^-^

(3)回归方程:y=bx+a,其中b=n,a=y-bx;

2

∑x2i-nxi=1(4)相关系数:r=

; 22

?i∑x2y2i-nx??∑i-ny?=1i=1

n

nn

∑xiyi-nxyi=1

n

它主要用于衡量线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|

越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间相关性越弱.

2、独立性检验

(1)2×2列联表:设X,Y为两个分类变量,其样本频数列联表(2×2列联表)如下:

y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d n?ad-bc?222

(2)独立性检验:利用随机变量K(也可表示为X)=(其中n=a+b+c+d为样

?a+b??c+d??a+c??b+d?

本容量)来判断“两个变量有关系”的方法称为独立性检验.

(3)独立性检验的一般步骤

①根据样本数据列出2×2列联表;

②计算随机变量K2的观测值k,查表确定临界值k0:

③如果k≥k0,就推断“X与Y有关系\\”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关”.

一、相关系数及应用

【例1】 (2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )

A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20% B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20% C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20% D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%

【练习1】对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( )

A.r2

B.r4

素材来源于网络,林老师搜集编辑整理

素材来源于网络,林老师搜集编辑整理

【例2】(2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:

抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95 16161161161162222经计算得x=i∑x=9.97,s=∑ ?x-x?=?∑x-16x?≈0.212,i∑ ?i-8.5?≈18.439,∑ =1i=116=1i16i=1i16i=1i(xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.

(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的

进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);

(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.

①从这一天抽检的结果看,是否需对当天的生产过程进行检查?

②在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)

附:样本(xi,yi)(i=1,2,…,n)的相关系数r=

i=1n

∑ ?xi-x??yi-y?

i=1

n

i=1

∑ ?xi-x?2∑ ?yi-y?2

n

.0.008≈0.09.

【练习】 (2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.

(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)

(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系: 周光照量X/小时 30<X<50 50≤X≤70 X>70 光照控制仪运行台数 3 2 1 对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.

? (xi-x)(yi-y)

i=1

n

相关系数公式:r=,

? (xi-x)2

i=1

n

? (yi-y)2

i=1

n

参考数据:0.3≈0.55,0.9≈0.95.

二、求线性回归方程

素材来源于网络,林老师搜集编辑整理

素材来源于网络,林老师搜集编辑整理

【例3】(2019·湘东五校联考)已知具有相关关系的两个变量x,y的几组数据如下表所示:

x 2 4 6 8 10 y 3 6 7 10 12 (1)请根据上表数据在网格纸中绘制散点图; ^^^

(2)请根据上表数据,用最小二乘法求出y关于x的线性回归方程y=bx+a,并估计当x=20时y的值.

?xiyi-nx y

^参考公式:b=

i=1

n

n

^^,a=y-bx.

2

?x2i-nx

i=1

【例4】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表:

x 1 2 3 4 5 6 7 y 60 110 210 340 660 1 010 1 960 根据以上数据,绘制了散点图(如右图). 参考数据: y 621 v 2.54 ?xiyi i=17?xivi i=17100.54 3.47 25 350 78.12 17

其中vi=lg yi,v=?vi.

7i=1

(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型(给出判断即可,不必说明理由)?

(2)根据(1)的判断结果及上表中数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.

^^^

参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βμ的斜率和截距的最小

?uivi-n u v

i=1

n

二乘估计公式分别为β=

?u2i-n u

i=1

n

^^

,α=v-β U.

2

【练习1】(2019·惠州调研)某商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:

素材来源于网络,林老师搜集编辑整理

素材来源于网络,林老师搜集编辑整理

月平均气温x/℃ 月销售量y/件 17 24 13 33 8 40 2 55 ^^^^由表中数据算出线性回归方程y=bx+a中的b=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )

A.46件 C.38件

B.40件 D.58件

【练习2】(2019·湖南郴州模拟)某公司想了解对某产品投入的宣传费用对该产品的营业额的影响.下面是以往公司对该产品的宣传费用x(单位:万元)和产品营业额y(单位:万元)的统计折线图.

(1)根据折线图可以判断,可用线性回归模型拟合宣传费用x与产品营业额y的关系,请用相关系数加以说明;

(2)建立产品营业额y关于宣传费用x的回归方程;

(3)若某段时间内产品利润z与宣传费用x和营业额y的关系为z=x(y-1.01x-0.09)+50,应投入宣传费用多少万元才能使利润最大?并求最大利润.

参考数据:∑yi=37.28,∑xiyi=160.68,i=1i=1

n

7

7

i=1

∑ ?yi-y?2=2.2,7≈2.65.

=--

∑xy-nxyiii=1

nni=1

n

7

参考公式:相关系数r=

∑ ?xi-x??yi-y?i=1

nni=1

∑ ?xi-x?2i∑ ?yi-y?2

=1∑ ?xi-x?2i∑ ?yi-y?2

=1

nn

--

∑ ?x-x??y-y?∑xy-nxyiiii

i=1^^^^i=1

回归方程y=a+bx中斜率和截距的最小二乘估计公式分别为b==n, n222

∑ ?xi-x?∑xi-nxi=1i=1

^^

a=y-bx,(计算结果保留两位小数)

【练习3】某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:

年份 2012 2013 2014 2015 2016 2017 2018 素材来源于网络,林老师搜集编辑整理

素材来源于网络,林老师搜集编辑整理

广告费支出x 销售量y 1 1.9 2 3.2 4 4.0 6 4.4 11 5.2 13 5.3 19 5.4 (1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程; ^

(2)若用y=c+dx模型拟合y与x的关系,可得回归方程y=1.63+0.99x,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好;

(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果,求当广告费x=20时,销售量及利润的预报值.

^^^

参考公式:回归直线y=a+bx的斜率和截距的最小二乘估计分别为

?xiyi-n x y

^i=1b=

x2i-n i=1

n

? (xi-x)(yi-y)

i=1

n

?

n

=x

2

? (xi-x)2

i=1

n

^^

,a=y-b x,参考数据:5≈2.24.

【练习4】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.

素材来源于网络,林老师搜集编辑整理

回归分析与独立性检验学生版

素材来源于网络,林老师搜集编辑整理专题十回归分析和独立性检验学生版1、回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系,与函数关系不同,相关关系是一种非确定关系.(2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关
推荐度:
点击下载文档文档为doc格式
5uqdh6q03i06i7k4fff923x6i11fyp00rtm
领取福利

微信扫码领取福利

微信扫码分享