3.1 回归分析的基本思想及其初步应用
[A 基础达标]
1.关于回归分析,下列说法错误的是( ) A.回归分析是研究两个具有相关关系的变量的方法 B.散点图中,解释变量在x轴,预报变量在y轴 C.回归模型中一定存在随机误差 D.散点图能明确反映变量间的关系
解析:选D.用散点图反映两个变量间的关系时,存在误差.
^^^^
2.根据如下样本数据得到的回归方程为y=bx+a,若a=5.4,则x每增加1个单位,估计y( ) x y 3 4 4 2.5 5 -0.5 6 0.5 7 -2 A.增加0.9个单位 C.增加1个单位
B.减少0.9个单位 D.减少1个单位
——1^
解析:选B.由题意可得,x=5,y=(4+2.5-0.5+0.5-2)=0.9,因为回归方程y=
5^
^^^^
bx+a,若a=5.4,且回归直线过点(5,0.9),所以0.9=5b+5.4,解得b=-0.9,所以x每增加一个单位,估计y减少0.9个单位.
3.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归^^^1
直线方程是y=bx+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数b的值是
8( )
1A. 161C. 3
1B. 41D. 2
—3—3
解析:选C.因为x1+x2+x3+…+x8=6,y1+y2+y3+…+y8=3,所以x=,y=,
48^13^31?33?所以样本点的中心坐标为?,?,代入回归直线方程得=b×+,解得b=. 8483?48?
4.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大 C.相关指数R变大
D.解释变量x与预报变量y的相关性变强
解析:选B.依据线性相关的有关知识可知,去掉数据D(3,10)后相关系数r变大;相关指数R也变大;同时解释变量x与预报变量y的相关性也变强,相应的残差平方和变小.
5.若某地财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )
A.10亿元 C.10.5亿元
B.9亿元 D.9.5 亿元
2
2
解析:选C.代入数据y=10+e,因为|e|≤0.5, 所以9.5≤y≤10.5,故不会超过10.5亿元.
6.某市居民2014~2018年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如表:
年份 收入x 支出y 2014 11.5 6.8 2015 12.1 8.8 2016 13 9.8 2017 13.5 10 2018 15 12 根据统计资料,居民家庭年平均收入的中位数是________,家庭年平均收入与年平均支出有________(填“正”或“负”)线性相关关系.
解析:把2014~2018年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.5,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.
答案:13 正
7.关于变量x,y的一组样本数据(a1,b1),(a2,b2),…,(an,bn)(n≥2,a1,a2,…,
an不全相等)的散点图中,若所有样本点(ai,bi)(i=1,2,…,n)恰好都在直线y=-2x+1
上,则根据这组样本数据推断的变量x,y的相关系数为________.
解析:所有样本点都在直线上,说明这两个变量间完全负相关,故其相关系数为-1,故填-1.
答案:-1
8.某种产品的广告费支出x与销售额y(单位:万元)之间的关系如下表:
x y ^2 30 4 40 5 60 6 50 8 70 y与x的线性回归方程为y=6.5x+17.5,当广告支出5万元时,随机误差的效应(残差)
为________.
^^
解析:因为y与x的线性回归方程为y=6.5x+17.5,当x=5时,y=50,当广告支出5万元时,由表格得y=60,故随机误差的效应(残差)为60-50=10.
答案:10
9.某个服装店经营某种服装,在某周内获纯利y(元)与该周每天销售这种服装件数x之间的一组数据关系见表: x y 7
2
73 66 4 69 5 73 6 81 7 89 8 90 9 91 已知∑xi=280,∑xiyi=3 487. i=1i=1——(1)求x,y;
(2)已知纯利y与每天销售件数x线性相关,试求出其回归方程. —3+4+5+6+7+8+9
解:(1)x==6,
7—
y=
66+69+73+81+89+90+91559
=. 77
(2)因为y与x有线性相关关系,
559——3 487-7×6×∑xiyi-7x y7^i=1
所以b=7==4.75,
—2280-7×362
∑xi-7xi=1
7
^
a=
559719
-6×4.75=≈51.36. 714
^
故回归方程为y=4.75x+51.36.
10.某企业为了对新研发的一批产品进行合理定价,将产品按事先拟定的价格进行试销,得到一组销售数据(xi,yi)(i=1,2,…,6),如表所示:
试销单价x/元 产品销量y/件 —
已知y=80, (1)求q的值;
4 5 84 6 83 7 80 8 75 9 68 q ^^
(2)已知变量x,y具有线性相关性,求产品销量y关于试销单价x的线性回归方程y=bx^2+a.可供选择的数据∑xiyi=3 050,∑xi=271. i=1i=1
^
(3)用y表示(2)中所求的线性回归方程得到的与xi对应的产品销量yi的估计值.当销售数^
据(xi,yi)(i=1,2,…,6)对应的残差的绝对值|yi-yi|≤1时,则将销售数据(xi,yi)称为一个“好数据”.试求这6组销售数据中的“好数据”.
^^^
参数数据:线性回归方程中b,a的最小二乘估计分别是b=——
∑xiyi-nxyi=1
nn6
6
—22∑xi-n(x)i=1
^—^—
,a=y-bx.
—q+84+83+80+75+68
解:(1)因为y=,
6—q+84+83+80+75+68
又因为y=80,所以=80,
6所以q=90.
—4+5+6+7+8+913(2)x==. 6213
3 050-6×80×
2^
所以b==-4,
2?13?271-6×???2?
^^13
所以a=80-(-4)×=106,所以y=-4x+106.
2^
(3)因为y=-4x+106,
^^
所以y1=-4x1+106=90,|y1-y1|=|90-90|=0<1, 所以(x1,y1)=(4,90)是好数据; ^
y2=-4x2+106=86,|y2-y2|=|86-84|=2>1,
所以(x2,y2)=(5,84)不是好数据; ^
^
y3=-4x3+106=82,|y3-y3|=|82-83|=1=1,
所以(x3,y3)=(6,83)是好数据; ^
^
y4=-4x4+106=78,|y4-y4|=|78-80|=2>1, 所以(x4,y4)=(7,80)不是好数据; ^
^
y5=-4x5+106=74,|y5-y5|=|74-75|=1=1,
所以(x5,y5)=(8,75)是好数据;
^
^
y6=-4x6+106=70,|y6-y6|=|70-68|=2>1,
所以(x6,y6)=(9,68)不是好数据; 所以好数据为(4,90),(6,83),(8,75).
[B 能力提升]
11.对于给定的样本点所建立的模型A和模型B,它们的残差平方和分别是a1,a2,R的值分别为b1,b2,下列说法正确的是( )
A.若a1
解析:选C.由残差平方和以及R的定义式可得若a1
2
2
2
^
xc(b>0,b≠1)中选用一个效果好的函数进行模拟,如果4月份的销售量为1.37万部,则5月
份的销售量为________万部.
a+b+c=1,??2
解析:由题意可得,当选用函数f(x)=ax+bx+c时,?4a+2b+c=1.2,解得
??9a+3b+c=1.3,a=-0.05,??
?b=0.35, ??c=0.7.
所以f(x)=-0.05x+0.35x+0.7,f(4)=1.3,
2
ab+c=1,??2x当选用函数g(x)=ab+c时?ab+c=1.2,
??ab3+c=1.3,a=-0.8,??
解得?b=0.5,
??c=1.4,
所以g(x)=-0.8×0.5+1.4,g(4)=1.35,
因为g(4)更接近于1.37,选用函数g(x)=ab+c拟合效果较好,所以g(5)=1.375,5月份的销售量为1.375万部.
答案:1.375
13.(2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
xx