第四节 变量间的相关关系、统计案例
[最新考纲] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.
1.相关性 (1)线性相关
若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的. (2)非线性相关
若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的. (3)不相关
如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.最小二乘估计 (1)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(xn,yn)可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]+[y2-(a+bx2)]+…+[yn-(a+bxn)].
使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法. (2)线性回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的线性回归方程,其中a,b是待定参数.
2
2
2
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,(x,y)称为样本点的中心.
(3)相关系数r
n?xiyi-nx yi=1
①r=
;
nn?x2
-nx2
i ?y2i-ny2
i=1
i=1
②当r>0时,称两个变量正相关. 当r<0时,称两个变量负相关. 当r=0时,称两个变量线性不相关. 4.独立性检验 若一个2×2列联表为:
B A B1 B2 总计 A1 a b a+b A2 c d c+d 总计 a+c b+d n=a+b+c+d 则统计量χ2为: 2
χ2
=nad-bca+bc+da+cb+d. (1)当χ2
≤2.706时,可以认为变量A,B是没有关联的; (2)当χ2
>2.706时,有90%的把握判定变量A,B有关联; (3)当χ2>3.841时,有95%的把握判定变量A,B有关联; (4)当χ2>6.635时,有99%的把握判定变量A,B有关联. [常用结论]
1.线性回归方程y=bx+a一定过样本点的中心(x,y). 2.由回归直线求出的数据是估算值,不是精确值.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(3)回归直线方程^y=^bx+^
a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.
(
)
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ的观测值越小. [答案](1)√ (2)√ (3)× (4)× 二、教材改编
1.下面是2×2列联表:则表中a,b的值分别为( )
2
( )
x1 x2 合计 A.94,72 C.52,74
y1 a 22 y2 21 25 46 合计 73 47 120 b B.52,50 D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )
^
A.y=0.4x+2.3 ^
C.y=-2x+9.5
^
B.y=2x-2.4 ^
D.y=-0.3x+4.4
A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A满足.]
^
3.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y=0.95x^^
+a,则a=________.
x 0 1 3 4 y 2.2 4.3 4.8 6.7 ^
2.6 [∵回归直线必过样本点的中心(x,y),又x=2,y=4.5,代入回归方程,得a=2.6.] 4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
男 女 2
2理科 13 7 文科 10 20 2
已知P(χ≥3.841)≈0.05,P(χ≥5.024)≈0.025.根据表中数据,得到χ的观测值为50×13×20-10×723×27×20×30
2
2
≈4.844.则认为选修文科与性别有关系出错的可能性为________.
5% [χ的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
⊙考点1 变量间的相关关系的判断
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关. ^^
(3)线性回归方程中:b>0时,正相关;b<0时,负相关. 1.观察下列各图形,
① ② ③ ④
其中两个变量x,y具有相关关系的图是( ) A.①② B.①④ C.③④ D.②③
C [图形③具有正线性相关关系,图形④具有非线性相关关系,故选C.]
2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
^^^
C [因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,^^^^^
则z=by+a=-0.1bx+b+a,故x与z负相关.]
3.某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A.r4<r2<0<r1<r3 C.r2<r4<0<r3<r1
B.r2<r4<0<r1<r3 D.r4<r2<0<r3<r1
C [根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;数据越集
中在一条直线附近,说明相关性越强,
由题中数据可知:(1)(3)为正相关,(2)(4)为负相关;
故r1>0,r3>0;r2<0,r4<0;又(1)与(2)中散点图更接近于一条直线,故r1>r3,r2 r2 (1)变量间的相关关系分线性相关关系和非线性相关关系,如T1. (2)对相关系数r来说,|r|越接近于1,散点图越接近于一条直线,如T3. ⊙考点2 线性回归分析 线性回归分析问题的类型及解题方法 (1)求回归方程 ^ ①利用公式,求出回归系数b. ^ ②利用回归直线过样本点的中心求系数a. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. ^ (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b. (4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强. 下图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图. 注:年份代码1~7分别对应年份2012~2018. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量. 附注: 7 7 参考数据:∑yi=9.32,∑tiyi=40.17, i=1 i=1 yi-y2 =0.55,7≈2.646.