考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
知 识 梳 理
1.相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
^(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为yn
^
^
^
i=1
-
-
n
--
∑(xi-x)(yi-y)∑xiyi-nx y^-^-^^
i=1
=bx+a,则b==n,a=y-bx.其中,b是回归方程的斜率,a是在y轴上的截距. n-
-222
∑(xi-x)∑xi-nx
i=1
i=1
-
-
回归直线一定过样本点的中心(x,y). 3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
-
-
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x,y)称为样本点的中心. (3)相关系数
当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强. r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
n∑ (yi-yi)2n^i=1222
(4)相关指数:R=1-n.其中∑ (y-y)是残差平方和,其值越小,则R越大(接近1),模型ii-i=12
∑ (yi-y)i=1^的拟合效果越好. 4.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
x1 x2 总计 2
y1 A C a+c y2 b d b+d 总计 a+b c+d a+b+c+d n(ad-bc)2则随机变量K=,其中n=a+b+c+d为样本容量.
(a+b)(a+c)(b+d)(c+d)[微点提醒]
^
^
-
-
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(x,y).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
^
3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
基 础 自 测
1.判断下列结论正误(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
^
^
^
(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( ) 答案 (1)√ (2)√ (3)× (4)√
2.(选修2-3P91探究改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 C.独立性检验
B.均值与方差 D.概率
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C
3.(选修2-3P85讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25
解析 在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1. 答案 A
4.(2019·临沂模拟)已知变量x和y的统计数据如下表:
x y ^
^
3 2.5 4 3 5 4 6 4.5 7 6 ^
根据上表可得回归直线方程为y=bx-0.25,据此可以预测当x=8时,y=( ) A.6.4
-
B.6.25 C.6.55 D.6.45
3+4+5+6+7
解析 由题意知x==5,
5
-
y=
2.5+3+4+4.5+6
=4,
5
^
^
^
将点(5,4)代入y=bx-0.25,解得b=0.85,
^
则y=0.85x-0.25,
^
所以当x=8时,y=0.85×8-0.25=6.55,故选C. 答案 C
5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )