第一课 统计案例
[核心速填]
1.线性回归方程
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线y=bxn? xi-x+a的斜率和截距的最小二乘估计公式分别为b=
nyi-y=
^i=1
? xi-xi=1
n2
?xiyi-n x yi=1
,a=y-bx,其中(x,y)称为样本点的
ni-nx?x2i=1
2
^^中心.
2.线性回归模型为y=bx+a+e,其中e为随机误差. 3.残差ei=yi-yi. 4.刻画回归效果的方法 (1)残差平方和法
n^^残差平方和? (yi-y)越小,模型拟合效果越好.
2
^i=1
(2)残差图法
残差图形成的带状区域的宽度越窄,模型拟合效果越好. (3)相关指数R法
2
R2越接近1,模型拟合效果越好.
5.K公式
2
K=2
a+cnad-bc2
b+da+bc+d,其中n=a+b+c+d.
[题型探究]
线性回归分析 某城市理论预测2014年到2018年人口总数与年份的关系如表所示: 年份201x(年) 0 1 2 3 4 1
人口数y(十万) (1)请画出上表数据的散点图; 5 7 8 11 19 (2)请根据上表提供的数据,求出y关于x的线性回归方程y=bx+a; (3)据此估计2022年该市人口总数.
【导学号:48662025】
[解] (1)散点图如图:
^^^
(2)因为x=
0+1+2+3+4
=2,
5
y=
5+7+8+11+19
=10,
5
0×5+1×7+2×8+3×11+4×19=132, 0+1+2+3+4=30, 所以b=
2
2
2
2
2
^132-5×2×10
30-5×2
2=3.2,
^^a=y-bx=3.6.
所以线性回归方程为y=3.2x+3.6. (3)令x=8,则y=3.2×8+3.6=29.2, 故估计2020年该城市人口总数为29.2(十万). [规律方法] 解决回归分析问题的一般步骤 (1)画散点图.根据已知数据画出散点图. (2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程. (3)回归分析.画残差图或计算R,进行残差分析. (4)实际应用.依据求得的回归方程解决实际问题. [跟踪训练] 1.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
2^^x(元) y(件) 14 12 16 10 18 7 20 5 22 3 且知x与y具有线性相关关系,求出y关于x的线性回归方程,并说明拟合效果的好坏. 2
1
[解] x=×(14+16+18+20+22)=18,
5
y=×(12+10+7+5+3)=7.4,
5
22222
i=14+16+18+20+22=1 660, ?x2
15
i=1
5
22222
i=12+10+7+5+3=327, ?y2
i=1
5
?xiyi=14×12+16×10+18×7+20×5+22×3=620,
i=1
5
?xiyi-5 x y^所以b=
i=1
5
620-5×18×7.4=2=-1.15,
1 660-5×18
2
i-5x?x2i=1
所以a=7.4+1.15×18=28.1,
所以y对x的线性回归方程为y=-1.15x+28.1, 列出残差表为
^^^yi-yi yi-y 5
0 4.6 0.3 2.6 -0.4 -0.4 -0.1 -2.4 0.2 -4.4 所以? (yi-yi)=0.3,
2
^i=1
5
? (yi-y)2=53.2,
i=1
^
? yi-yii=1
5
2
R=1-
5
2
≈0.994.
? yi-yi=12
2
所以R≈0.994,拟合效果较好.
独立性检验 3