第3节 变量的相关性与统计案例
考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
知 识 梳 理
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)
实用文档 1
画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y=ax+b的系数为:
^
^
^
称为样本点的中心.
(3)相关系数 ①计算相关系数r,r有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与y之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.
3.独立性检验 (1)2×2列联表 实用文档 2
B n11 n21 B n12 n22 -总计 A A 总计 n1+ n2+ n n+1 n+2 其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n21+n12+n22.
(2)χ2统计量
χ2=n(n11n22-n12n21)2
n1+n2+n+1n+2
. (3)两个临界值:3.841与6.635
当χ2>3.841时,有95%的把握说事件A与B有关;
当χ2>6.635时,有99%的把握说事件A与B有关;
当χ2≤3.841时,认为事件A与B是无关的.
[微点提醒]
^
^
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(x,y).
-
-
实用文档 3