第8章 相关与回归分析
一、相关分析概述 1、函数关系
(1)概念:函数关系是指变量之间存在着严格确定的数量依存关系 (2)特点:变量之间存在着数量上的相互依存关系。
变量之间数量上依存关系的具体关系值是固定的。 关系值可以用数学公式表示
2、相关关系
(1)概念:相关关系是指变量之间存的不严格确定的依存关系。 (2)特点:变量之间确实存在着数量上的依存关系。
变量之间数量上依存关系的具体关系值难以固定。 变量之间这种不固定的关系值不能用数学公式表示。
3、函数关系与相关关系的区别与联系
·区别 :相关关系是变量之间数量上不严格的依存关系,现象中变量关系完全对等;函
数关系是变量之间数量上严格的依存关系,现象中变量关系不是对等的。 相关关系是统计学的研究范围,函数关系是数学的研究范围。
·联系 :函数关系往往通过相关关系表现出来。
相关关系通常可以用一定的函数关系表达式去近似地描述。
4、相关关系的种类
·单相关、复相关和偏相关 ·线性相关和非线性相关 ·正相关和负相关
·完全相关、不完全相关和不相关 5、相关分析
(1)概念:是研究一个变量与另一个变量或另一组变量之间的相关方向和相关密切程度的
统计分析方法。
(2)特点:在相关分析中,两个变量关系呈对等,即在相关分析中,不必定出哪一个是自
变量,哪一个是因变量。可根据具体情况进行统计函数的设定。
在相关分析中,由于两个变量之间的对等关系,所以与均为随机变量。
(3)分类:可控相关分析、不可控相关分析
(4)内容:确定变量之间有无相关关系以及相关的表现形式
确定变量之间相关的密切程度
(5)方法
·相关表与相关图
相关表:简单相关表、分组相关表【单变量分组相关表(对自变量分组并计算次数,而对因变量不分组,只计算平均值) 双变量分组相关表(对自变量和因变量进行分组)】
二、相关系数
1、概念:是反映变量间相关关系密切程度的统计分析指标。 2、相关系数的计算 ??n?xy??x?yn?x?(?x)22n?y?(?y)22
3、相关系数的性质
(1)相关系数是一个抽象化的相对指标,其本身不表示任何经济涵义,它完全是进行相关
分析的一个工具。
(2)相关系数的取值范围是:|??|≤1。
(3)根据相关系数可以判断相关的方向,即当?1≤r<0 时,说明两变量之间存在着负相
关;即当0 (4)相关系数主要用来判断两个变量之间相关关系的密切程度。|??|的值越大,即越接近于 1,表明两变量之间的线性相关程度越高;反之,|??|的值越小,即越接近于0,表明两变量之间的线性相关程度越低。如果|??|=1 ,说明两变量之间为完全线性相关;如果r=0,说明两变量之间无线性相关关系,但并不表明其变量间不存在其他类型的关系。 4、相关系数的特点 (1)两变量对等,不分自变量、因变量,r只有一个。 (2)相关系数的符号可以反映相关方向。 (3)两变量都是随机变量。 5、相关系数的显著性检验 ①. 提出假设:??0:ρ=0.??1:ρ≠0 ②. 计算相关系数r的t的检验值t③. 查出临界值t?(n?2) 2= ??√???2 √1???2④. 判断:若t?t?拒绝接受原假设,接受备择假设 2 若t?t?接受原假设,拒绝接受备择假设 2三、回归分析 1、概念:由一个或一组非随机变量来估计或预测某一个随机变量的观察值所建立的数学模 型及所进行的统计分析,称为回归分析。 2、特点 (1)回归分析中,两个变量之间的关系不对等。 (2)回归分析中的两个变量,自变量是确定性变量,因变量是随机变量,因此,当给定自 变量值时,便能估计因变量值。但是不能从某个随机的因变量值出发,反过来去估计某个自变量值。 3、分类 按自变量的多少可分为一元回归和多元回归 按回归的表现形式可分为线性回归和非线性回归 4、回归分析的内容:拟合回归模型 测定和控制误差 显著性检验 5、回归分析与相关分析的关系 ·联系 回归分析和相关分析都是对客观事物数量依存关系的分析,在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析,相关程度愈高,回归测定的结果愈可靠。因此,相关系数也是判定回归效果的一个重要依据。 相关系数同回归模型中参数可以相互换算,特别是多元相关和非线性相关的相关系数,必须利用回归模型才能求得。 ·区别 相关分析是研究变量之间的共变关系,这些变量相互对应,却不分主与从或因与果。回归分析却是在控制或给定一个或几个变量条件下来观察对应的某一变量的变化,给定的变量称为自变量,不是随机变量,被观察的对应的变量称为因变量,却依然 是随机变量。当给定一个自变量数值时,因变动可能有多个取值,并且形成一个分布。回归分析必须根据研究的目的和对象的性质确定哪个是自变量(也称为解释变量),哪个是因变量(也称为被解释变量)。 相关分析主要是测定变量之间关系的密切程度和变量变化的方向。而回归分析却可以对具有相关关系的变量建立一个数学方程(也称回归模型)描述变量之间具体的变动关系,通过控制或给定自变量的数值来估计或预测因变量可能的数值。 6、相关分析与回归分析应注意的事项 作相关与回归分析要有实际意义 对相关分析的作用要正确理解 要选择适宜的资料 在相关与回归分析中,由x推算y与由y推算x 是不同的,不可混淆 回归方程的适用范围有其限度 四、线性回归分析 (一)简单线性回归分析 1、简单线性回归方程是用于分析一个自变量与一个因变量之间线性关系的数学方 ??a?bx 程。其表现形式为:ynxy?xy b? 22nx?x a?y?bx{ 2、简单线性回归方程拟合优度与评价:判定系数??2 、估计标准误差 3、线性回归方程误差的分解 实际值与均值的总偏差包括两个部分,即: ?????????y?y?2??y)2??(y?y?)2 ??(y总偏差=回归偏差+剩余偏差 SST=SSR+SSR 相对来说,在总偏差里,回归偏差比重较大时,x与y的依存关系很强。 4、判定系数与相关系数 判定系数是以回归偏差占总偏差的比率来表示线性回归方程的拟合优度的评价指标。 r2?SSRSSE ?1?SSTSSTr?r2 判定系数按上述公式计算是比较繁琐的,但我们可以证明它与相关系数有如下关系: ·判定系数具有如下特性:判定系数具有非负性、判定系数的取值范围为[0,1]、判 定系数是样本观测值的函数,它也是一个统计量。 5、估计标准误差 ?)2?(y?y?y2?a?y?b?xy·计算公式:Sxy? 简捷计算公式:Sxy? n?2n?26、线性回归方程的显著性检验 (1)回归系数的检验 (β≠0为总体回归线就是一条水平线) ①. 提出假设:??0:β=0.??1:β≠0 ②. 计算回归系数β的b的检验值t③. 查出临界值t?(n?2) 2= ????????? Sb?Sxy?x2?n(x)2 ④. 判断:若t?t?拒绝接受原假设,接受备择假设,得出β≠0 2 若t?t?接受原假设,拒绝接受备择假设 2(2)线性回归方程的显著性检验 ①. 提出假设??0:方程不显著.??1:方程显著 ??y)/1?(y②. 计算回归方程的检验统计量F的检验值F? ??y)/n?2?(y22③. 查出临界值F?(1,n?2) ④. 判断:若F?F?拒绝接受原假设,接受备择假设 若F?F?接受原假设,拒绝接受备择假设 注: 在两个变量的情况下,F检验与t检验是等价的,假设可任选一种进行检测 7、简单线性回归方程的预测 ?0 ①. 计算预测值y?0?tSy②. 计算预测区间y(二)多元线性回归分析(了解) 1(x0?x)21?? n?(x?x)2l1yl22?l2yl12 b? 1ll?(l)2112212 ??a?b1x1?b2x2 1、二元线性回归方程的拟合 y b2?2ll?(l)112212 {a?y?b1x1?b2x2l2yl11?l1yl12 1112l11??x12?(?x1)2 l22??x2?(?x2)2 l1y??x1y??x1?y nnn11l2y??x2y??x2?y l12??x1x2??x1?x2 nn2、判定系数与估计标准误差 3、复相关系数与偏相关系数