一章
1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。 回归分析按照涉及的
变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少, 可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非 线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似 表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量 之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相 关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。既可以从描述统计的角度,也 可以从推断统计的角度来说明。 所谓相关分析, 就是用一个指标来表明现象间相互依存关系的密切程度。 所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均 变化关系。它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关 的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着 高度相关时,进行回归分析寻求其相关的具体形式才有意义。由于相关分析不能指出变量间相互关系的 具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了 一个重要的方法。在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。通过相关与回归分析,虽然可以从数量 上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学 科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。因此,在应用时要把定性分 析和定量分析结合起来,在定性分析的基础上开展定量分析。
2. 解:进行回归分析通常要设定一定的数学模型。在回归分析中,最简单的模型是只有一个因变量和一个 自变量的线性回归模
型。这一类模型就是一元线性回归模型,又称简单线性回归模型。该类模型假定因 变量 Y 主要受自变量 X 的影响,它们之间存在着近似的线性函数关系,即有
Yt β1 β2Xt ut
该模型函数式被称为总体回归函数模型。式中的
β1和 β2是未知的参数,又叫回归系数。 Xt 和Yt分
别是 X 和 Y的第 t 次观测值。 ut 是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列 入方程式的其他各种因素对 Y 的影响。
总体回归模型函数事实上是未知的,需要利用样本的信息对其进行估计。
根据样本数据拟合的直线,称为样本回归直线,如果拟合的是一条曲线,则称为样本回归曲线。显 然,样本回归线的函数形式应与总体回归线的函数形式一致。一元线性回归模型的样本回归线可表示为
Yt β1 β2Xt
?
?
?
式中的 Y?t 是样本回归线上与 Xt 相对应的 Y值,可视为 E(Yt )的估计; β?1是样本回归函数的截距系 数, β? 2是样本回归函数的斜率,它们是对总体回归系数
β1和 β2的估计。实际观测到的因变量 Yt 值,
并不完全等于 Y?t ,如果用 et 表示二者之差 (et = Yt- Y?t ),则有
Yt β1 β2Xt et
?
?
t = 1,2,?, n。
上式称为样本回归函数。式中 et称为残差,在概念上, et与总体误差项 ut 相互对应; n 是样本的容 量。 样本回归函数与总体回归函数之间的联系显而易见。 这里需要特别指出的是它们之间的区别: 第一, 总体回归线是未知的,它只有一条;而样本回归线则是根据样本数据拟合的,有很多条。第二,总体回 归函数中的 β1 和 β2 是未知的参数,表现为常数。而样本回归函数中的
随所抽取的样本观测值不同而不同。第三,总体回归函数中的误差项 函数中的残差项 et 可以计算出具体数值。
综上所述,样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是要采用适当的方 法,充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。
β?1和 β2是随机变量,其具体数值
?
ut 是不可直接观测的。而样本回归
3. 解:设销售收入 X 为自变量,销售成本 Y 为因变量。现已根据某百货公司 12 个月的有关资料计算出以 下数据: (单位:
万元 )
∑(Xt- X )
= 425053.73 2
?
X =647.88
∑(Y?t- Y ) 2
= 262855.25
Y =549.8
∑(Yi—Y ) 2= 334229.09
lxx= 779668
lxy= 452089
要求:
(1) 拟合简单线性回归方程,并对方程中回归系数的经济意义作出解释。
y=b0+b1x
b0表示销售收入为 0 时的销售成本 b1表示每增加一个销售单位,销售成本增加的数量
(2) 计算回归估计的标准误差和可决系数。
SST=334229.09 SSR=262855.25
r2=SSR /SST=0.7865 SSE=SST - SSR=71373.84 MSE=SSE/10=7137.384
(3)
对回归系数进行显著水平为 5%的显著性检验。
b1= lxy /l xx=0.58
σ可估计为 84.7
假设 H0:β1=0, H1:β1≠0
t 检验统计量的观测值为 t=6.04
取 α=0.05 查 t 分布表得 t0.025(10)=2.2281 由于 t>t0.025(10),故拒绝 H0
(4) 假定明年 1月销售收入为 800 万元,利用拟合的回归方程预测相应的销售成本, 95%的预测区间。
并给出置信度为
b0=549.8-0.58 6×47.88=174.03 y=174.03+0.58x
代入 x=800 得 y=638.03
新观测值 y
0 的预测区间为: 0 a/2
yt(n 2)s(y0 y0)
查t 分布表得 t0.025 10 2.2281
2
2 ) 1 (800 647.88) S2(y0 y)0) MSE 1 8065.24
0 0 10 779668
故 y0的预测区间为 638.03 2±.2281 ×89.81,即 [437.92,838.14]
4. 试根据下表的资料,要求:
某发展中国家的国内生产总值与最终消费 (单位:亿元)
年份
1996 1997 1998
国内生产总值
3605.6 4073.9 4551.3
消费
2239.1 2619.4 2976.1
年份
2006 2007 2008
国内生产总值
14704.0 16466.0 18319.5
消费
9360.1 10556.5 11365.2
1999 2000
4901.4 5489.2
3309.1 3637.9
2009 2010
21280.4 25863.6
13145.9 15952.1
2001 6076.3 4020.5 2011 2002 7164.4 4694.5 2012 2003 8792.0 5773.0 2013 2004 10132.8 6542.0 2014 2005
11784.0
7451.2
2015
1)以消费为因变量,国内生产总值为自变量,拟合线性回归方程。
y=b0+b1x
2)计算回归估计的标准误差和可决系数。
X =271337/20=22483.2 Y =449664/20=13566.85
lxx= ∑X(i- X ) 2=9927868264 SST=∑(Yi- Y ) 2=3316717598
l xy=5724578433
b1= lxy÷lxx=0.577 b0=13566.85-0.577 22×483.2=594.04
y=0.577x+594.04 SSR=3290817119 SSE=SST-SSR=25900479 r 2= SSR/SST=0.992 MSE=SSE/18=1438916 3)对回归系数进行显著性水平为
5%的显著性检验。
假设 H0:β1=0 , H1:β1≠0
t 检验统计量的观测值为 t =48.1
取 α=0.05 查 t 分布表得 t0.025(18)=2.1009 由于 t > t0.025(18),故拒绝 H0
(4)假定 2016 年某发展中国家的国内生产总值为 105880 亿元,到的消费额,并给出置信度为 95%的预测区间。
代入 x=105880 得 y=61686.8
新观测值 y0 的预测区间为: y0 ta/2(n 2)s(y0 y0) 查t 分布表得 t0.025(18)=2.1009
S2(y0 y)0) MSE 1 1 (105880 22483.2)2 2518103
0 0 20 9927868264
34500.6 20182.1 47110.9 27216.2 59404.9 34529.4 69366.0 41039.5 76077.2
44768.2
利用拟合的回归方程预测该年可能达
故 y0的预测区间为 61686.8 2±.1009 ×1587,即 [58352.67,65020.93]
5. 解:研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归 分析,表现这一数量
关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计 算上比较麻烦一些而已。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同 来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一 元线性回归的实用意义更大。
6. 解:当给模型增加自变量时,复决定系数也随之逐步增大,当自变量足够多时总会得到模型拟合良好, 而实际却可能并非如
此。于是考虑对
R2 进行调整,记为 Ra2,称调整后复决定系数。
7. 解:( 1)Yt为商业利润率: X2t 为人均销售额; X3t为流通费用率。 β2表示人均销售额每增加一单位,商业利润率增加的数
量,符号为负 β3表示流通费用率每增加一单位,商业利润率增加的数量,符号为负
(2) Yt为粮食销售量; X2t 为人口数: X3t 为人均收入。 β2表示人口数每增加一单位,粮食销售量增加的数量,符号为正 β3表示人均收入数每增加一单位,粮食销售量增加的数量,符号为正 (3) Yt 为工业总产值; X2t为占用的固定资产; X3t为职工人数。
β2 表示占用的固定资产增加一单位,工业总产值增加的数量,符号为正 β3 表示占用的固定资产增加一单位,工业总产值增加的数量,符号为正
(4) Yt 为国内生产总值; X2t为工业总产值; X3t为农业总产值
β2 表示工业总产值增加一单位,国内生产总值增加的数量,符号为正 β3 表示农业总产值增加一单位,国内生产总值增加的数量,符号为正
8. 解:两个因素之间的相关关系叫做单相关,即研究时只涉及一个自变量和一个因变量。举例:研究一个
人身高对其体重的影响;
三个或三个以上因素的相关关系叫做复相关, 即研究涉及两个或两个以上的自变量和因变量。 举例: 研究大学毕业生选择工作的影响因素;
偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个 变量之间相关程度的过程。举例:教育水平与 GDP 相关,科技创造与 GDP 相关,剔除 GDP 这个变量, 研究教育水平与科技创造的关系。
9. 解:参数 a 是截距,表示 x 为 0 时, y 的取值;参数 b 是斜率,表示 x 每增长一个单位, y 增加的数量。
10. 解:( 1)作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象 间的内在联系和规
律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。另外,即使两 个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论。
(2)直线回归分析的资料,一般要求应变量
Y 是来自正态总体的随机变量,自变量 X 可以是正态随