方差分析 差异源 样本 列 交互 内部 总计
SS 1752 798 182.6667
324 3056.667
df
MS
F
P-value
F crit
2 876 48.66667 5.49E-08 6.012905 2 399 22.16667 1.4E-05 6.012905 4 45.66667 2.537037 0.075902 4.579036 18 18 26
(1) 竞争者的数量对销售额有显著影响 (2) 超市位置对销售额有显著影响 (3) 无交互作用 10.12 解: 方差分析 差异源 样本
列 交互 内部 总计
SS 344 48 56 96 544
df
2 1 2 6
11
MS
F
P-value
F crit
172 10.75 0.010386 5.143253 48 3 0.133975 5.987378 28 1.75 0.251932 5.143253 16
(1) 广告方案对销售量有显著影响 (2) 广告媒体形式对销售量无显著影响 (3) 无交互作用
第11章 一元线性回归
一、思考题
11.1.变量之间存在的互相依存的不确定的数量关系,称为相关关系。相关关系的特点:
⑴变量之间确实存在着数量上的依存关系;⑵变量之间数量上的关系是不确定、不严格的依存关系。
11.2.相关分析通过对两个变量之间的线性关系的描述与度量,主要解决的问题包括:⑴变量之间是否存在关系?⑵如果存在关系,它们之间是什么样的关系?⑶变量之间的关系强度如何?⑷样本所反映的变量之间的关系能否代表总体变量之间的关系?
11.3.在进行相关分析时,对总体主要有以下两个假定:⑴两个变量之间是线性关系;⑵两个变量都是随机变量。
11.4.相关系数的性质:⑴r的取值范围是[-1,1],r为正表示正相关,r为负表示负相关,r绝对值的大小表示相关程度的高低;⑵对称性:X与Y的相关系数rxy和Y与X之间的相关系数ryx相等;⑶相关系数与原点和尺度无关;⑷相关系数是线性关联或线性相依
的一个度量,它不能用于描述非线性关系;⑸相关系数只是两个变量之间线性关联的一个度量,却不一定意味两个变量之间有因果关系;⑹若X与Y统计上独立,则它们之间的相关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性。
11.5.在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性。样本容量越小,其可信程度就越差,抽取的样本不同,r的取值也会不同,因此r是一个随机变量。能否用样本相关系数来反映总体的相关程度,需要考察样本相关系数的可靠性,因此要进行显著性检验。
11.6.相关系数显著性检验的步骤:⑴提出假设;⑵计算检验统计量t值;⑶在给定的显著性水平?和自由度,查t分布表中相应的临界值,作出决策。
11.7.回归模型是对统计关系进行定量描述的一种数学模型,例如:对于具有线性关系的两个变量,可以有一元线性方程来描述它们之间的关系,描述因变量y如何依赖自变量x和误差项?的方程称为回归模型。
回归方程是对变量之间统计关系进行定量描述的一种数学表达式。指具有相关的随机变量和固定变量之间关系的方程。
当总体回归系数未知时,必须用样本数据去估计,用样本统计量代替回归方程中的未知参数,就得到了估计的回归方程。
11.8.一元线性回归模型通常有以下几条基本的假定:⑴变量之间存在线性关系;⑵在重复抽样中,自变量x的取值是固定的;⑶误差项ε是一个期望为零的随机变量;⑷)对于所有的x值,误差项?的方差?都相同;⑸误差项?是一个服从正态分布的随机变量,且相互独立。即?2N(0,?2)。
11.9.参数最小二乘法的基本原理是:因变量的观测值与估计值之间的离差平方和最小。
11.10.总平方和指n次观测值的的离差平方和,衡量的是被解释变量y波动的程度或不确定性的程度。回归平方和反映y的总变差中由于x与y之间的线性关系引起的y的变化部分,这是可以由回归直线来解释的部分,衡量的是被解释变量y不确定性程度中能被解释变量x解释的部分。残差平方和是除了x对y的线性影响之外的其他因素引起的y的变化部分,是不能由回归直线来解释的部分。它们之间的关系是:
总平方和=回归平方和 + 残差平方和。
11.11.回归平方和占总平方和的比例称为判定系数。判定系数测量了回归直线对观测数据的拟合程度。
11.12.在回归分析中,F检验是为检验自变量和因变量之间的线性关系是否显著,通过均方回归与均方残差之比,构造F检验统计量,提出假设,根据显著性水平,作出判断。
t检验是回归系数的显著性检验,要检验自变量对因变量的影响是否显著,通过构造t检验统计量,提出假设,根据显著性水平,作出判断。
11.13.线性关系检验的步骤:⑴提出假设;H0:?1?0;⑵构造F检验统计量;
F?SSR/1MSR?;⑶根据显著性水平,作出判断。
SSE/(n?2)MSE回归系数检验的步骤:⑴提出假设;H0:?1?0;H1:?1?0;⑵构造t检验统计量;
t???1s??1;⑶根据显著性水平,作出判断。
11.14.回归分析结果的评价可以从以下几个方面:⑴回归系数的符号是否与理论或事先预期相一致;⑵自变量与因变量之间的线性关系,在统计上是否显著;⑶根据判定系数的大小,判断回归模型解释因变量取值差异的程度;⑷误差项的正态假定是否成立。
11.15.置信区间估计是对x的一个给定值x0,求出y的平均值的区间估计。预测区间估计是对x的一个给定值x0,求出y的一个个别值的区间估计。二者的区别是:置信区间估计的区间长度通常较短,而预测区间估计的区间长度要长,也就是说,估计y的平均值比预测y的一个特定值或个别值更精确。
11.16.残差分析在回归分析中的作用:回归分析是确定两种或两种以上变量间的定量关系的一种统计分析方法.判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果,并判定关于误差项的正态假设是否成立。
二、练习题
11.1.(1)散点图如下:
200160生产费用12080400050产量100150
从散点图可以看出,产量与生产费用之间为正的线性相关关系。 (2)利用Excel的“CORREL”函数计算的相关系数为r?0.920232。 (3)首先提出如下假设:H0:??0,H1:??0。 计算检验的统计量 t?rn?2?0.9202321?r212?21?0.9202322?7.435
?2.228,拒
当??0.05时,t0.052(12?2)?2.228。由于检验统计量t?7.435?t?2
绝原假设。表明产量与生产费用之间的线性关系显著。
11.2(1)散点图如下:
10080考试分数604020001020复习时间3040
从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。
(2)利用Excel的“CORREL”函数计算的相关系数为r?0.8621。相关系数r?0.8,表明复习时间与考试分数之间有较强的正线性相关关系。
???0.5表示x每增加一个??10表示当x?0时y的期望值为10。11.3.(1)?(2)?10单位,y平均下降0.5个单位。(3)x?6时,E(y)?10?0.5?6?7。
1.4.(1)R2?SSRSSR36???90% SSTSSR?SSE36?4R2?90%表示,在因变量y取值的变差中,有90%可以由x与y之间的线性关系来解
释。
(2)se?SSE4??0.5 n?218?2se?0.5表示,当用x来预测y时,平均的预测误差为0.5。
11.5.(1)散点图如下:
65运送时间432100500运送距离10001500
从散点图可以看出,运送距离与运送时间之间为正的线性相关关系。
(2)利用Excel的“CORREL”函数计算的相关系数为r?0.9489。相关系数r?0.8,表明运送距离与运送时间之间有较强的正线性相关关系。
(3)由Excel输出的回归结果如下表:
回归统计
Multiple R R Square
Adjusted R Square 标准误差 观测值 方差
回归分析 残差 总计
Intercept X Variable 1
df 0.948943 0.900492 0.888054 0.480023
10
SS
MS
F
Significance F
2.79E-05
1 16.68162 16.68162 72.39585 8 1.843379 0.230422 9 18.525
t Stat
P-value
Coefficients 标准误差
0.002613
0.118129 0.355148 0.33262 0.74797 0.003585 0.000421 8.508575 2.79E-05
??0.118129?0.003585x 得到的回归方程为:y??0.003585表示运送距离每增加1公里,回归系数?运送时间平均增加0.003585天。 111.6.(1)散点图如下:
1400012000人均消费水平100008000600040002000001000020000人均GDP3000040000
从散点图可以看出,人均GDP与人均消费水平为正的线性相关关系。
(2)利用Excel的“CORREL”函数计算的相关系数为r?0.998128。相关系数接近于1,表明人均GDP与人均消费水平之间有非常强的正线性相关关系。
(3)Excel输出的回归结果如下表:
回归统计
Multiple R R Square
Adjusted R Square 标准误差 观测值 方差分析
回归 残差
df 0.998128 0.996259 0.995511 247.3035
7
SS
MS
F
Significance F
2.91E-07
1 81444969 81444969 1331.692 5 305795 61159.01