第2章数据分析(梅长林)习题题答案

由天下分享时间：2025/3/7 10:27:44 加入收藏我要投稿点赞

第2章习题

一、习题

（1）回归模型

yi??0??1xi1??2xi2??i,i?1,2,?15

调用proc reg过程, 得到参数估计的相关结果：

Parameter Estimates Parameter Standard - Variable DF Estimate Error t Value Pr > |t| Intercept 1 x1 x2 ]

~ <.0001 <.0001 1 1 由此输出得到的回归方程为：

y?3.45261?0.49600X1?0.00920X2

?由最后一列可以看出，使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。?0?3.46521可以理解为该化妆品作为一种必需品每个月的销售量。当购买该化妆品的人数固定时，月收入没增加一个一个单位，改化妆品的销售数量将增加个单位。同理，当购买该化妆品的人均月收入固定时，购买该化妆品的人数每增加一千人，该化妆品的销售数量将增加个单位。

??2??SSE是?2的无偏估计，所以?2的估计值是. n?pAnalysis of Variance ` Sum of Mean DF Squares Square F Value Pr > F 3 : 11 53845 53902 17948 <.0001 … （2）调用proc reg过程, 得到方差分析表： Source Model Error Corrected Total 14

由此可到线性回归关系显著性检验：

H0:?1??2?0?H1:?1,?2至少有一个为0

SSR/(p?1)MSR?的观测值F0?5679.47,检验的p值

SSE/(n?p)MSEp0?pH0(F??F0)?0.0001

SSR53845??0.9989，R2描述了由自由变量的线性关系函另外R2?SST53902的统计量F?数值所能反映的Y的总变化量的比例。表明线性关系越明显。R2越大，这些结果均表明Y与X1，X2之间的回归关系高度显著。

（3）若置信水平??0.05，由t0.975(12)?2.17881，利用参数估计值得

到?0,?1,?2的置信区间分别为：

对?0,3.45216?2.1781?2.43065?3.4516?5.2942，即(?1.8426, 8.7458)）对?1：0.49600?2.1781?0.00605?0.49600?0.01318，即(0.48282,0.50198) ?2：，即0.00920?2.1781?0.0009681?0.00920?0.0021）

(?0.0071,0.00113)

(4)首先检验X1对Y是否有显著性影：

2,?15 假设其约简模型为：yi??0??2xi2??i,i?1,由观测数据并利用proc reg过程拟合此模型求得：

SSE(R)?484.88137 fR?15?2?13 SSE(F)?56.88357 fR?15?3?12

由F?F0?[SSE(R)?SSE(F)](fR?fF)求得检验统计量的值为：

SSE(F)/fF由此拒绝原假设，所以x2对Y有显著影响。

同理检验X2对Y是否有显著性影：

484.88137?56.88357?90.356.88357/12

p0?pH0(F??F0)?P(F(1,13)??F0)?0.05

2,?15 假设其约简模型为：yi??0??1xi1??i,i?1,由观测数据并利用proc reg过程拟合此模型求得： SSE(R)?31872 fR?15?2?13

SSE(F)?56.88357 fR?15?3?12

31872?56.8835756.88357/12 p0?pH0(F??F0)?P(F(1,13)??F0)?0.05

由F?F0?[SSE(R)?SSE(F)](fR?fF)求得检验统计量的值为：

SSE(F)/fF由此拒绝原假设，所以x2对Y有显著影响。

检验X1、x2交叉项对Y是否有显著性影：

2,?15 假设其全模型为：yi??0??1xi1??2xi2??3xi1xi2??i,i?1,|

检验X1、X2的交互作用是否显著即检验假设H0:?3?0是否能被拒

绝。

由观测数据并利用proc reg过程拟合此模型求得： SSE(F)?56.72 fF?15?4?11

SSE(R)?56.88357 fR?15?3?12

[SSE(R)?SSE(F)](fR?fF)求得检验统计量的值为：

SSE(F)/fF由F?F0?由此接受原假设，也即X1*X2对Y无显著影响，即模型中没有必要引进交叉项。

（5）关于Y的预测：

对于给定的X1，X2的值（220,2500），由回归方程可以得到y0的预测值：

56.88357?56.72?0.0317

56.72/11p0?pH0(F??F0)?P(F(1,11)??0.0317)?0.138?0.05

T?1(XX)y0为了得到的95%的置信区间，我们需要知道：

y0?3.45261?0.49600?220?0.00920?2500?135.573

X'X Inverse, Parameter Estimates, and SSE Variable Intercept x1 x2 y Intercept | x1 x2 y ·

。

x0?(1,220,2500)T，MSE?4.74030，求得

由

间为：

y的置信度为95%的置信区

Ty?t0.975(12)?MSE[1?x0(XTX)?1x0]?135.5726?2.1788?2.2818?135.5726?4.9716即(130.6010,140.5442)

（6）利用proc reg过程可根据要求输出学生化残差：

：

Obs y predict resid student h 1 162 2 120 3 % 》： ' 223 4 131 5 67 6 169 7 81 8 ? ) [ 192 9 116 10 55 11 252 12 232 13 # > 144 14 103 15 212

利用学生化残差，检验模型误差项的正态性假定的合理性： 1频率检验法： ○

学生化残差中有10/15=（约）落在（-1,1）内；有13/15=（约）落在（,）内；有15/15=1（约）落在（-2,2）内。由此可见，学生化残差在上述各区间内的频率与N（0,1）分布的相应概率相差均不大，因此模型误差项的正态性假定是合理的。②正态QQ图

利用proc capability直接作出学生化残差的正态QQ图，如下所示：

2Stude1ntized0 Resi-1dual-2-2.0-1.5-1.0-0.50.0正态分位数0.51.01.52.0 从图像可以看出，散点明显分布在一条直线上，则进一步说明学生化残差来自正态总体分布。通过sas计算得到(ri,qi) Normal Line:Mu=0, Sigma=1Obs 1 2 3 4 5 6 7 8 -R 《 Q — > ~ 9 10 11 12 13 14 15 再利用proc corr得到学生化残差与相应标准正态分布的分位数的pearson相关系数矩阵。可以看出学生化残差与相应标准正态分布的分位数的相关系数为<,所以学生化残差与相应标准正态分布的分位数显著相关。