序号
Y X1
X2 X3 X4 X5
实验 12 :回归分析
习题 7:
在有氧锻炼中人的耗氧能力 y(ml/(min ·kg))是衡量身体状况的重要指标,它 可能与以下因素有关: 年龄 x1,体重 x2(kg),1500m 跑的时间 x3(min),静止时心跳速 度x4(次/min ),跑步后心速 x5(次/min ).对 24名40至 57岁的志愿者进行了 测试,结果如下表(节选),试建立耗氧能力 y 与诸因素的之间的回归模型。
1
2
3 4?
21
22
23
24
?
44
40 44
42 ?
57
54
52
50
?
?
62
62 45 40 ? 58 62 48
48 178
185 156 166 ? 174 156 164 146
(1) 若 x1~x5 中只许选择 1 个变量,最好的模型是什么 (2) 若 x1~x5中只许选择 2 个变量,最好的模型是什么 (3) 若不限制变量的个数,最好的模型是什么 (4) 对最终模型观察残查,有无异常点,若有,剔除后如何
模型建立
本题不同小问需要建立不同模型,由于专业知识所限,并且提供的数据较少,难以做出精 确符合现实情况的模型,因此这里采用最简单的线性回归法进行拟和
,模型基本形式如下:
y 0
1x1
L
mx
m
jk xjx
k
1 j ,k m
事实上, 中的项(高次项和交互项)对于本题目来讲意义不大,因为所给定的 5 个自变量 和因变量之间关系比较模糊, 几个变量彼此之间的联系也很难说清, 因此用自变量的一次线性拟 和就足以适应本题的要求。但作为练习,还是将每种回归方法都使用到了,可以用于参考。
具体采用的各个模型将在下面单独说明,这里不再重复。
程序设计 由于本题需要建立多组模型,并且要在不断的调试中发现最合理的,很多命令都要在这个 过程中不断使用,这里仅仅给出使用的最基本的命令。 数据
clear A=[ ?]; %数据矩阵,略
n=24; y=A(2,:);
%提取各个数据 x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);
绘制散点图(大致判断影响情况)
for i=1:5
subplot(2,3,i),plot(A(i+2,:),y,'+'),grid pause end
pause
%这里检验的是自变量 x4,实际操作时要分别检验 x1~x5
%回归分析程序( =)
%输出回归系数估计值、置信区间、以及统计量
%残差图
单参数回归(第一问)
X=[ones(n,1),x4'];
[b,bint,r,rint,s]=regress(y',X); b,bint,s, rcoplot(r,rint)
Polytool(x3',y',2) 双参
数回归(第二问):
%检验一元多项式回归的结果,输出交互式画面
用逐步回归法找出最合理的两个变量
X5=[x1',x2',x3',x4',x5']; stepwise(X5,y') ; XX=[x3',x1'];
rstool(XX,y','linear') 全部
参数回归(第三问)
%利用输出的交互式画面,可以选出最佳的两个变量 %当得到了最佳的两个变量后(这里假设是
)
x3\\x1
%检验二元情况下的交互项和高次项
%仍然用逐步回归法找出最合理的组合方式
X5=[x1',x2',x3',x4',x5']; stepwise(X5,y')
第五问要求对残差进行分析,并且剔除异常点,可以在该问得到最终模型后,采用
regress 得到的残差值和置信区间并根据其绘制残差图,然后再进行剔除操作重新检验。
运行结果及分析 散点图 散点图
从左上到右下的顺序为 x1~x5. 可以由点的分布大致看出,除了 x3 自变量呈现比较明显 的负相关趋势以外,
对于其他的各个自变量都难以直接观测出其对于因变量的影响。 根据这种结
果,可以假设自变量 x3(1500m 跑后心速 )最直接的与锻炼耗氧能力相关, 下面通过对各个自变量 的单参数回归进行检验单被检对象 参数回。 归 p β0 β1 β1 置信区间 R^2 F s^2 X1 X2 X3 0 X4 X5 由单参数回归的结果可以证明 X3(1500m 跑后心速 )可以最好的反映出 y(锻炼耗氧能力 )的情 况。由 β1 置信区间可以看出, x1、x2 包含 0 在内,即 y可能与该参数无关,所以不选择,并且
2
两者的 p 值已经明显的大于
=,则不考虑 x1、x2。比较 x3~x5 后发现, x3 的 R -决定系数明显
2
的大于 x4、x5 的,决定系数反映的是在因变量的总变化中自变量引起的那部分的比例,
R 大说
2
明 x3 自变量对因变量起的决定作用最大。并且 x3 的 p 和 s^2 值也都比较小,所以最终确定 x3 可以最好的反映出 y 的情况。
65
60
40
35
30
5 5.5
6 6.5
7 7.5
8 8.5
可以同之前的仅含一次项的结果进行比较,发现各个参量的置信区间都很宽,且
过 0 。可以认为二次项的引入是不重要的。
β2 的置信区间
用 Polytool 检验含 x3 高次( 2 次)项的情况,参量 Export 如下表:
β0 β1 β2 回归系数估计值 置信区间下限 置信区间上限