好文档 - 专业文书写作范文服务资料分享网站

数学实验12:回归分析

天下 分享 时间: 加入收藏 我要投稿 点赞

序号

Y X1

X2 X3 X4 X5

实验 12 :回归分析

习题 7:

在有氧锻炼中人的耗氧能力 y(ml/(min ·kg))是衡量身体状况的重要指标,它 可能与以下因素有关: 年龄 x1,体重 x2(kg),1500m 跑的时间 x3(min),静止时心跳速 度x4(次/min ),跑步后心速 x5(次/min ).对 24名40至 57岁的志愿者进行了 测试,结果如下表(节选),试建立耗氧能力 y 与诸因素的之间的回归模型。

1

2

3 4?

21

22

23

24

?

44

40 44

42 ?

57

54

52

50

?

?

62

62 45 40 ? 58 62 48

48 178

185 156 166 ? 174 156 164 146

(1) 若 x1~x5 中只许选择 1 个变量,最好的模型是什么 (2) 若 x1~x5中只许选择 2 个变量,最好的模型是什么 (3) 若不限制变量的个数,最好的模型是什么 (4) 对最终模型观察残查,有无异常点,若有,剔除后如何

模型建立

本题不同小问需要建立不同模型,由于专业知识所限,并且提供的数据较少,难以做出精 确符合现实情况的模型,因此这里采用最简单的线性回归法进行拟和

,模型基本形式如下:

y 0

1x1

L

mx

m

jk xjx

k

1 j ,k m

事实上, 中的项(高次项和交互项)对于本题目来讲意义不大,因为所给定的 5 个自变量 和因变量之间关系比较模糊, 几个变量彼此之间的联系也很难说清, 因此用自变量的一次线性拟 和就足以适应本题的要求。但作为练习,还是将每种回归方法都使用到了,可以用于参考。

具体采用的各个模型将在下面单独说明,这里不再重复。

程序设计 由于本题需要建立多组模型,并且要在不断的调试中发现最合理的,很多命令都要在这个 过程中不断使用,这里仅仅给出使用的最基本的命令。 数据

clear A=[ ?]; %数据矩阵,略

n=24; y=A(2,:);

%提取各个数据 x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);

绘制散点图(大致判断影响情况)

for i=1:5

subplot(2,3,i),plot(A(i+2,:),y,'+'),grid pause end

pause

%这里检验的是自变量 x4,实际操作时要分别检验 x1~x5

%回归分析程序( =)

%输出回归系数估计值、置信区间、以及统计量

%残差图

单参数回归(第一问)

X=[ones(n,1),x4'];

[b,bint,r,rint,s]=regress(y',X); b,bint,s, rcoplot(r,rint)

Polytool(x3',y',2) 双参

数回归(第二问):

%检验一元多项式回归的结果,输出交互式画面

用逐步回归法找出最合理的两个变量

X5=[x1',x2',x3',x4',x5']; stepwise(X5,y') ; XX=[x3',x1'];

rstool(XX,y','linear') 全部

参数回归(第三问)

%利用输出的交互式画面,可以选出最佳的两个变量 %当得到了最佳的两个变量后(这里假设是

x3\\x1

%检验二元情况下的交互项和高次项

%仍然用逐步回归法找出最合理的组合方式

X5=[x1',x2',x3',x4',x5']; stepwise(X5,y')

第五问要求对残差进行分析,并且剔除异常点,可以在该问得到最终模型后,采用

regress 得到的残差值和置信区间并根据其绘制残差图,然后再进行剔除操作重新检验。

运行结果及分析 散点图 散点图

从左上到右下的顺序为 x1~x5. 可以由点的分布大致看出,除了 x3 自变量呈现比较明显 的负相关趋势以外,

对于其他的各个自变量都难以直接观测出其对于因变量的影响。 根据这种结

果,可以假设自变量 x3(1500m 跑后心速 )最直接的与锻炼耗氧能力相关, 下面通过对各个自变量 的单参数回归进行检验单被检对象 参数回。 归 p β0 β1 β1 置信区间 R^2 F s^2 X1 X2 X3 0 X4 X5 由单参数回归的结果可以证明 X3(1500m 跑后心速 )可以最好的反映出 y(锻炼耗氧能力 )的情 况。由 β1 置信区间可以看出, x1、x2 包含 0 在内,即 y可能与该参数无关,所以不选择,并且

2

两者的 p 值已经明显的大于

=,则不考虑 x1、x2。比较 x3~x5 后发现, x3 的 R -决定系数明显

2

的大于 x4、x5 的,决定系数反映的是在因变量的总变化中自变量引起的那部分的比例,

R 大说

2

明 x3 自变量对因变量起的决定作用最大。并且 x3 的 p 和 s^2 值也都比较小,所以最终确定 x3 可以最好的反映出 y 的情况。

65

60

40

35

30

5 5.5

6 6.5

7 7.5

8 8.5

可以同之前的仅含一次项的结果进行比较,发现各个参量的置信区间都很宽,且

过 0 。可以认为二次项的引入是不重要的。

β2 的置信区间

用 Polytool 检验含 x3 高次( 2 次)项的情况,参量 Export 如下表:

β0 β1 β2 回归系数估计值 置信区间下限 置信区间上限

数学实验12:回归分析

序号YX1X2X3X4X5实验12:回归分析习题7:在有氧锻炼中人的耗氧能力y(ml/(min·kg))是衡量身体状况的重要指标,它可能与以下因素有关:年龄x1,体重x2(kg),1500m跑的时间x3(min),静止时心跳速度x4(次/min),跑步后心速x5(次/min
推荐度:
点击下载文档文档为doc格式
9cl5l16s2q0088t3x4ji0cqsi0v0jd00p8b
领取福利

微信扫码领取福利

微信扫码分享