统计回归总结
由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以我们通过对数据的统计分析,找出与数据拟合最好的模型。
我们通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进: 回归分析步骤如下:
? 收集一组因变量和自变量的数据
? 选定因变量和自变量之间的模型,利用数据最小二乘准则计算模型中的系数
? 利用统计分析方法对不同的模型进行比较找出与数据拟合得最好的模型
? 判断这组模型是否适合于这组数据诊断有无不适合回归模型的异常数据
? 利用模型对因变量做出预测与解释 实例分析 一、牙膏的销售量 题目:
收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,请根据对数据的处理建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙
膏销售量。
销售销售价格其它厂家平周期 1 2 3 4 … 30 广告费用 价格差销售量 (元) 均价格(元) (百万元) (元) (百万支) 3.85 3.75 3.70 3.70 … 3.70 3.80 4.00 4.30 4.30 … 4.25 5.50 6.75 7.25 5.50 … 6.80 -0.05 0.25 0.60 0 … 0.55 7.38 8.51 9.52 7.50 … 9.26 分析与假设
根据对题目中数据进行处理,作散点图分析(MATLAB)应用格式
Plot(x,y,’’)
Plotfit(x,y,1),其中x表示y 模型建立与求解
假设y ~公司牙膏销售量,x1~其它厂家与本公司价格差
?1 ? y ? 0 ? ? 1 x ? (1)x2~公司广告费用
2y????x??x01222 ? ?
(2)将(1)、(2)式子联立可以得到
2y??0??1x1??2x2??3x2??(
3)
y~被解释变量(因变量) x1,x2~解释变量(回归变量,自变量) ?0,?1,?2,?3~回归系数
?~随机误差(均值为零的正态分布随机变量) 利用MATLAB工具求解可以得到。 格式如下
[b,bint,r,rint,stats]=regress(y,x,alpha)
输入:
y~n维数据向量
x=[1 x1 x2 x22 ]~n×4数据矩阵,第一列为全1向量 alpha(置信水平,0.05) 输出:
b~?的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间
Stats~检验统计回归模型;检验统计量:R2,F,p
注:其中R2越接近1越好,F远超过F检验的临界值,p远小于?=0.05则可行
假如R2,F,p满足条件,则我们说模型从整体上看成立 结果分析
判断出 R2,F,p均成立,则模型可用,但因为?2的置信区间通过0点,则说明此项对模型的影响不显著所以要对模型进行改进。 模型进行改进
改进的方式是加入交叉项,则模型变为
2y??0??1x1??2x2??3x2??4x1x2?? (4)
然后用MATLAB求解检验,通过模型(3)、(4)的结果进行对比可以得到预测区间长度更短及系数的置信区间都不过0点,则可证明此(4)模型比(3)模型更精确 通过画图比较可以得出结论:
价格优势会使销售量增加 (x2小于7.5357百万元) 加大广告投入使销售量增加 (x2大于6百万元) 对模型进行进一步改进
因为MATLAB中有工具箱rstool(x,y)命令可以直接对完全二次多项式进行求解,所以将模型(4)改进为
22y????x??x??xx??x??x? ? 011223124152
(5)
结果分析得到(4)与(5)模型预测结果相差不大,则可以证明模
型的正确性。
2、软件开发人员的薪金 题目要求:
? 建立模型研究薪金与资历、管理责任、教育程度的关系; ? 分析人事策略的合理性,作为新聘用人员薪金的参考。
软件开发人员的薪金与他们的资历、管理责任、教育程度
编号 01 02 03 … 44 45 46 薪金 13876 11608 18701 … 17483 19207 19346 资历 1 1 1 … 16 17 20 管理 1 0 1 … 0 0 0 教育 1 3 3 … 1 2 1 资历~ 从事专业工作的年数; 管理~ 1=管理人员,0=非管理人员; 教育~ 1=中学,2=大学,3=更高程度。 分析与假设
y~薪金,x1~资历(年)x2=1~ 管理人员,x2=0~非管理人员 教育1=中学2=大学3=更高
数学建模方法之统计回归总结



