最小二乘法在数学模型建立与检验中的应用
信息与计算科学专业2008级 周建勤
摘要:本文主要研究了最小二乘法在建立数学模型中的参数学模型中的参数估计数估计,
模型检验中的应用。通过给出最小二乘法在Matlab中的代码计算模型参数,误差精确度,并给出检验模型是否具有多重共线,异方差性,序列相关性方法。
关键词:最小二乘法;参数估计;误差精确度;多重共线性;异方差;自相关。
Application of Least-Square Method on establish and test mathematical model
Zhou Jianqin ,Grade 2008,Information and Computing Science
Abstract: In this text we main consider application of Least-Square Method in use of parameter estimation and model checking in mathematical models. By giving the least squares method's code in Matlab to find the model Heteroscedasticity, autocorrelation method parameters,Error accuracy and Test whether the model with multiple collinear heteroscedasticity, autocorrelation method.
Keywords: least squares method; parameter estimation; error accuracy; multicollinearity; heteroscedasticity; autocorrelation.
背景介绍
最小二乘方法最早是有高斯提出的,他用这种方法解决了天文学方面的问题,特别是确定了某些行星和彗星的天体轨迹。最小二乘法普遍适用于各个科学领域,它在解决实际问题中发挥了重要的作用。它在生产实践、科学实验及经济活动中均有广泛应用。
近半个多世纪以来,随着计算机技术的迅速发展,数学的应用不仅在工程技术、自然科学等领域发挥着越来越重要的作用,而且以空前的广度和深度向经济、管理、金融、生物、医学、环境、地质、人口、交通等新的领域渗透,所谓数学技术已经成为当代高新技术的重要组成部分 。数学模型是一种模拟,是用数学符号、数学式子、程序、图形等对实际课题本质属性的抽象而又简洁的刻划,它或能解释某些客观现象,或能预测未来的发展规律,或能为控制某一现象的发展提供某种意义下的最优策略或较好策略。数学模型一般并非现实问题的直接翻版,它的建立常常既需要人们对现实问题深入细微的观察和分析,又需要人们灵活
巧妙地利用各种数学知识。这种应用知识从实际课题中抽象、提炼出数学模型的过程就称为数学建模。 不论是用数学方法在科技和生产领域解决哪类实际问题,还是与其它学科相结合形成交叉学科,首要的和关键的一步是建立研究对象的数学模型,并加以计算求解。 在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程。18世纪末德国数学家C.F.高斯首先提出参数估计的方法,他用最小二乘法计算天体运行的轨道。20世纪60年代,随着电子计算机的普及,参数估计有了飞速的发展。参数估计有多种方法,有最小二乘法、极大似然法、极大验后法、最小风险法和极小化极大熵法等。在一定条件下,后面三个方法都与极大似然法相同。最基本的方法是最小二乘法和极大似然法。
由于测量仪器的精度不完善和人为因素及外界条件的影响,测量误差总是不可避 免的。为了提高成果的质量,处理好这些测量中存在的误差问题,观测值的个数往往要多于确定未知量所必须观测的个数,也就是要进行多余观测。有了多余观测,势必在观测结果之间产生矛盾,测量平差的目的就在于消除这些矛盾而求得观测量的最可靠结果并评定测量成果的精度。测量平差采用的原理就是“最小二乘法”。
由于误差的客观存在,真值一般是无法测得的。测量次数无限多时,根据正负误差出现的概率相等的误差分布定律,在不存在系统误差的情况下,它们的平均值极为接近真值。故在实验科学中真值的定义为无限多次观测值的平均值。但实际测定的次数总是有限的,由有限次数求出的平均值,只能近似地接近于真值,可称此平均值为最佳值。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。 经济学是非实验型科学,经济数据是被动生成和由从事经济研究的人员被动获得,而且经济数据的获得是不可控的,大多数情况下,人们并不能按照自己的设计与要求获得相应的经济数据。所以,为建模研究而取得的样本数据常常不能提供足够的信息,以至于导致多重共线性的产生。
异方差性(heteroscedasticity )是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定是:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。
线性回归模型中随机误差项存在序列相关的原因很多,但主要是经济变量自身特点、数据特点、变量选择及模型函数形式选择引起的。 1.经济变量惯性的作用引起随机误差项自相关 2.经济行为的滞后性引起随机误差项自相关
3.一些随机因素的干扰或影响引起随机误差项自相关 4.模型设定误差引起随机误差项自相关 5.观测数据处理引起随机误差项序列相关 文章对经典的最小二乘方法的应用背景、原理与算法进行了介绍,给出了它们在线性模型参数估计中的MATLAB实现,以经典单方程数学模型为对象,介绍建立数学模型的过程,主要采用回归分析的方法的数学模型,采用最小二乘法计算模型中参数,误差估计,并检验模型的多重共线性,异方差,自相关性。
知识预备 最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实
际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达 。
最小二乘法原理
在我们研究两个变量(x,y)之间的相互关系时,通常可以得到一系列成对的数据(x1,y1.x2,y2... xm,ym);将这些数据描绘在x -y直角坐标系中,若发现这些点在一条直线附近,可以令这条直线方程如(式1-1)。
Y计= a0 + a1 X (式1-1)
其中:a0、a1 是任意实数 为建立这直线方程就要确定a0和a1,应用《最小二乘法原理》,将实测值Yi与利用(式1-1)计算值(Y计=a0+a1X)的离差(Yi-Y计)的平方和〔∑(Yi - Y计)2〕最小为“优化判据”。
令:φ = ∑(Yi - Y计)(式1-2) 把(式1-1)代入(式1-2)中得: φ = ∑(Yi - a0 - a1 Xi)2 (式1-3)
当∑(Yi-Y计)平方最小时,可用函数 φ 对a0、a1求偏导数,令这两个偏导数等于零。
(式1-4)
(式1-5) 亦即:
m a0 + (∑Xi ) a1 = ∑Yi (式1-6)
(∑Xi ) a0 + (∑Xi2 ) a1 = ∑(Xi,Yi) (式1-7)
得到的两个关于a0、 a1为未知数的两个方程组,解这两个方程组得出: a0 = (∑Yi) / m - a1(∑Xi) / m (式1-8)
a1 = [m∑Xi Yi - (∑Xi ∑Yi)] / [m∑Xi2 - (∑Xi)2 )] (式1-9)
这时把a0、a1代入(式1-1)中, 此时的(式1-1)就是我们回归的元线性方程即:数学模型。 在回归过程中,回归的关联式是不可能全部通过每个回归数据点(x1,y1. x2,y2...xm,ym),为了判断关联式的好坏,可借助相关系数“R”,统计量“F”,剩余标准偏差“S”进行判断;“R”越趋近于 1 越好;“F”的绝对值越大越好;“S”越趋近于 0 越好。 R = [∑XiYi - m (∑Xi / m)(∑Yi / m)]/ SQR{[∑Xi2 - m (∑Xi / m)2][∑Yi2 - m (∑Yi / m)2]} (式1-10) * 在(式1-1)中,m为样本容量,即实验次数;Xi、Yi分别任意一组实验X、Y的数值。编辑本段最小二乘法公式
最小二乘法公式 注:以下“平”是指某参数的算数平均值。如:X平——x的算术
平均值。 1、∑(X--X平)(Y--Y平)=
∑(XY--X平Y--XY平+X平Y平)= ∑XY--X平∑Y--Y平∑X+nX平Y平=
∑XY--nX平Y平--nX平Y平+nX平Y平=∑XY--nX平Y平; 2、∑(X --X平)^2= ∑(X^2--2XX平+X平^2)=
∑X^2--2nX平^2+nX平^2=∑X^2--nX平^2;
3、Y=kX+b k=((XY)平--X平*Y平)/((X^2)平--(X平)^2),
b=Y平--kX平; X平=1/n∑Xi, (XY)平=1/n∑XiYi;编辑本段最小二乘法
拟合
对给定数据点{(Xi,Yi)}(i=0,1,…,m),在取定的函数类Φ 中,求p(x)∈Φ,使误差的平方和E^2最小,E^2=∑[p(Xi)-Yi]^2。从几何意义上讲,就是寻求与给定点 {(Xi,Yi)}(i=0,1,…,m)的距离平方和为最小的曲线y=p(x)。函数p(x)称为拟合函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。最小二乘法的矩阵形式 Ax=b,其中A为nxk的矩阵,x为kx1的列向量,b为nx1的列向量,n>k。这个方程系统称为Over Determined System,如果n 数学模型 模型准备 了解问题的实际背景,明确其实际意义,掌握对象的各种信息。用数学语言来描述问题。 模型假设 根据实际对象的特征和建模的目的,对问题进行必要的简化,并用精确的语言提出一些恰当的假设。 模型建立 在假设的基础上,利用适当的数学工具来刻划各变量之间的数学关系,建立相应的数学结构(尽量用简单的数学工具)。 模型求解 利用获取的数据资料,对模型的所有参数做出计算(或近似计算)。 模型分析 对所得的结果进行数学上的分析。 模型检验 将模型分析结果与实际情形进行比较,以此来验证模型的准确性、合理性和适用性。如果模型与实际较吻合,则要对计算结果给出其实际含义,并进行解释。如果模型与实际吻合较差,则应该修改假设,再次重复建模过程。 模型应用 应用方式因问题的性质和建模的目的而异。 多重共线 (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制 多重共线性的影响 (1)完全共线性下参数估计量不存在 (2)近似共线性下OLS估计量非有效 多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF) (3)参数估计量经济含义不合理 (4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 (5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。 需要注意:即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。但是OLS法在统计推断上无法给出真正有用的信息。 异方差性 回归模型的随机扰动项ui在不同的观测值中的方差不等于一个常数,Var(ui)= 常数(i=1,2,…,n),或者Var(u ) Var(u )(i j),这时我们就称随机扰动项ui具有异方差性(Heteroskedasticity)。 在实际经济问题中,随机扰动项ui往往是异方差的,但主要在截面数据分析中出现。 例如 (1)调查不同规模公司的利润,发现大公司的利润波动幅度比小公司的利润波动幅度大; (2)分析家庭支出时发现高收入家庭支出变化比低收入家庭支出变化大。 在分析家庭支出模型时,我们会发现高收入家庭通常比低收入