(13) 主观评分法:设有N个专家组成专家组{p1,p2,?,pN},让每一位专家对所研究的对象xi与xj相似程度给出评价,并对自己的自信度作出评估。如果第k位专家pk关于对象xi与xj的相似度评价为rij(k),对自己的自信度评估为
aij(k)(i,j?1,2,?,n),则相关系数定义为
??arij?k?1NijN(k)?rij(k)?(i,j?1,2,?,n)
ij?a则R??rij?n?n。
k?1(k)综上所述,以上给出了实际中能够使用的一些方法,具体地选择要根据具体问题的性质和使用的方便来确定。
在实际工作中,当需要研究样品与样品之间关系时,一般用距离系数统计量或者相似系数统计量作为分类计算依据,这种方法又称为Q型聚类法;当需要研究变量与变量之间的关系时,常用相关系数统计量作为分类计算依据,这种方法又称R型聚类法。
选择适当的聚类方法
聚合法
开始把每个样品看成自成一类,计算各类之间的相似程度的统计量,把最相似的两类合并为一类,再计算各类相似程度统计量,把最相似的两类合并,照此继续下去,一直到所有样品都聚合成一类为止,最后人为确定合适的分类数,得到分类结果。 分解法
它的聚类过程恰好和聚合法相反,开始把全体样品看成一类,然后分成二类,??,一直到每个样品为一类或分到不能再分时为止,通常要设计一个分类函数(目标函数)来控制整个分类过程。 调优法
开始人为将样品作初始分类,在一定准则下判断这个分类是否最优,如果不是最优,则对分类进行修改,再判断修改后的分类是否最优,若仍不是最优,再作修改,不断重复上述步骤,一直到分类方案最优为止。 *动态聚类法
步骤:
1、按照一定的原则选择一批凝聚点(聚核),
2、让样品向最近的凝聚点凝聚,这样就由点凝聚成类,得到初始分类。 3、初始分类不一定合理,可按最近距离原则进行修改,直到分类合理得到最终的分类为止。
四、最小二乘法与多项式拟合 一)、最小二乘法的基本原理
从整体上考虑近似函数p(x)同所给数据点(xi,yi)(i=0,1,?,m)误差
ri?p(xi)?yiri?p(xi)?yi(i=0,1,?,m)的大小,常用的方法有以下三种:一是误差(i=0,1,?,m)绝对值的最大值0?i?mTmmaxri,即误差 向量
mr?(r0,r1,?rm)的∞—范数;二是误差绝对值的和??i?0rii?0,即误差向量r的1—
范数;三是误差平方和的算术平方根,即误差向量r的2—范数;前两种方法简单、自然,但不便于微分运算 ,后一种方法相当于考虑 2—范数的平方,
mri2因此在曲线拟合中常采用误差平方和体大小。
?i?0ri2来 度量误差ri(i=0,1,?,m)的整
数据拟合的具体作法是:对给定数据 (xi,yi) (i=0,1,?,m),在取定的函数类?中,求p(x)??,使误差ri?p(xi)?yi(i=0,1,?,m)的平方和最小,即
mm i?0?ri2=i?0??p(xi)?yi??min2
从几何意义上讲,就是寻求与给定点(xi,yi)(i=0,1,?,m)的距离平方和为最小的曲线y?p(x)(图6-1)。函数p(x)称为拟合 函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。 在曲线拟合中,函数类?可有不同的选取方法.
6—1
二)、多项式拟合
假设给定数据点(xi,yi)(i=0,1,?,m),?为所有次数不超过n(n?m)的多项式构
n
成的函数类,现求一
I?pn(x)??ak?0kx??k,使得
m2??pi?0mn(xi)?yi?2?n?k????akxi?yi??mini?0?k?0? (1)
当拟合函数为多项式时,称为多项式拟合,满足式(1)的pn(x)称为最小二乘
拟合多项式。特别地,当n=1时,称为线性拟合或直线拟合。 显然
mnkI??(?ai?0k?0xi?yi)k2
为a0,a1,?an的多元函数,因此上述问题即为求I?I(a0,a1,?an)的极值 问题。由多元函数求极值的必要条件,得
?I?ajmnkj?2?(?akxi?yi)xi?0,i?0k?0j?0,1,?,n (2)
即
nmj?kimk?0?(?xi?0)ak??xi?0jiyi,j?0,1,?,n (3)
m(3)是关于a0,a1,?an的线性方程组,用矩阵表示为
??m?1?m?xi??i?0???mn?xi???i?0m?xi?0mi???xi?02i?m?xi?0n?1i???m?y?x???i?ai?0??i?00??m?m??n?1??a?xi??1????xiyi??i?0????i?0???????a?m?mn2n??n???xiyi??xi??i?0???i?0?ni (4)
式(3)或式(4)称为正规方程组或法方程组。
可以证明,方程组(4)的系数矩阵是一个对称正定矩阵,故存在唯一解。从式(4)中解出ak(k=0,1,?,n),从而可得多项式
npn(x)??ak?0kxk (5)
可以证明,式(5)中的pn(x)满足式(1),即pn(x)为所求的拟合多项式。我们把i?0??pn(xi)?myi?2称为最小二乘拟合多项式pn(x)的平方误差,记作
r22???pn(xi)?i?0mkkimyi?2由式(2)可得
r22mn
??i?0y?2i?a(?xk?0i?0yi) (6)
多项式拟合的一般方法可归纳为以下几步:
(1) 由已知数据画出函数粗略的图形——散点图,确定拟合多项式的次数n;
mmji(2) 列表计算i?0?x(j?0,1,?,2n)和i?0n?xjiyi(j?0,1,?,2n);
(3) 写出正规方程组,求出a0,a1,?an;
k?0(4) 写出拟合多项式。
在实际应用中,n?m或n?m;当n?m时所得的拟合多项式就是拉格朗日或牛
pn(x)??akxk顿插值多项式。
例1 测得铜导线在温度Ti(℃)时的电阻Ri(?)如表6-1,求电阻R与温度 T的近似函数关系。 i 0 1 2 3 4 5 6 Ti(℃) 19.1 25.0 30.1 36.0 40.0 45.1 50.0 76.30 77.80 79.25 80.80 82.35 83.90 85.10 Ri(?)解 画出散点图(图6-2),可见测得的数据接近一条直线,故取n=1,拟合函数为
R?a0?a1T列表如下
i 0 1 2 3 4 5 6 Ti TiRi Ri Ti2 19.1 25.0 30.1 36.0 40.0 45.1 50.0 76.30 77.80 79.25 80.80 82.35 83.90 85.10 364.81 625.00 906.01 1296.00 1600.00 2034.01 2500.00 1457.330 1945.000 2385.425 2908.800 3294.000 3783.890 4255.000 ?正规方程组为 245.3 565.5 9325.83 20029.445 ?7??245.3245.3??a0??565.5???????9325.83??a1??20029.445?
a1?0.921解方程组得
a0?70.572,故得R与T的拟合直线为
利用上述关系式,可以预测不同温度时铜导线的电阻值。例如,由R=0得T=-242.5,即预测温度T=-242.5℃时,铜导线无电阻。
R?70.572?0.921T
6-2
例2 已知实验数据如下表
i xi0 1 2 3 4 5 6 7 8 1 3 4 5 6 7 8 9 10 10 5 4 2 1 1 2 3 4 yi试用最小二乘法求它的二次拟合多项式。 解 设拟合曲线方程为
列表如下
I 0 1 2 3 4 5 6 7 8 xiyiy?a0?a1x?a2x2
xiyixiyi2 xi2 xi3 xi4 1 3 4 5 6 7 8 9 10 10 5 4 2 1 1 2 3 4 1 9 16 25 36 49 64 81 100 1 27 64 125 216 343 512 729 1000 1 81 256 625 1296 2401 4096 6561 10000 10 15 16 10 6 7 16 27 40 10 45 64 50 36 49 128 243 400 ?得正规方程组 53 32 381 3017 25317 147 1025 ?9?52???381523813017381??a0??32????3017a?147??1??25317????a2????1025a1??3.6053?????解得
a0?13.4597,a2?0.26762
故拟合多项式为
y?13.4597?3.6053?0.2676x
*三 最小二乘拟合多项式的存在唯一性
定理1 设节点x0,x1,?,xn互异,则法方程组(4)的解存在唯一。
证 由克莱姆法则,只需证明方程组(4)的系数矩阵非奇异即可。 用反证法,设方程组(4)的系数矩阵奇异,则其所对应的齐次方程组