好文档 - 专业文书写作范文服务资料分享网站

基于最大间隔法的分类模型

天下 分享 时间: 加入收藏 我要投稿 点赞

基于最大间隔法的分类模型

朱森华 黄足花 何琳珊 何显灿

(韶关学院数学与信息科学学院,指导教师:简国明、杨光武)

摘 要:本文首先通过对已知蠓虫的数据进行分析,建立基于最大间隔法的分类预测模型,对非线性规划问题的求解,在允许一定的误差范围之内,通过设计新的算法,通过简单的循环搜索代替非线性规划问题的求解,在二维平面的求解中具有一定的优势;通过收集的数据对模型进行求解可得最有的划分超平面房程为:y?1.2857x?0.2071;对于三个新的未确定类别的蠓虫的数据,利用所所建立的模型,建立判别函数可得(1.24,1.80)、(1.28,1.84)属于Af,(1.40,2.04)属于Apf;为了使得能够对事物进行更加精确的预测和判断,需要增加辨别不同事物的特征,这样就需要把模型推广的三维或更高维的空间,使得模型具有更广泛的应用.

关键词:最大间隔;超平面;法向量

1 问题的提出

生物学家Grogan和Wirth曾试图就两种蠓虫Af和Apf的鉴别问题进行研究,Af是宝贵的传粉益虫,Apf则是某种疾病的载体毒蠓,希望建立一种正确区分两种蠓虫的模型.

在现实生活中,有些事物要想从本质上区别开来可能会比较困难或者要付出比较大的代价,基于最优化的数学思想,为了付出最小的代价来区别不同的事物,可以从事物的一些特征来区别. 建立一个模型,能够利用事物的某些特征来对不同类的事物加以区分具有非常重要的意义.例如,考虑病人患病的确诊问题.在为完

全确诊某些疾病的检查中,有些检查可能是十分昂贵的,或者是创伤性的.因此,利用一些有关的容易获得的临床指标进行辅助性的推断是一项有意义的工作.

到目前为止,分类的模型和方法有很多,例如神经网络分析方法、支持向量机方法、模糊模式识别方法等.不同的算法有不同的优缺点.

本文借助最大间隔法的思想,重新设计算法,避免对非线性规划问题的求解,减少了计算量;利用已知数据,建立分类模型,对蠓虫进行分类.

2 模型假设及符号说明

2.1 模型假设

(1)假设已知的数据是准确可靠的. (2)模型只针对普通的一般的蠓虫进行分类. 2.2 符号说明

w:直线的法向量

k?:直线的斜率

:两平行直线之间的距离

df(x,y):分类判断函数

?w1,w2?:向量w1与w2的夹角

????L(?,b,?):Lagrange函数

?L:对Lagrange函数中的其中一个变量?求偏导数 ??

3 二维平面的最大间隔法分类模型

3.1 模型的分析及数据准备

根据所收集的数据:

表1 Af 数据

触角长 1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 1.56 翼长 1.72 1.74 1.64 1.82 1.90 1.70 1.82 1.82 2.08

表2 Apf 数据

1.18 1.20 1.26 1.28 1.30 触角长 1.14 翼长 1.78 1.96 1.86 2.00 2.00 1.96 通过MATLAB得到以下分布图:

2.12.0521.951.91.851.81.751.71.651.61.11.151.21.251.31.351.4触角长(mm)1.451.51.551.6Af的触角长,Af的翼长Apf的触角长,Apf的翼长翼长(mm)

图1 Af和Apf分布图

由Af和Apf的分布图可以看到存在一条直线,可以把两类蠓虫完全分成不相交的两部分,即两类蠓虫是线性可分的.

我们已经知道了存在一条直线可以完全的把两类蠓分成不相交的两部分,接下来要做的就是怎样把这条直线找出来,这条直线又是否是唯一的?如果不唯一有应该选取那一条直线才是最合理的?

可以把两类蠓完全分成不相交的两部分的直线是不唯一的,这是很显然的,我们只要把原来的直线通过微小的平移,就可以得到第二条划分的直线;转动一个微小的角度,显然得到的直线仍然可以完全把两类不同的数据点集分成不相交的两部分.

2.12.0521.951.91.851.81.751.71.651.61.11.151.21.251.31.351.4触角长(mm)1.451.51.551.6Af的触角长,Af的翼长Apf的触角长,Apf的翼长l2 翼长(mm)l1

图2 Af和Apf的线性划分图

不但可以通过平移直线来得到不同的划分直线,而且还可以通过

改变直线的斜率来得到不同的划分直线.这样就存在无数条满足条件的划分直线.应该怎样选取才是合理的呢? 3.2 最大间隔分类模型

首先选取一个法向量w?(wx,wy)和常数b,可以得到直线的方程为

?y??wxx?b,整理可得直线方程为wxx?wyy?wyb?0.即直线方程可wy?????以表示为(w,x)?b?0,其中x?(x,y),(w,x)表示两个向量的内积,(此时把这样子得到的直线叫做超平面).通过改变常数项的值来对直线进行上下平移直到碰到某个已知数据为止,这样就可以得到两条直

基于最大间隔法的分类模型

基于最大间隔法的分类模型朱森华黄足花何琳珊何显灿(韶关学院数学与信息科学学院,指导教师:简国明、杨光武)摘要:本文首先通过对已知蠓虫的数据进行分析,建立基于最大间隔法的分类预测模型,对非线性规划问题的求解,在允许一定的误差范围之内,通过设计新的算法,通过简单的循环搜索代替非线性规划问题的求解,在二维平面的求解中具有一定的优势;通
推荐度:
点击下载文档文档为doc格式
2e0p26oyja1xkfw968ko77t6k14pna01b1z
领取福利

微信扫码领取福利

微信扫码分享