好文档 - 专业文书写作范文服务资料分享网站

一种基于贝叶斯方法的多分类器组合优化算法

天下 分享 时间: 加入收藏 我要投稿 点赞

一种基于贝叶斯方法的多分类器组合优化算法

裴亚辉,张兵利

【摘 要】摘要:提出了一种基于贝叶斯方法的多分类器组合优化算法和阈值改进方法。首先,计算分类器对各个类别的置信度。然后,以各分类器的置信度为先验概率,采用向量求和将各分类器的先验概率向量进行组合,得出最终输出向量,最后通过优化阈值提高综合分类器识别精度。在此后的实验数据表明:该算法具有方法简单、运算速度快、分类精度高等优点。 【期刊名称】河南科技大学学报(自然科学版) 【年(卷),期】2010(031)001 【总页数】4

【关键词】关键词:贝叶斯网络;多分类器;阈值;反垃圾邮件 【文献来源】

https://www.zhangqiaokeyan.com/academic-journal-cn_journal-henan-university-

science-technology-natural-science_thesis/0201250119223.html

0 前言

在传统的自动分类研究中通常仅使用样本的某种单一特征描述和特定的一个分类器进行分类,这种系统对类别数较大、输入样本带噪声的问题很难获得好的分类效果。因此利用多分类器组合(将多种识别方法进行有效的结合)来得到一个更为符合客观实际的分类结果是如今的研究热点。目前已产生了投票法(Voting)、概率法(Bayes)、D-S法(Dempster-Shafer)、行为知识空间法(Behavior-Knowledge Space)等多种方法[1-2]。

与一般的分类问题相比,邮件分类面临一个突出的问题:邮件中包含的属性个数很多,特征提取的好坏直接关系到文本分类结果的优劣。因此,通过 Bayes方法将

多个各具特色的分类器综合在一起来分析这些属性,进行文本特征提取,将是邮件正确分类的保证[3]。

本研究的目的是为了更好的解决目前在互联网上垃圾邮件横行的现状,还互联网社会一个清洁的环境,同时也从技术角度提出一种新的思路,希望可以为以后的研究提供一个新的方向。

1 贝叶斯技术改进的多分类器组合优化算法

分类器的置信度衡量了分类器对样本 X的识别性能代表了分类器判别结果正确的概率。不同分类器的输出结果代表不同的度量方法,一般可分为两类[4]: (1)距离度量,如最近邻,最小距离。 (2)先验概率,如神经网络。

在分类器置信度的讨论中,基于距离与基于后验概率的方法大致相同,本文以先验概率为例。

组合分类器多是应用向量求积的方法,本文采用向量求和来组合多个分类器。 首先可以利用大量样本统计每个分类器的识别情况,从而形成有关各分类器识别情况的混乱矩阵(Con fusion matrix)[5]:

式(1)中表示分类器fk将Ci类中的样本识别为Cj类的数量,表示的含义为: (1)如果i=j,表示fk正确识别Ci类中样本的数量。 (2)如果j=N+1,表示fk拒识Ci类中样本的数量。

(3)如果i≠j且j≠N+1,表示fk将Ci类中的样本错误识别为Cj类的数量。 对分类器fk而言,识别结果为f=f(x)的样本总数为:

识别结果为j时,样本来自Ci类的概率可以用条件概率来表示:

如果生成混乱矩阵CMk的样本足够多并且反映了模式空间S的分布,该混乱矩

阵反映了分类器 fk的识别情况,可以将CMk作为分类器组合时的先验知识,x∈Ci的概率表示为:

其中是为了满足PF(x∈Ci)=1。

以各分类器识别性能为先验知识的贝叶斯多分类器组合规则表示为: 将上式改进可提高组合结果的置信度。

其中判决条件 0<γ≤1,即取概率最大的类别为该测试样本的识别类别。

2 阈值的改进

分类算法结果是将新文本归于分类体系中的一个类,即与该文本关联最大的类。而事实上,分类体系中的类别不是完全互斥的[6],存在这样一些既属于其中一个类别,又同时属于其他类别的文本,对于这种文本,上述的分类算法无法确定文本所属的所有类别。因此,需要对每个类别确定阈值。 阈值的设置直接影响到分类的准确率和查全率。

阈值的确定是十分困难的,确定方法各有所见。理论上,没有很好的解决方法[7]。本文提出利用步长函数根据实际需求来调整阈值设定的算法及实现,经实验验证,该算法取得较好的应用效果。

式(6)对不同的类 γ的取值是一样的,在实际使用中 γ的取值不同,组合效果会有较明显的差别[8]。将上式进一步改进为:

即对不同的类别设置不同的判决阈值,其中的阈值 γ,可以通过训练获得。首先将 γj设置为初始值

其中Ij是训练样本中属于Cj类的所有样本数目。

训练过程中,如果属于Cs类样本x的组合识别结果为Cj类,则根据不同的识别情况对γj作如下修改:

一种基于贝叶斯方法的多分类器组合优化算法

一种基于贝叶斯方法的多分类器组合优化算法裴亚辉,张兵利【摘要】摘要:提出了一种基于贝叶斯方法的多分类器组合优化算法和阈值改进方法。首先,计算分类器对各个类别的置信度。然后,以各分类器的置信度为先验概率,采用向量求和将各分类器的先验概率向量进行组合,得出最终输出向量,最后通过优化阈值提高综合分类器识别精度。在此后的实验数据表明:该算法具有方法简单
推荐度:
点击下载文档文档为doc格式
4jrqv0ndxt4ncj33s2bw8iiwn4795r018bo
领取福利

微信扫码领取福利

微信扫码分享