龙源期刊网 http://www.qikan.com.cn
基于本体的文本分类研究综述
作者:孙娜
来源:《电脑知识与技术》2011年第10期
摘要:对近年来文本分类的研究现状及新进展进行归纳总结,基于前人的研究基础,提出一个了基于本体的文本分类通用框架,将本体融入传统的基于统计和机器学习的文本分类中,分别从特征处理,分类模型和性能评测等方面进行阐述,分析了现有基于本体的分类研究所面临的挑战,并指出其今后发展趋势。
关键词:本体;文本分类;特征降维;分类模型
中图分类号:TP181文献标识码:A文章编号:1009-3044(2011)10-2251-05 A Survey On Ontology-based Text Categorization SUN Na
(Dpartment of Basic Teaching, Jiangsu University of Science and Technology, Zhangjiagang 215600, China)
Abstract: The research actuality and new progress in text categorization methods in recent years are summarized, and based on the prior research basics, a general framework for ontology-based text categorization is proposed in this paper, which exploits ontology theories to the traditional statistical and machine learning text categorization algorithms, and then some related challenges are surveyed in feature process, classifier model and performance evaluation. And some future developments of research are given,which can give a valuable references to related work. Key words: ontology; text categorization; feature dimension; classifier model
信息的爆炸式增长,使人们对信息获取方法提出新的要求。文本分类作为处理和组织海量数据的有力手段,是信息检索与数据挖掘领域的核心技术,其主要任务是发现属于同一类数据对象的共同特性,构建分类模型,对未知的样本进行类别判断,自动组织和处理样本信息,从而方便人们准确地定位所需知识,为实现商务智能提供重要技术支持。
现有文本分类方法可分为三大类:基于知识工程的分类,基于统计和机器学习的分类和基于本体库的分类。基于知识工程的分类方法需要领域专家用形式化语言归纳分类所需要的知识和规则,从而构建分类模型。典型应用是卡内基集团为路透社开发的Construe系统,在Reuters部分语料库上的分类效果较好,平均准确率和召回率都可达到90%,但应用到其他领域会耗费大量的人力和物力。目前基于统计和机器学习的方法是文本分类的主流,如Rocchio算法[1],朴素贝叶斯[2],k近邻[3],支持向量机[4],神经网络[5]等,这些分类模型实现起来比较简单,效率较高,它们更注重分类器模型的自动挖掘和生成及动态优化能力,在分类效果
基于本体的文本分类研究综述



