好文档 - 专业文书写作范文服务资料分享网站

浅析中文分词方法

天下 分享 时间: 加入收藏 我要投稿 点赞

浅析中文分词方法

沈静

【摘 要】中文分词是中文文本挖掘和信息处理的基础环节,而中文文本挖掘首先面临的是中文的分词问题。中文分词的方法主要有基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法三种,第一种分词方法简单、快捷,但对词典的完备性要求很高;第二种充分利用文本信息,但完备性较差;第三种还处于理论研究阶段。本文对现有的三种中文分词方法进行了研究和对比。

【期刊名称】漳州职业技术学院学报 【年(卷),期】2016(018)003 【总页数】4

【关键词】中文分词; 文本挖掘; 歧义切分

1 概述

中文分词就是由计算机在中文文本的词与词之间加上分界符。从表面来看它相比句法分析、语义分析等阶段的难度要小,但却是中文信息处理过程中最基础、关键的步骤。

中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。中文文本最小的组合单位是字,而最小的信息单位却是词,但中文文本中词与词之间没有天然的分界符,所以在中文信息处理中,首要的任务就是“词处理”,即中文分词。 1.1中文分词的意义

中文分词是中文信息处理的基础,也是智能化中文信息处理中的关键步骤。中

文信息处理是一门用计算机对中文(包括口语和书面语)进行转换、传输、存储、分析等加工的科学[1]。中文信息处理涉及字、词和句三个层面的处理,每个处理阶段都紧扣上一阶段。从语言构成上来讲,字是最小的构成单位,而词才是有意义的基本语言单位。字处理简单,技术已经比较成熟,但是词处理还有待进一步发展。所以在中文信息处理中,只有先确定了词,才能进一步到短语划分、概念抽取及主题分析等后续阶段。中文不同于西文,词与词之间没有明显的间隔(空格),而中文的语法约束又不规范,且变化多样,这都决定了中文分词的困难性。

中文分词在中文信息处理中具有重大的意义,它直接影响到中文信息处理及其相关领域的长远发展。英文文本跨越了分词阶段,在词的利用上更直接、完善,因而在词相关的应用领域(如信息检索、机器翻译、中文校对系统、语音输出、主题分析等)发展中都比中文快,也展示了夺目的应用前景。中文信息处理要想赶超英文在信息领域的发展,就必须先通过分词这道难关。 1.2中文分词的发展与应用

目前,中文信息处理技术落后于西文处理技术,除了因为它起步稍晚,最主要还是因为它还未完全攻克分词这道难关。中文异于西文的行文特点使得许多西文的处理方法不能直接应用于中文处理,而汉语本身的复杂性,以及对“词”的不标准定义更加剧了中文分词的困难性。

作为中文信息处理的核心和汉语自然语言理解的基础,中文分词技术在很多现实应用领域(汉字输入法、中文信息检索、信息过滤、自动摘要、自动分类及自动摘要,知识管理、中文文本的自动校对、机器翻译、内容数据挖掘、汉字识别与汉语语音识别的后处理、自动分类、汉语语音合成,中外文对译、以句

子为单位的汉字键盘输入、汉字简繁体转换等)中都占据着很重要的地位[2-5]。要快速发展国内计算机信息处理技术,还要引进国外先进的计算机信息处理技术,都急需解决中文分词的问题。

2 现有中文分词方法比较

已经研究出来的中文分词方法主要有三大类:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法[6]。 2.1基于字符串匹配的分词方法

基于字符串匹配的分词方法,也称为基于词典的分词法,这种分词方法都依赖分词词典,根据词典构建方式的不同,又分为机械分词法和特征词库法两种。 (1)机械分词方法

机械分词法利用一个具有充足词量的词典,把待切分文本按照一定的算法与词典中的词条进行匹配,当有字符串与词典中的某个词条匹配成功时,就把它当做词标记出来。

机械分词的算法有多种。按照匹配字符串的长度来分,有最长匹配算法和最短匹配算法;按照匹配的方向来分,有正向匹配法和逆向匹配法;按照是否对词性做标注来分,有单纯分词法和分词与标注一体化法。但无论按哪种标准来分类,分词的准确性都高度依赖词典的完备性。

机械分词法的特点是:算法简单、易于实现、但分词的准确性高度依赖于词典的完备性,无法识别未登录词汇;当词典越来越完备时,还要采取措施提高分词效率;最关键的是,无论采取何种匹配算法,都存在歧义切分的问题。 (2)特征词库法

特征词库法主要用于分词的预处理阶段,先建立一个包含各种具有切分特征的

浅析中文分词方法

浅析中文分词方法沈静【摘要】中文分词是中文文本挖掘和信息处理的基础环节,而中文文本挖掘首先面临的是中文的分词问题。中文分词的方法主要有基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法三种,第一种分词方法简单、快捷,但对词典的完备性要求很高;第二种充分利用文本信息,但完备性较差;第三种还处于理论研究阶段。本文对现有
推荐度:
点击下载文档文档为doc格式
0apcg056y94zk8m0hvkq6k2tg1xu6l00s42
领取福利

微信扫码领取福利

微信扫码分享