好文档 - 专业文书写作范文服务资料分享网站

词语相似度算法研究综述

天下 分享 时间: 加入收藏 我要投稿 点赞

龙源期刊网 http://www.qikan.com.cn

词语相似度算法研究综述

作者:李慧

来源:《现代情报》2015年第04期

[摘要]词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于雏基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。

[关键词]词语相似度;语义资源;语料库;维基百科;WordNet [中图分类号]TP18 [文献标识码]A

[文章编号]1008-0821(2015)04-0172-06

词语之间的语义相似性研究是自然语言处理以及人工智能领域的基础性研究,如搜索、聚类以及歧义消除等,需要依赖于包含现实世界概念与关系的范围广泛的知识组织体系。自然语言的词语之间有着非常复杂的关系,如上下位关系、同义关系、反义关系等。词语相似度是对词语间复杂关系的数量化,是词语间语义相似紧密程度的一种定量度量。目前,词语相似度的研究可以分为两类,一类是基于语料库的算法,通过统计大规模语料库,根据词语间信息量或者词语共现频率来计算词语相似度。利用统计技术计算词语间语义相似度是一种无监督的机器学习方法。第二类是基于语义资源的算法,也可被称为基于本体的词语相似度算法,主要根据手工建立的语义网络,通过计算词语间距离得到词语相似度。另外,还有一类基于混合技术的词语相似度算法,通过将基于统计和基于语义的词语相似度算法集合起来,发挥各自算法的优势来计算词语相似度。

1 基于统计的词语相似度算法

这种方法是利用词语之间的相关性来计算词语相似度,假设语义相似的词语之间具有相同的上下文信息,根据上下文信息的概率分布作为相似度计算的依据。根据所用语料库的类型,可将其分为基于传统大规模语料库的方法和基于Web语料库的方法。 1.1基于传统大规模语料库的词语相似度算法

龙源期刊网 http://www.qikan.com.cn

语料库是人们针对某一特定领域收集和整理的大量文档的集合,在利用大规模语料库进行词语相似度计算的研究中,很多学者应用了传统的互信息方法。L.Lillian利用相关熵,P.Brown等通过计算平均互信息来计算词语相似度。Dagan等使用了更为复杂的概率模型来计算词语的距离。Salton等提出词包法,通过构建词语语境向量,计算向量夹角余弦值来计算词语相似度。Deerwester等在词包方法的基础上提出潜在语义分析法(LSA),通过构建词汇——文档矩阵来解决数据稀疏的问题。赵军等在其提出的算法中,对关联频率分布规范化,通过计算词的属性向量间的距离来计算词语相似度。章志凌等基于统计的方法提出了基于词汇空间和关系空间的Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,为词语相似度的计算提供数据支持。

基于传统语料库的方法严重依赖于训练所用的语料库,语料库是提前准备好的,这种方法不能避免词汇不断更新,也无法计算未登录词相似度的问题,无法消除数据噪音的问题。另外,基于统计的算法没有考虑词汇的语义背景信息,这也大大降低了结果的准确度。 1.2基于Web语料库的词语相似度算法

随着互联网技术的飞速发展,Web语料库的出现为语料库的建设和研究提供了新的思路和方法。Web语料库以网络文本为基础,网络检索软件为技术手段,其词汇共现特征可被直接用来词语相似度的计算。商业搜索引擎提供了Web语料库的访问途径,能够方便快速地获取词语在Web数据库中单独出现、共同出现以及所处语境等信息,从而进行词语相似度的计算。目前,基于Web语料库,利用搜索引擎进行词语相似度计算的研究中,具有代表性的算法有PMI-IR、LC-IR以及Web-PMI算法。

P.Turney提出了PMI-IR(Pointwise Mutual Information using Information Retrieval)算法,通过搜索引擎获取数据,利用点互信息(PMI)以及搜索引擎检索返回的页面数作为词语相似度计算的指标。D.Higgins提出的LC-IR(Local Context-Information Retrieval)算法与PMI-IR算法相似,也采用Alta Vista搜索引擎,依赖于词语共现的频率统计信息。但是,LC-IR采用了不同的相似度度量标准,使用了词语被发现彼此相邻的频率,而不是词语在彼此10个字窗口内被发现的频率。该方法在一定程度上减少了PMI-IR算法存在的偶然共现词语对计算结果的干扰。在PMI-IR算法的基础上,D.Bollegala等提出了Web-PMI算法,通过搜索引擎返回的页面数来定义两个不同的词语P、Q以及P和Q的相似度,同时,还提出了一个使用从文本片段中自动提取的语法模式来计算词语相似度的新方法。再利用支持向量机将这些不同的相似度的值进行集成。实验数据表明该方法远远优于之前研究中基于Web语义相似性的计算方法。 此外,Rudi L.C.等利用信息论、压缩原理、柯尔莫哥洛夫复杂性、语义学等知识,把Internet作为一个大型的语料库,以Google搜索返回的结果数做为计算的数据依据,提出了一种语义相关性计算方法,设NGD(Normalized Google Distance,介于0与1之间)表示标准谷歌距离,用以衡量语义相关性的大小,f(x)和f(y)分别表示包含概念x和y的网页数,N表示Google引用的互联网上网页总数,那么概念x和y间的语义相关性计算公式可以表示称:

龙源期刊网 http://www.qikan.com.cn

2 基于语义资源的词语相似度算法

词语所处的语境在一定程度上反映词语语义,但基于语料库的方法对训练所用语料库有很强的依赖性,而且计算量大,计算方法复杂,同时存在着数据稀疏的问题。如果采用人工标注的语义词典计算词语相似度,能够较好地减少数据稀疏和数据噪音对计算结果产生的影响。语义词典规范地描述了词语之间的上下位关系、同义关系、反义关系等,是词语相似度计算的重要依据。随着互联网技术的发展,维基百科作为一个公开的数据库,蕴含丰富的语义知识,数据范围广,更新速度快,也同样具有良好的结构化信息,目前已有许多学者选取维基百科作为数据资源进行词语相似度的相关研究。 2.1基于传统语义词典的算法 2.1.1基于WordNet的算法

WordNet是一个包含了语义信息的英语词典,是一个在线的词汇参照系统。R.Rada等利用WordNet,提出了一种基于距离的语义相关度计算方法,其基本思想是通过两个词语在本体树状分类体系或者语义词典中的最短路径长度来计算它们之间的相关度,二者距离越小,那么它们的相关度越大,反之,距离越大,其相关度越小。Richardson又在此基础上,加入权重值,对最短路径法提出了改进。考虑词语在WordNet中的层次信息和边所表征的关联度,将表示该词语涉及的边的进行加权求和,这样得到的词语语义相关度的结果也将更准确。 Hirst等从一个新的角度来阐述基于距离的计算方法,如果两个词语相关,那么它们之间存在一条较短路径,并且遍历过程不需要或者很好改变路径,并提出独立的计算公式来证明结果确实具有一定的优化。Jiang等在使用共享父节点和被比较词语包含的信息的同时,直接通过语义距离计算词语的相关度,充分结合了距离和信息内容,较之以往的方法,它的效果更好。Philip Resnik提出了一种基于节点共享信息内容概念的语义相似性度量方法,在解决句法和语义模糊的问题上充分利用了分类相似,针对人类相似性基准集的判断实验表明,该方法的性能优于传统的边缘统计方法。Agirre等提出了一种针对词汇歧义的解决方法,该方法依赖于WordNet中名词分类的使用,同时定义了概念密度公式。该自动计算的方法不需要手工编码的词汇条目,手工标注的文字,也不需要任何一种培训过程。吴思颖等利用中文WordNet,在其同义词集的上下位关系图中,引入了距离、密度、深度3个因素来估计同义词集之间的相似度。Sussna在考察WordNet词义网密度、节点深度、链接类型等因素后,提出了一种基于词义网边的词语之间的相似度量方法。除WordNet外,其他应用较为广泛的语义词典还包括MindNet和FrameNet等,但应用思想都是一样的。 2.1.2基于知网(HowNet)、《同义词词林》的算法

近年来,随着“知网”等本体知识模型的出现和不断完善,针对汉语词语相似度方面的研究又开始盛行起来。该技术的基本假设是,在本体中距离越近的义原或词汇,它们的相似度越大。国内学者一般是借助于知网或者《同义词词林》来进行研究。

词语相似度算法研究综述

龙源期刊网http://www.qikan.com.cn词语相似度算法研究综述作者:李慧来源:《现代情报》2015年第04期[摘要]词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的
推荐度:
点击下载文档文档为doc格式
6byph3hyi25zpak1cslt1is53085cn00i80
领取福利

微信扫码领取福利

微信扫码分享