好文档 - 专业文书写作范文服务资料分享网站

一种基于元数据本体计算的网络信息检索方法

天下 分享 时间: 加入收藏 我要投稿 点赞

一种基于元数据本体计算的网络信息检索方法*

李 彦

【摘 要】为了提高Web信息检索和过滤的准确性,提出了一种基于元数据本体的网络信息检索方法,引入形式概念分析理论本体计算算法来描述本体特征检索领域的概念和关系,并通过构建以元数据为基础的信息管理系统,实现对语义元数据的检索。应用结果证明,采用该方法可有效提高信息检索的准确性。 【期刊名称】新技术新工艺 【年(卷),期】2015(000)003 【总页数】3

【关键词】元数据;概念相似度;本体;web网页;检索

随着当前网络信息量以几何级数的速度增长,传统的关键字检索方式不能满足用户对信息检索的有效需求,其在进行语义检索时准确性比较低;因此,如何提高对网页信息检索的质量成为当前思考的重要问题。当前,提高Web信息检索的技术方面思考主要为如何从大量的Web资源中附加计算机可以理解的内容(如元数据),以此使计算机更好地对其进行自动化处理,换句话说就是给出一种计算机能准确理解的资源手段,实现对异构分布信息的有效检索。解决该问题的关键在于:1)通过引入本体特征进行描述,从而提高检索的准确性;2)构建元数据信息管理系统,实现基于本体的元数据检索;3)针对其中的非元数据,如何实现转换。本文针对上述3个问题进行了探讨[1]。

1 本体概念相似度算法

目前,针对概念相似度的研究方法主要包括2种。

1)利用语料库统计方法。该方法主要根据2个概念在上下文中出现的频率,计

算不同概念间的语义相似度,该方法对概念相似度的研究程度则取决于系统所采用的语料库,如基于cos信息度量的方式对词语的概念相似度进行计算,其具体的计算公式为: = (1)

式中为w1,w2的目标向量;T(w)为出现在w表示上下文中的概念词;c为上下文的词;weight为不同方法所计算出的权重。

2)基于语义词典方法。该方法主要利用语义词典中的HowNet和WorNet等同义词所组成的树状层次体系结构,通过计算语义之间的距离或者是信息熵的方式对概念相似度进行计算[2]。

2 基于T-L BACH的改进CS0算法

传统的T-L BACH算法作为一种对本体间概念相似度的计算,与语义相似度算法等相比有着非常重要的特点,通过该算法可实现对 OWL DL等描述语言内涵的充分挖掘,从而得出本体概念以外的潜在的相关信息;但该算法也存在着很大不足,主要体现在计算本体概念相似度的时候,T-L BACH没有充分考虑到本体的概念特征间的相关结构关系,导致对相似度计算精确度不高。因此,为提高概念本体的计算的准确度,本文提出从 FCA 概念相似度和 RDF 图结构相似度两方面对其进行计算,其具体的计算公式为: simcso=simfcawfca+simrdf+wrdf (2)

式中,wfca为fca的权重,wrdf为rdf的权重,并有wfca+wrdf=1。 2.1 基于 FCA 的概念相似度计算

在FCA中,形式概念和形式为该算法的基础,还要通过形式反映其背景,因此,需要做以下几方面的定义。

定义1:形式背景K=(O,A,R)是由属性集合A、对象集合O以及由O和A关系R所共同组成。

定义2:假设E表示其对象集合O当中的一个自己,则定义E′={n∈A|?m∈E,mRn}为E中所有对象的共同属性的集合;同理,定义I作为A当中的自己,定义I′={n∈A|?m∈I,mRn}为I当中所有对象的共同属性。 定义3:采用二元组(E,I)表示形式背景K:=(O,A,R)的一个形式概念,有E?O,I?A,且满足E′=I,I′=E。其中,E表示(E,I)的外延,I表示(E,I)的内涵。用δ表示K:=(O,A,R)在背景为K上面所有概念的集合,δ表示背景上的概念格。

定义4:在概念格中,如果某元素不能被写成其他元素的下确界,则该元素和概念格中上方的元素仅能通过一条边进行连接,可将该元素称为是不可约下确界元素;同理,如果某元素不能写为其他元素的上确界,则将该元素称为不可约上确界元素[3]。

因此,通过上述定义,可得到基于FCA的相似度计算公式为: simfca(s1,s2)=

(3)式3中,a(s1,s2)的值为0.5;s1∨s2为概念的上确界;(s1∨s2)∧为概念的上确界的内涵中其不可约下确界的元素集;(s1-s2)∧,(s2-s1)∧为在s1中却不在 s2中的不可约下确界元素集,和在s2中而不在s1中的不可约下确界元素集。

2.2 RDF 图结构相似度计算

一种基于元数据本体计算的网络信息检索方法

一种基于元数据本体计算的网络信息检索方法*李彦【摘要】为了提高Web信息检索和过滤的准确性,提出了一种基于元数据本体的网络信息检索方法,引入形式概念分析理论本体计算算法来描述本体特征检索领域的概念和关系,并通过构建以元数据为基础的信息管理系统,实现对语义元数据的检索。应用结果证明,采用该方法可有效提高信息检索的准确性。【期刊
推荐度:
点击下载文档文档为doc格式
1by5e747lp1j03v4iv5u208bi780fr00a3d
领取福利

微信扫码领取福利

微信扫码分享