好文档 - 专业文书写作范文服务资料分享网站

知识图谱发展与构建的研究进展

天下 分享 时间: 加入收藏 我要投稿 点赞

龙源期刊网 http://www.qikan.com.cn

知识图谱发展与构建的研究进展

作者:朱木易洁 鲍秉坤 徐常胜

来源:《南京信息工程大学学报(自然科学版)》2017年第06期

摘要 近年来知识图谱技术引起了广泛的关注和研究,本文介绍了近期知识图谱的发展、构建方法、详细的构建过程,并对知识图谱在交叉学科领域的应用和未来的研究方向做了总结.本文详细介绍了构建文本知识图谱、视觉知识图谱、多模态知识图谱的关键技术,比如信息提取、知识融合、知识表示等.作为知识工程的重要组成部分,知识图谱,尤其是多模态知识图谱的发展对大数据时代的高效知识管理、知识获取、知识共享有着重要的意义.关键词知识图谱;语义网;自然语言处理;视觉知识图谱;多模态 中图分类号 TP182 文献标志码 A 0 引言

知识图谱的起源可以追溯到20世纪50年代末60年代初语义网(semantic network)的诞生.当时的语义网是一种基于图的用于存储知识的数据结构,图的节点代表实体或者概念,图的边代表实体或概念间的关系,主要应用于机器翻译和自然语言处理中.到20世纪80年代,知识工程和基于规则的专家系统被提出并成为研究的重点.20世纪90年代,机构知识库的概念被提出,知识表示和知识组织开始被深入研究,并广泛应用到各机构单位的资料整理工作中. 互联网在21世纪蓬勃发展,随着信息量的爆炸式发展和搜索引擎的出现,人们开始期望更加快速、准确地获得所需的信息.2012年11月,谷歌公司提出知识图谱(knowledge graph)项目,该项目的关键技术包括从互联网的网页中抽取实体、实体属性信息及实体间的关系,旨在解决自动问答、个性化推荐和智能信息检索方面的问题.谷歌公司宣布要以此为基础构建下一代智能搜索引擎,既能分析也能理解用户真正的需求,而不仅仅只是基于关键词的搜索.在谷歌知识图谱的基础上,知识图谱的概念正式提出,定义为把所有不同种类的信息连接在一起得到的一个关系网络.通过对知识进行这种更加有序、有规律的组织,可以给用户提供更加智能的信息获取和管理.

知识图谱本质上可以算作一个语义网,具有语义网的很多特性,但又有所不同.知识图谱和语义网的目标都是实现人与计算机的无障碍沟通,让计算机能理解语言和概念,能够理解逻辑并拥有判断和推理能力,也就是使计算机更加智能化、自动化和人性化.语义网通过建立能够被计算机所理解的语义“元数据(meta data)”,使网络上的信息能通过统一的标准成为一个通用的信息交换媒介,从而大大提高网络的搜索效率和推理理解能力,知识图谱则是以图谱的形式达到相同的目的.但是知识图谱的数据来源可以是百科类的半结构化数据和各种网络数

龙源期刊网 http://www.qikan.com.cn

据,关注的更多是知识清洗、知识融合和知识表示技术.早期语义网则多是靠人工构建,关注重点也不一样[1].

目前一些比较大的知识图谱有谷歌公司的“谷歌知识图谱”,用多种语言对知识图谱中的实体、属性和关系进行描述,以达到提高搜索质量的目的;百度公司的“知心”,通过筛选、整合搜索结果,达到直接搜索到答案的效果;搜狗公司的“知立方”通过“语义理解”网上的碎片信息和优化结果,可以向用户显示最符合的信息[2].

本文的第1部分将进一步阐述知识图谱的一些基本概念和概况,第2部分至第4部分依次详细介绍文本知识图谱、视觉知识图谱、多模态知识图谱的构建框架、关键技术及应用,第5部分介绍知识图谱目前面临的挑战及未来的研究方向并对全文内容进行总结. 1 知识图谱简介 1.1 基本概念

知识图谱作为结构化的语义知识库,使用“资源描述框架(RDF,Resource Description Framework)”来描述数据,包括一系列的节点、边和属性,基本模型是三元组,一般为“实体-关系-实体”三元组.其中,节点表示物理世界中的实体或概念,边表示各种关系.实体(entity)指的是实际存在的事物,比如一个人物——奥巴马、一个国家——中国、一个城市——广州.概念(concept)是比实体更抽象的表达,比如人、颜色、天气.关系(relation)是实体与实体、实体与概念之间的结构或联系,包括层级关系,比如“属于”、“一部分”,和非层级关系,比如属性等.本体(ontology)在知识图谱的概念中也总是被提及,它属于知识表示的概念,来源于哲学的“本体论”.“知识本体”最初研究世界上各种事物以及代表这些事物的范畴的形式特性,并对其进行分类、建立规范,后来在计算机科学中,“知识本体”有了科学定义,表示概念体系的明确规范,使其概念明确、形式简单、容易共享,比如生物学领域知识本体就是生物学领域知识的抽象.同样地,“本体”是对领域实体存在本质的抽象,强调实体间的关联,并用多种知识表示元素表达出来,构造本体的目的就是为了实现一定程度的知识共享和重用.本体强调实体间或概念间的关联关系,知识图谱在本体的基础上,增加了更多关于实体的信息.也就是说,本体描述了知识图谱的数据模式(scheme),给知识图谱构建数据模式相当于给它建立了本体.

1.2 数据存储

知识图谱的数据存储主要有2种方案:RDF存储和图数据库存储.

RDF存储又称三元组(triple)存储,使用唯一的URI标示一个资源(resource),一个资源通常又标示一个事物(thing),资源与资源间的关系用属性(property)来描述,3种资源可以组成三元组,一般格式为(主语(subject),谓语(predicate),宾语(object)).三元

龙源期刊网 http://www.qikan.com.cn

组模式的查询、归并和连接都非常高效,但因为其自身索引方式的问题,空间开销比较大,更新维护的代价也大,目前更多的RDF数据库使用列式存储,查询效率也逐渐得到了提高. 相对来说,图数据库可以提供完善的图查询语言、支持各种图挖掘算法,但是图数据库的分布式存储使得大节点处的处理开销高,数据更新速度慢,整体的实现代价比较高.图1展示了各种数据存储模式近几年的发展情况[3],可以看出基于图存储的数据库的数量一直保持领先,是存储方式中的主流,其中Neo4j最为流行,而Jena是RDF领域内目前最流行的存储框架.

知识图谱发展与构建的研究进展

龙源期刊网http://www.qikan.com.cn知识图谱发展与构建的研究进展作者:朱木易洁鲍秉坤徐常胜来源:《南京信息工程大学学报(自然科学版)》2017年第06期摘要近年来知识图谱技术引起了广泛的关注和研究,本文介绍了近期知识图谱的发展、构建方法、详细的构建过程,并对知识图谱在交叉学科领域的应用
推荐度:
点击下载文档文档为doc格式
355lf12utx47le14lopx1jxus0hkxz00vwg
领取福利

微信扫码领取福利

微信扫码分享