好文档 - 专业文书写作范文服务资料分享网站

2020年中国知识图谱行业研究报告

天下 分享 时间: 加入收藏 我要投稿 点赞

大规模应用落地的保障——知识抽取

实体和关系抽取是核心,事件抽取是知识更新的重要手段

对信息源的知识抽取主要按照自然语义中的主谓宾语法进行抽取,分为实体抽取、关系抽取、属性抽取和事件抽取等。实体抽取指在信息源中识别出特定的元素标签,并与实体库中的标签相链接,是信息抽取中最基础的部分;关系抽取意在找到信息源中实体间的关系,可分为全局抽取和局部抽取,全局抽取是通过语料库对信息源中的所有关系对进行抽取,而局部抽取则是判断一句话中实体的关系类型,目前可以通过特征标注的有监督学习和借助外部知识库进行标注的远程监督学习实现,后者相比前者节省人工标注成本,但准确率略低;属性抽取可以看作实体和其属性值之间的关系,属于关系抽取的一种类型;事件抽取是将信息源中指定的事件信息抽取,并结构化地表现出来,包括事件的时间、地点、人物、原因、结果等,通常使用将事件划分多个分类阶段的pipeline方法和利用神经网络的深度学习方法,事件抽取拥有时间维度,可以与时俱进地迭代学习,是知识图谱知识更新的重要手段。

知识抽取核心内容

实体抽取

1

属性抽取

3

???

从信息源中识别并提取实体

是信息抽取中最为基础和关键的部分

分为基于规则与词典、基于统计机器学习和面向开放域三种抽取方法

??

对信息源中实体的特征和性质进行抽取

由于可以将实体的属性视为实体与属性值之间的一种名词性关系,因此也可以将属性抽取问题视为关系抽取问题

关系抽取

2

事件抽取

4

???

从信息源中抽取实体间的关系解决实体间语义链接的问题

分为有监督学习抽取和远程监督学习抽取

?从信息源中识别并抽取出事件信息,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变

?动态化地丰富和更新实体关系,是现有知识资源的重要补充

www.iresearch.com.cn

来源:艾瑞根据公开资料自主研究绘制。

?2020.3 iResearchInc.

11快速工程化搭建的利器——知识融合

通过本体对齐和实体对齐实现知识库联结合并,形成更加统一、稠密的新型知识图谱

知识融合是指,从概念层和数据层两方面,通过知识库的对齐、关联、合并等方式,将多个知识图谱或信息源中的本体与实体进行链接,形成一个更加统一、稠密的新型知识图谱,是实现知识共享的重要方法。概念层的知识融合主要表现为本体对齐,是指确定概念、关系、属性等本体之间映射关系的过程,一般通过机器学习算法对本体间的相似度进行计算来实现,根据自然语言类型,可分为单语言对齐和跨语言对齐,其中跨语言对齐是实现知识国际交流的重要方式。数据层的知识融合主要表现为共指消解和实体对齐,前者意在将同一信息源中同一实体的不同标签统一,实现消歧的目的;后者是将不同信息源中同一实体进行统一,使信息源之间产生联结。知识融合的使用能够大量应用人类已有知识储备,节省成本,是快速搭建知识图谱的必要手段,也是现代知识图谱应用中重要的研究领域。

知识库1知识融合的核心内容通过本体对齐和实体对齐形成更加统一、稠密的新型知识库知识库3知识库2来源:艾瑞根据公开资料自主研究绘制。

?2020.3 iResearchInc. www.iresearch.com.cn

12由数据向知识转化的秘诀——知识加工

本体构建、知识推理和质量评估使RDF数据向“知识”跃迁

经过知识抽取和知识融合,实体和本体从信息源中被识别、抽取,并且消岐、统一,此时得到的关联数据是对客观事实的基本表达,但客观事实还不是知识图谱需要的知识体系,想要获得结构化的知识网络,还需要经过本体构建、知识推理和质量评估等知识加工过程。本体构建是知识图谱内实体连通的语义基础,以“点线面”组成的网状结构为表现形式,“点”代表不同实体,“线”代表实体间的关系,“面”既是知识网络。本体可以通过人工总结专家经验进行手动编程,也可以由机器学习驱动进行自动构建,本体构建的模型深度和广度,决定了知识图谱的应用价值;知识推理是通过对已有实体间关系的计算,找到新关联,从而丰富新知识的过程,也是知识图谱更新的重要手段;质量评估是知识加工最后的“质检”环节,确保经本体构建和知识推理得到的知识是合理,且符合知识图谱应用目的,根据所建设知识图谱的类型和具体用途,质量评估的标注有所不同。

知识加工核心内容

本体构建?本体是知识图谱内实体连通的语义基础,主要以“点线面”组成的网状结构呈现?本体可通过人工编辑的方式手动构建,也可通过数据驱动自?知识推理?通过对三元组的语义分析,获取新知识或结论,包含公理性推理和判断性推理知识推理是知识图谱更新的重要手段?知识推理的主要方法包括基于Tableaux运算、基于逻辑编程改写、基于一阶查询重写、基于产生式规则等方法质量评估?对已产生的知识数据进行评估,将符合标准的数据导入知识图谱中?质量评估是确保知识图谱内容正确可用的关键步骤动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认来源:艾瑞根据公开资料自主研究绘制。

?根据所建设知识图谱的类型和具体用途,质量评估的标注有所不同?2020.3 iResearchInc. www.iresearch.com.cn

13知识图谱的载体——知识存储

关系型数据库和图存储是现代知识图谱较为常见的存储方式

知识存储是将知识图谱的概念层和数据层以计算机可识别的数据格式进行保存的物理形式,是知识的现实容器。知识存储按照存储结构可以分为表格形式和图形式,常见的表格存储有三元组表、类型表和关系型数据库,前二者难于大规模建设,且查询、维护、删改等操作成本较高,不适用于现代知识图谱应用。关系数据库通过属性记录实体,能很好的和RDF完成映射,利用SQL语言也能方便快捷的进行知识检索,是目前应用较为广泛的知识存储方式;图存储是以图形结构对数据进行存储的方式,并非图片存储。以图形的“节点”象征实体,节点间的“边”代表实体间的关系,这种结构与知识图谱内本体结构非常贴合,更有利于知识查询和价值挖掘,常被应用于本体层的存储,但在某些场景中因其格式死板问题,并不适合全面应用。结合图谱使用目的,灵活的选择存储搭配方式,是符合当下知识图谱落地的最佳方案。知识加工核心内容

关系数据库关系数据库通过属性记录实体,能很好的和RDF完成映射,是目前应用较为广泛的知识存储方式来源:艾瑞根据公开资料自主研究绘制。

?2020.3 iResearchInc.

图数据库以图形的“节点”象征实体,节点间的“边”代表实体间的关系,更有利于知识查询和价值挖掘www.iresearch.com.cn

14知识图谱的主要算法——图计算

用于图结构化数据间的关联性推理运算,善于挖掘隐藏关系

图计算属于大数据挖掘技术的一种,专用于图结构化数据之间关联性的推理运算,基础数据格式与图存储相对应,由代表实体的“点”、代表本体的“边”和边上的权重组成,这里的权重多指一些包含时序性信息的具体数据。图计算算法主要包括全盘访问每一个节点的遍历算法、用于计算社交网络中人际关系的社区发现、源自搜索引擎,用于网页链接排序的PageRank,以及解决图结构中距离问题的最短路径算法,在知识图谱中主要应用遍历算法进行知识推理,以发现实体间隐藏的关系。为了更高效的进行图计算,在应用中会使用图计算系统和计算模型,图计算系统分为单机系统和分布式多机系统,对于大规模图结构存储的计算后者更具有优势。而图计算模型被用于解决图计算因频繁迭代带来的数据读取等待和成本高的问题、对相邻节点和边的计算依赖问题,以及难以在分布不均的区块上并行计算的问题。遍历算法

沿着某条搜索路线,依次对树(或图)中每个节点均做一次访问,试图找到新的关联

图算法核心内容PageRank

如一个网页被多个网页链接,则其PageRank值较高,该算法源自搜索引擎中的网页排序

社区发现

社区发现算法可以用来发现社交网络中三角形的个数(圈子),可以分析出哪些圈子更稳固,关系更紧密

最短路径

以图形的“节点”象征实体,节点间的“边”代表实体间的关系,更有利于知识查询和价值挖掘图数据库用于计算一个节点到其他节点间最短的途径,以目标节点为中心,向边缘扩散

来源:艾瑞根据公开资料自主研究绘制。

?2020.3 iResearchInc.

www.iresearch.com.cn

15

2020年中国知识图谱行业研究报告

大规模应用落地的保障——知识抽取实体和关系抽取是核心,事件抽取是知识更新的重要手段对信息源的知识抽取主要按照自然语义中的主谓宾语法进行抽取,分为实体抽取、关系抽取、属性抽取和事件抽取等。实体抽取指在信息源中识别出特定的元素标签,并与实体库中的标签相链接,是信息抽取中最基础的部分;关系抽取意在找到信息源中实体间的关系,可分为全局抽取和局部抽取,全局抽取是通过语料库对
推荐度:
点击下载文档文档为doc格式
091rb2sqi283uyx9681999g5n13tny00ur3
领取福利

微信扫码领取福利

微信扫码分享