XXX公司科学技术项目
可行性研究报告
项目名称:
基于知识图谱和人工智能技术的数据关系智能辨识及可视化管理研究
申请单位:
起止时间: 2024年1月1日-2024年12月31日 项目负责人: 通信地址: 邮政编码: 联系电话:
传 真: 申请日期:
2024.09
一、目的和意义
XXX公司(以下简称“公司”)正在大力推进泛在电力物联网及坚强智能电网建设,对电网及电网企业的信息化水平提出了更高的要求,尤其是对于数据资产的深入挖掘利用、全业务流程的协同贯通,有着迫切的需求。因此,全面建设了全业务统一数据中心,实现了源端全业务融合、后端大数据分析。
随着全业务统一数据中心的全面建设,数据的价值发现及使用越来越受重视。为追求企业数据价值最大化,历史数据贯通以及基于业务规则的数据异常发现势在必行。目前虽然通过主数据管理,统一编码管理等方式进行了数据贯通和数据管理,但是对于历史数据的梳理和贯通却收效胜微。主要存在以下问题:
(1)对于历史数据的贯通多采用人工的方式,质量难以得到保证。 (2)需要对原业务系统进行改造,返工工作量及配合成本巨大。 (3)缺乏有效的保障措施,难以确保数据贯通的持续有效。
(4)缺乏知识提取技术,尤其是对于半结构化和非结构化数据知识提取存在盲区,丢失了很多有价值数据,缺乏覆盖电网全业务的知识图谱。
(5)缺少统一的知识库,数据搜索需在多个数据库或应用中分别实现,缺乏关联性,搜索体验差,缺乏智能推荐等功能。
(6)数据资源缺乏全生命周期管控,数据处理各个环节不能有效监管。
因此,亟需在全业务统一数据中心的数据仓库与数据集市之间通过语义标准构建业务数据知识图谱,引入数据化决策模型和监控体系,建立公司信息全息画像,实现业务数据的跨业务贯通,并提供网格化的高速检索和深度挖掘功能,提升企业管理的规范化、标准化、精益化水平。
1
二、国内外研究水平综述
2012年,Google率先提出知识图谱的概念。知识图谱由知识以及知识之间的关系组成,知识或者说实体的内部特性使用属性—值对来表示,知识之间的关系通过两个实体之间相连接的边来表示。
与传统的基于关键字匹配的搜索引擎工作原理不同的是,知识图谱利用概念、实体的匹配度返回给用户与搜索相关的更全面的知识体系。目前国内外围绕知识图谱构建的研究主要分为三个方面:第一方面是知识获取,主要阐述如何从非结构化、半结构化、以及结构化数据中获取知识,涉及的关键技术包括实体抽取、关系抽取和属性抽取。第二方面是知识融合,主要阐述如何将不同数据源获取的知识进行融合构建数据之间的关联,涉及的关键技术包括实体链接、实体消歧、共指消解。第三方面是知识计算及应用,这一部分关注的是基于知识图谱计算功能以及基于知识图谱的应用,知识推理可以粗略地分为基于符号的推理和基于统计的推理。
近年来,深度学习的理论方法取得了重大的成功,知识的表示学习也逐渐成为目前研究的热点。知识表示学习旨在对于知识库中的实体和关系进行表示学习,将知识中蕴含的语义信息表示为稠密低维实值向量,从而在低维空间中实现高效计算实体和关系的语义联系,不但有效解决数据稀疏的问题,而且使知识获取、融合和推理的效果得到显著的提升。
2.1 国外研究现状
知识抽取是从结构化资源(关系数据库)、半结构化资源(HTML,XML等)或非结构化资源(文本、图像等)中形成以机器可理解和解释的形式表示的知识。2012年,华盛顿大学图灵中心针对目前的开放抽取系统Text?Runner和WOE等的抽取结果经常会出现不合逻辑的关系和不提供信息的关系,研发出新一代的开放抽取系统ReVerb系统,引入了两个语法限制和词汇限制,作用在动词表示的两元关系上。
2
同年,美国莱特州立大学HPCO项目(Human Performance and Cognition Ontology)采用半自动化领域层次构建技术,通过迭代的过程,涉及从科技领域进行知识抽取,从选定的社区作者内容(例如维基百科)进行自动分类抽取,在有限的专家指导下进行半自动化本体建设,以便在人类性能和认知领域中抽取出有价值的信息。
2012年,在Google提出了知识图谱的概念后,知识图谱在各个领域内得到广泛的使用,最主要的是和搜索引擎相关的使用。知识图谱首先从Freebase、Wikipedia以全球概览中获得专业的数据,并通过知识抽取,融合等技术将数据转变为能代表实体的知识,利用知识之间的语义关系构成知识图谱,同时还通过大规模的信息搜索分析来提高搜索结果的深度和广度。2012年5月,Google的KG中已经包括了5亿个实体或者概念,包括了35亿条实体或者实体与概念之间的关系,并将该图谱应用在其搜索引擎中,知识图谱在搜索引擎中的。
在大规模图数据上进行高效地查询、匹配是大数据分析处理的基础问题。按照是否采用数据挖掘的方法进行数据匹配,该类技术又进一步分为基于数据挖掘的匹配技术和非数据挖掘的匹配技术。
He等人提出了一种基于树结构的索引算法C-tree,该算法可以同时支持精确匹配和近似匹配,采用多级聚类的方法将数据图聚合为具有层次关系的树结构,树中的每个节点表示一个聚合结果,同时每个节点还包含了其后继节点的重要特征,能够非常高效地筛选备选图,是代表性的基于非数据挖掘的匹配算法。而Yan等人提出的GIndex算法首次提取了图中具有强辨别力的频繁子图作为特征,并基于该特征对大规模多图数据建立索引,是代表性的基于数据挖掘的匹配算法。
实体关联是指对于从文本中抽取得到的实体对象,将其关联到知识库中对应的正确实体对象的操作。2011年,Han等人提出的基于图的集成实体链接方法,能够有效提高实
3