龙源期刊网 http://www.qikan.com.cn
金融知识图谱技术在银行业的应用探索
作者:沈栋 王巧燕 陈波
来源:《新金融世界》2019年第12期
龙源期刊网 http://www.qikan.com.cn
随着人们对掌握事物全貌和关联性分析需求的日渐增长,知识图谱在学术界与工业界掀起了一股研究与应用的热潮。
知识图谱是一个基于图模型实现多源异构和互联数据建模与应用的整体解决方案。遵循万物互联的理念,通过用顶点表示实体、边表示关系,以符合人类认知的方式对现实世界进行概念建模,将人类世界爆发式增长的海量多源异构数据沉淀为知识,建立了各种知识服务,同时提供了基于图技术的高链接关系挖掘和关联性知识推理。 知识图谱基本概念
知识图谱。知识图谱(KG,Knowledge Graph)是指用于提升搜索引擎性能的一个多源知识库。相比于传统知识库,KG强调使用图模型中的节点和边来分别描述关联知识的概念和关系,使得知识可以使用图论、图计算、图学习等进行深度查询、关系计算分析和链接预测。 通用知识图谱与行业知识图谱。继KG概念被提出之后,世界各大互联网公司纷纷布局了知识图谱,主要应用于语义搜索、个性化推荐、智能问答和关系决策等领域。而随着知识图谱在行业应用的不断探索落地,知识图谱分化出通用知识图谱和行业知识图谱的概念。通用知识图谱更类似于百科全书,面向全领域,比较著名的有Freebase、Wikidata、Yago、DBPedia等;行业知识图谱面向特定领域,如金融、公安、电商等。两者在构建流程和应用要点上存在较大差异,通用知识图谱侧重于图谱的构建技术,是从海量非结构化数据中进行实体与关系的抽
龙源期刊网 http://www.qikan.com.cn
取、融合;行业知识图谱则侧重于图谱的应用场景,是在知识图谱之上应用知识计算与推理技术,进行业务场景的落地。
金融知识图谱核心技术内容。作为行业知识图谱,金融知识图谱的核心技术在于图引擎,图引擎包含了图存储、图计算、图算法和图可视化四个核心层级。图存储层实现了将数据以图结构存储于以图模型指导设计的图数据库载体中,同时提供图数据的增删改查操作的能力,根据存储方式不同,图数据库又可以划分为原生图和非原生图;图计算层将复杂而专业的图的迭代式计算过程进行抽象并封装成接口暴露给外部,使得图的计算变得简单易用;图应用建模层承载了场景建模所需的基础图算法和在其基础上构建的自定义模型;图可视化层封装了图高效渲染和友好交互的技术框架。 知识图谱存储技术
知识图谱面向海量的图结构数据,需要依赖于图数据库进行数据存储,图数据库基于图模型进行指导设计,根据存储方式的不同又可分为原生图(native)和非原生图(no-native)。相比于传统关系型数据库,图数据库一是具有灵活的schema,支持多源异构的数据入图;二是具有优异的关联分析性能,能够支撑知识图谱高效深度关系挖掘和模型分析的需求。 1.图模型
图模型是基于图结构设计的概念模型,主要有资源描述框架(RDFs,Resource Description Frameworks)和属性图(LPGs,Labeled Property Graphs)兩种模型。RDFs是W3C制定的用于描述实体/资源的标准数据模型,由节点和弧组成,适用于离线分析,主要应用于语义网、文本处理与分析以及学术研究领域;属性图是为了解决互联数据的高效查询、使用和存储问题而被定义的数据模型,由顶点、边(Edge)、标签、关系类型以及属性组成,适用于在线查询,相比于RDFs,属性图因为使用属性折叠了大部分边而获得了较高的查询性能,主要应用于工业实践。目前主流的开源图存储多基于属性图模型,包括Neo4j(企业版于2018年11月已闭源)、TigerGragph、OrientDB、ArangoDB、Azure Cosmos DB等。 2.图存储方式
图存储方式是影响图数据处理效率的关键因素之一,根据存储设计是否为图数据进行特定优化,图存储被划分为原生图和非原生图。原生图的优化设计实现了无邻接索引(index-free adjacency),极大地提高了遍历和更新性能,其优化主要包含了三点:1)节点和关系以固定长度进行存储;2)每个节点域包含了指向关系和属性列表第一个元素的ID信息,实现了节点记录的轻量级存储;3)每个关系域包含了指向关系起点和终点的节点ID。主流开源图存储使用原生图设计的相对较少,有Neo4j、TigerGraph等。非原生图的存储多依赖于已有的第三方存储系统和索引系统,如JanusGraph使用Hadoop进行图处理分析,支持扩展Apache