好文档 - 专业文书写作范文服务资料分享网站

国内命名实体识别研究的热点和趋势 - 基于CNKI的知识图谱分析 

天下 分享 时间: 加入收藏 我要投稿 点赞

Statistics and Application 统计学与应用, 2020, 9(3), 458-466

Published Online June 2020 in Hans. http://www.hanspub.org/journal/sa https://doi.org/10.12677/sa.2020.93049

Research Hotspot and Trend of Named Entity Recognition in China

—Analysis of Knowledge Map Based on CNKI

Jiangnan Xu1, Jiangming Shen2, Xin Wang1, Zhiyong Zeng3*

1

Yunnan University Data Operation and Management Engineering Research Center, School of Statistics and Mathematics, Yunnan University of Finance and Economics, Kunming Yunnan 2

Enterprise Information Department ofChina Telecom Corporation Limited Yunnan Branch, Kunming Yunnan 3

Yunnan University Data Operation and Management Engineering Research Center, School of Information, Yunnan University of Finance and Economics, Kunming Yunnan

st

th

rd

Received: Jun. 1, 2020; accepted: Jun. 15, 2020; published: Jun. 23, 2020

Abstract

Named entity recognition has made great achievements in China after decades of development. In this paper, CiteSpace is used as an analysis tool to visually analyze the papers on the topic of named entity recognition in CNKI. Through author analysis, research organization analysis, and keyword analysis, this paper discusses the research path and research focus of named entity rec-ognition in China. The results show that a number of influential authors and research institutions have emerged in China. The research path of our country has gone through three stages. At present, the research hotspot in our country is the deep learning method of named entity recogni-tion.

Keywords

Named Entity Recognition, Visual Analysis, CiteSpace

国内命名实体识别研究的热点和趋势

——基于CNKI的知识图谱分析

徐江南1,沈江明2,王 鑫1,曾志勇3*

1

云南财经大学统计与数学学院、云南省高校数据化运营管理工程研究中心,云南 昆明

*通讯作者。

文章引用: 徐江南, 沈江明, 王鑫, 曾志勇. 国内命名实体识别研究的热点和趋势[J]. 统计学与应用, 2020, 9(3): 458-466. DOI: 10.12677/sa.2020.93049

徐江南 等

23

中国电信股份有限公司云南分公司企业信息化部,云南 昆明

云南财经大学信息学院,云南省高校数据化运营管理工程研究中心,云南 昆明

摘 要

收稿日期:2020年6月1日;录用日期:2020年6月15日;发布日期:2020年6月23日

命名实体识别经过几十年的发展在我国已经取得了丰厚的成果。本文使用CiteSpace作为分析工具,对中国知网学术期刊库中的以命名实体识别为主题的论文进行可视化分析。通过作者分析、研究机构分析、和关键词分析对我国命名实体识别的研究路径和研究热点进行探讨。研究结果发现,我国已经出现了一批有影响力的作者和研究机构。我国的研究路径经历了三个阶段,目前国内的研究热点是命名实体识别的深度学习方法。

关键词

命名实体识别,可视化分析,CiteSpace

Copyright ? 2020 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

1. 引言

Open Access 命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。正确率(Precision)、召回率(Recall)和F1值(F1 score)常被用来作为命名实体识别的评价指标。1996年,命名实体评测作为信息抽取的一个子任务被引入MUC-6 [1]。不仅MUC会议,ACE项目和CoNLL会议都进一步推动了命名实体识别的发展[2]。命名实体识别研究的主要方法也经历了从基于规则的方法,到基于统计机器学习的方法,再到基于深度学习的方法的发展路径。我国对于命名实体识别的研究又有自身的特点。汉语的命名实体识别比英语要复杂得多,英语的命名实体往往是首字母大写的并且汉语文本没有类似英语文本中空格之类的显式标示词边界的标示符,分词和命名实体识别互相影响[3]。对我国以往的命名实体识别研究进行分析,有助于总结经验和展望未来的发展方向,更有利于命名实体识别在我国的发展。

2. 数据来源

本文数据来源于中国知网(CNKI)学术期刊库,以命名实体识别为主题对1996年至2019年的文献进行检索,得到631篇中文参考文献,对文献进行筛选、去重最终获取到628篇参考文献。

3. 研究方法

CiteSpace是应用Java语言开发的一款信息可视化软件,它可以对特定领域文献进行计量,以探寻出

DOI: 10.12677/sa.2020.93049

459

统计学与应用

徐江南 等

学科领域演化的关键路径及其知识拐点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测[4]。本文采用Citespace5.5R2版本对获取到的文献进行研究作者和研究机构进行合作共现分析,对关键词进行关键词共现、关键词突显和关键词聚类的时间线分析。

4. 数据结果及分析

4.1. 总发文量分析

利用Excel 2016对1996年至2019年参与分析的数据进行统计得出图1。

从总体趋势可以看出国内以命名实体为主题的发文量大致可以分为三个阶段:1) 1996年至2005年为萌芽阶段。发文量较少,还一度出现0篇发文量的情况,因为真正将汉语命名实体识别研究作为重要的研究领域,并组织较大规模评测会议,是从SIGHAN Bakeoff-2006开始的[1]。2) 2006年至2013年为稳定发展阶段。该阶段每年论文的产出量比较稳定维持在23篇左右。该阶段的研究主要集中在统计的机器学习方法。3) 2014年至2019年为快速发展阶段。该阶段论文的发文量出现爆发式增长。近年来源于神经网络模型的深度学习技术成为机器学习领域新的热潮,对于命名实体识别的发展带来强大的发展动力[2]。

Figure 1. Time distribution of named entity recognition volume in 1998~2019 图1. 1998~2019年命名实体识别发文量的时间分布图

4.2. 作者分析

4.2.1. 核心作者分析

使用CNKI计量可视化分析中的作者分布并结合CiteSpace中的合作共现分析对发文量较多的作者进行统计分析。然而高产作者并不一定是该领域的核心作者[5]。表1将利用普赖斯[6]公式确定出的34位作者作为核心作者候选人,根据作者的发文量以及CAJD的被引频次并用Excel计算出每个作者的综合指数[7]。

Table 1. Distribution volume and comprehensive index of core author candidates 表1. 核心作者候选人发文量及综合指数

排名 1 2

作者 余正涛 吕学强

发文量 13 10

被引频次 186 470

综合指数 237 401

DOI: 10.12677/sa.2020.93049

460

统计学与应用

徐江南 等

Continued

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

郭剑毅 林鸿飞 艾山·吾买尔 吐尔根·依布拉音 卡哈尔江·阿比的热西提

朱艳辉 周国栋 刘挺 买合木提·买买提

姬东鸿 线岩团 赵铁军 王东波 王路路 徐啸 关毅 于江德 杨志豪 施水才 何云琪 崔雷

艾斯卡尔·艾木都拉

邢富坤 雷树杰 李飞 于洪志 程学旗 严馨 顾佼佼 姜文志 王健 王闻慧

10 9 9 8 7 7 7 7 6 6 6 6 6 6 6 5 5 5 5 4 4 4 4 4 4 4 4 3 3 3 3 3

184 56 23 23 23 6 70 213 23 42 68 84 58 14 4 237 26 34 455 2 20 50 1 1 6 1 57 9 36 36 22 0

210 116 93 85 76 65 108 203 67 80 98 108 91 61 55 202 61 66 348 36 48 68 35 35 39 35 73 32 50 50 41 26

根据综合指数法表1中核心作者候选人的综合指数大于或等于100的为核心作者,可以确定9位核心作者:吕学强、施水才、余正涛、郭剑毅、关毅等人。北京信息科技大学的吕学强和施水才《基于层叠隐马尔可夫模型的中文命名实体识别》[8]在CNKI上有365次的被引次数并且吕学强还注重搜索日志和查询日志中命名实体的识别研究;昆明理工大学的余正涛和郭剑毅不仅尝试使用各种统计机器学习方

DOI: 10.12677/sa.2020.93049

461

统计学与应用

徐江南 等

法:条件随机场、层叠条件随机场、隐马尔可夫模型,余正涛还对英语、越南语、柬埔寨语不同语种的命名实体识别都有研究;哈尔滨工业大学的关毅一直侧重于电子病历的命名实体研究。 4.2.2. 作者合作共现分析

利用CiteSpace进行作者合作共现分析,节点的大小可以看出作者发文量的多少,节点的连线和粗细可以反映在命名实体识别的研究领域作者之间的合作关系和合作强度。

Figure 2. Cooperation and co-occurrence of authors 图2. 作者合作和共现图谱

由图2可见,形成了以吕学强、施水才和余正涛、郭剑毅为核心的两个作者群。也形成了分别以林鸿飞和周国栋为核心的两个作者群,其他核心作者并没有形成合作强度较强的作者合作群。

4.3. 研究机构分析

由图3可见命名实体识别的研究主要是学校和研究所,云南省计算机技术应用重点实验室智能信息处理研究所与昆明理工大学信息工程与自动化学院、新疆大学新疆多语种信息技术实验室与新疆大学信息与工程学院存在较强的合作关系,没有形成大规模的合作机构。

4.4. 关键词分析

4.4.1. 关键词共现分析

关键词共现分析可以看到各个关键词之间的联系,从而可以看到各主题之间的联系。在CiteSpace软件中进行如下参数设置:Time Slicing From 1998 To 2019 Years Per Slice=1,Node Types=Keyword,TopN=50,Pruning选择Pathfinder、Pruning sliced networks和Pruning the merged network。并根据关键词共现图谱,把相同意义的关键词进行合并。由图4可见条件随机场、深度学习、自然语言处理和信息抽取是高频关键词,也是命名实体识别研究的热点。与命名实体识别相连的最大熵模型、深度学习、条件随机场和隐马尔科夫模型是研究命名实体识别的方法。自然语言处理、文本挖掘、问答系统和知识图谱是命名实体识别被应用到的领域。

DOI: 10.12677/sa.2020.93049

462

统计学与应用

国内命名实体识别研究的热点和趋势 - 基于CNKI的知识图谱分析 

StatisticsandApplication统计学与应用,2020,9(3),458-466PublishedOnlineJune2020inHans.http://www.hanspub.org/journal/sahttps://doi.org/10.12677/sa.2020.93049Research
推荐度:
点击下载文档文档为doc格式
3q7mn6rlsq9y6ym8c7oz9pugm7qng700f2d
领取福利

微信扫码领取福利

微信扫码分享