好文档 - 专业文书写作范文服务资料分享网站

CN109871424A一种中文学术研究热点区域信息自动提取和地图制作方法[专利]

天下 分享 时间: 加入收藏 我要投稿 点赞

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 109871424 A(43)申请公布日 2019.06.11

(21)申请号 201910149592.6(22)申请日 2019.02.28

(71)申请人 中国科学院地理科学与资源研究所

地址 100101 北京市朝阳区大屯路甲11号(72)发明人 胡云锋 韩月琪 

(74)专利代理机构 成都方圆聿联专利代理事务

所(普通合伙) 51241

代理人 曹少华(51)Int.Cl.

G06F 16/29(2019.01)G06F 16/951(2019.01)

权利要求书3页 说明书8页 附图2页

(54)发明名称

一种中文学术研究热点区域信息自动提取和地图制作方法(57)摘要

本发明公开了一种面向中文学术资源的研究热点区域信息自动提取和地图制作方法。本发明首先爬取海量指定主题的中文文献,经网页解析获得标题、摘要、关键词等信息;对上述文本信息进行中文分词、地名实体识别、地名标准化等操作,明确这些特定文献所指向的研究区域,并统计各研究区域的文献数量;同时根据文献空间定位结果,继续统计涉及该区域的全部文献的数量;最后基于综合指数模型计算研究热度值,并将结果以专题地图形式展示。本发明能够自动完成对海量中文文本的信息抽取、热度计算和地图制图,理解特定主题研究工作的空间分布特征。

CN 109871424 ACN 109871424 A

权 利 要 求 书

1/3页

1.一种中文学术研究热点区域信息自动提取和地图制作方法,其特征在于:所述的中文学术研究热点区域信息自动提取和地图制作方法包括数据库模块、数据获取及预处理模块、空间定位模块、研究热度计算模块和成果展示模块。

2.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法,其特征在于:所述的数据库模块基于SQLite构建,数据库中包括项目信息表、标准地名数据表、研究背景值表、文献信息表、研究热度表、已匹配地名表、未匹配地名表。

3.根据权利要求2所述的数据库模块,其特征在于:所述的项目信息表包含单次检索操作项目的名称、ID及开始时间等字段;所述的标准地名数据表依据中国县级行政区划图、1:25万基础地理数据库及中国历史时期县级行政区划数据库建立;所述的研究背景值表中采用某一地区地名在数据源平台中不分主题检索所得的总文献数量作为该地区的“研究背景值”;所述的文献信息表、研究热度表、已匹配地名表、未匹配地名表根据单次检索操作项目的数据存储需求建立,首先在项目信息表中插入本次检索操作项目的名称及日期,自动获得唯一ID,然后根据该ID值建立文献信息表、研究热度表、已匹配地名表、未匹配地名表等系列数据表。

4.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法,其特征在于:所述的数据获取及预处理模块负责大规模文本数据的获取及预处理,并将获取的数据存储到数据库模块。

5.根据权利要求4所述的数据获取及预处理模块,其特征在于:一、确定检索主题及方式,输入项目名称及存储位置、欲检索的关键词,并选择检索范围及关键词组合方式;

二、数据获取,基于HTTP?GET/POST方法,根据上述检索主题及方式对相关文献数据进行获取,具体过程为:

(1)以GET方式访问CAJD高级检索页,获得网页cookie并保存;(2)以POST方式连续访问CNKI检索处理器页及检索结果列表页,访问参数均参照CAJD高级检索页检索条件组设置;

三、网页解析获取文本。首先对(2)中所述检索结果列表页返回的内容进行解析,获得检索列表,并对列表中包含的文献篇名、链接、作者、刊名、发表时间等信息进行解析;其次以GET方式访问解析得到的文献链接,对访问返回的页面进行分析,获取文献关键词及摘要;

四、数据存储,将上述步骤三中解析网页后获得的各项字段插入到所述的数据库模块建立的各数据表中。

6.根据权利要求1所述的一种中文学术研究热点区域信息自动提取和地图制作方法,其特征在于:所述的文本空间定位模块负责对文本中地名词汇进行识别、提取及标准化,其具体处理方法如下:

一、地名实体词识别。首先基于开源Java自然语言处理算法包HanLP中的分词模块与实体词识别模块,对爬取到的文本关键词及摘要数据进行中文分词及地名实体词识别;进而对识别出的地名进行预处理,预处理过程包括对同一篇文献中重复出现的地名进行去重,以及对被拆分成多个地名的组合地名进行合并;

二、地名标准化、行政区空间包容关系判断及地名频次汇总统计。目的在于将多层级、

2

CN109871424A一种中文学术研究热点区域信息自动提取和地图制作方法[专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109871424A(43)申请公布日2019.06.11(21)申请号201910149592.6(22)申请日2019.02.28(71)申请人中国科学院地理科学与资源研究所地址100101北京市朝阳区大屯路甲11号(72)
推荐度:
点击下载文档文档为doc格式
3jqmn84nou9pg7z7hdvh6c4rp7oyx100soh
领取福利

微信扫码领取福利

微信扫码分享