基于期刊论文的学科间交叉主题识别研究
基于期刊论文的学科间交叉主题识别研究
摘 要 本文以知网数据库中管理工程和情报学共12本CSSCI期刊5年的论文作为数据,通过AT主题模型、相似度计算识别学科间交叉主题并对其相似程度进行测度。实验表明,AT主题模型可以挖掘两个学科间交叉研究主题,并提供一定的语义描述。通过对比关键词共现的方法,本文的方法可以提供交叉研究主题更多的语义特征,并便于判断高相似度的研究主题。 关键词 主题模型 学科交叉 主题相似度 分类号 G250
DOI 10.16810/j.cnki.1672-514X.20XX.12.012
Abstract A total of 12 CSSCI journals in CNKI about Management Engineering and Information Science are used as the data foundation. Using AT topic model and similarity calculation, this paper identifies the interdisciplinary cross-topics and measures their similarity. Experiments show that AT topic model can mine the cross-topics between two disciplines and provide a certain semantic description. By comparing the methods of keyword co-occurrence, the method of this paper can provide more semantic features for cross-topics and measure high similarity research topicseasily .
Keywords Topic model. Interdisciplinary. Topic similarity. 0 引 言
学科交叉反映了学科之间的内在联系,体现了不同学科之间知识的交流与融合。从信息转移的视角来看,学科交叉的产生是由于其它学科的信息转移进入到该学科并进行了整合的结果,这种信息转移产生的一个主要特征就是学科之间研究主题的交叉重叠,对其进行测度可以反映学科之间研究域的交叠和属性的相似程度。学科交叉是众多学科之间的相互作用而交叉形成的理论体系,其本质是一种科研行为[1]。具体表现形式为:两门或两门以上学科间研究内容和方法存在横向的联系,进而建立起来的有机组织体系和结构。从这个角度来看,学科交叉
1
是多个传统学科跨越学科边界的学科间研究对象的整合,是一种跨学科研究。 宏观层面的学科交叉研究主要是通过期刊引文关系或关联规则挖掘等方法,用以识别学科间的交叉关系以及相关性的强弱;微观层面的学科交叉研究主要以关键词或主题词为基础,挖掘学科间交叉的研究热点。然而,现有的研究鲜有从学科研究主题入手研究学科交叉问题,也缺少对学科间研究主题相似程度进行量化分析。
Sydney J .Pierce在总结学科交叉现象时指出,学科间的“借用”是最有影响的学科间信息转移方式。所谓“借用”,即研究者借用其他学科的理论和方法,并把它们引入自己所研究的领域[2]。这种借用表现在学科之间研究主题的相似性,因此,从知识产出上来看,对学科间研究主题融合现象的度量相比从引文分析、团队合作、关键词等角度更能表征知识间的相互渗透。
为此,本文将结合Author TopicModel模型,以情报学、管理工程两个学科CSSCI期刊的学术论文为研究对象,研究学科交叉的问题,并就学科间主题相似程度进行量化分析。 1 研究现状
国外最早关于跨学科的研究出现在1926年[3]。20世纪70~80年代,学科交叉进入了理论研究阶段,并展开了促进学科间交流合作的探讨。20XX年,Rhoten等人在Science上发文,阐述了学科交叉对开展大学科研项目的意义和前景[4]。
学科交叉研究大多依据共类分析(Co-classification Analysis)的思想[5]。共类分析是指将学术论文按照期刊归属到特定的主题类别中,然后再将主题类别归属到更大的学科中。由于论文或期刊会被归属到不同的主题类别,因此从期刊分类视角分析论文所属学科能够体现学科的交叉性。侯海燕等[6]以Web of Science数据库收录的生物医学工程领域论文所属期刊的学科分类为数据基础,利用学科共现分析方法,结合Bibexcel、Ucinet社会网络分析软件建立学科关联网络图谱,识别生物医学工程领域学科交叉的结构演化特征。
在学科交叉研究中,比较常用的方法是借助于研究领域间的引文关系,对跨学科的学科间相互渗透进行研究。基于引文分析的学科交叉研究主要是从某一学科的引文入手,分析其引文的主题归属,实现两个学科间交叉程度的测度。例如:
2
Porter曾提出类别外引文法(Citations Outside Category),即通过测度引文中属于学科类别以外的引用比例来分析学科之间的交叉程度[7]。Small则通过对期刊论文之间的共引数据,通过聚类,分析学科间的交叉性和相似性[8]。在学科交叉变化趋势方面,Hammarfel等人利用Web of Science的引文数据,测度了34种期刊在不同时期内的引文专题变化趋势,来衡量某一学科的跨学科情况[9]。在多学科之间的交叉测度方面,采用引文分析,由于公式复杂,测度过程繁琐,因此相关的实证研究还不多[10]。
期刊论文的关键词是学科交叉微观研究中常用的方法。由于关键词是表达期刊论文主题的自然语言词汇,通过关键词的共现、聚类等操作可以从微观层面上识别学科之间的内在联系。关键词的共现可以表征学科间的交叉性,共现分析的研究思路是:分析关键词在不同学科领域期刊论文中共同出现的情况,通过统计共现频次反映学科之间的交叉程度。例如:某关键词在两个学科领域高频次地出现,则可以认为该关键词(或知识单元)可以作为两个学科交叉的研究内容。闵超等[11]通过构造了两门学科核心期刊论文规范化的关键词交集,从中获取两门学科的高频交叉关键词及其共词矩阵,借助社会网络分析方法,探讨两门学科交叉研究热点领域的整体特征。李长玲等[12]则利用社会网络分析(Social Network Analysis, SNA)方法,以情报学与计算机科学为例,对两个学科在20XX—20XX年间文献的关键词集合进行共现分析,形成了两门学科交叉文献的关键词共词矩阵,进而挖掘主要交叉研究领域与潜在研究主题。虽然期刊论文的关键词可以从微观层面识别学科间的交叉情況,但由于关键词语义范围不一致,对学科交叉研究的主题描述上存在一定的缺陷。
综上所述,目前该领域的研究主要是以期刊作为学科分类,从论文引文关系或关键词共现的思路入手,对学科交叉程度及变化趋势进行研究。而从学科研究主题入手,分析学科交叉的研究还不多。本文将着眼于学科研究主题,以主题为视角探讨学科交叉问题。 2 方法设计
2.1 Author-Topic Model
主题模型是一种层次贝叶斯模型,可以识别大规模文档集合中隐藏的语义信息。为解决作者对论文主题分布的影响,Mccallum[13]提出了单一主题的作者模
3