关于面向半结构化文本的知识抽取研究
半结构化文本是指以半结构化方式存储,凭借文本格式将其归纳成若干名词的集合,具有格式性和自由性相结合的特点,能兼顾风格统一和内容灵活。一方面,半结构化文本类别繁多,另一方面,半结构化文本广泛存在于现实生活中,各行各业中都能看到此类文本,不同的实际情况会产生不同形式的半结构化文本。这些文本都有相同的特点大量存在,更新速度快,存在对历史文本的分析和检索的需求等。为了更好地提高知识获取的效率,实现对半结构化文本的知识抽取、形成标准的格式并进行存储具有十分重要的现实意义。
半结构化文本与结构化文本(如主题词表、数据表)、非结构化文本(如微博、新闻报道)相比,半结构化文本的知识抽取受到结构与语义的双重约束。首先是结构不完备性,遵循的结构不足以直接解析相关内容,受文本载体形式制约较大;其次是语义相关性与复杂性,大量语义信息相关并隐含在句子级、篇章级文本中,内容表征复杂。 基于此,本文在梳理和总结众多学者研究的基础上,以半结构化文本知识抽取的载体类型、内容和技术方法为视角,对面向半结构化文本的知识抽取进行了研究,从而为更好地实现该类文本信息的有效抽取提供思路。
1半结构化文本知识抽取载体类型的划分及其相研究
半结构化文本中,由于数据源比较复杂,涉及的对象比较多,并且表达形式丰富多样,因此形成了不同的知识载体类型,这些不同的载
体存储内容的方式是不同的,导致对于不同的载体需要采用不同的抽取模式与技术方法。目前,已有许多学者从不同的视角对知识抽取载体的类型划分进行了论述,经过对先前研究的归纳与梳理,本文按照半结构化文本资源的表达形式将知识抽取载体类型划分为三大方面,即:科技文献、Web和其他类型。
1)科技文献。科技文献的表现形式多种多样,如作战文书方面,代表人物有郭忠伟、周献中和黄志同等人,他们构造各类作战文书的Schema库,利用Schema上的修辞谓词抽取相应的知识,最终构造文书内容自然语言问卷方面,苏牧、肖人彬等人提出神经网络识别方法和宽度优先法可以将聚类后的各个语句进行知识形式的转换,从而完成由自然语言问卷到面向对象知识体系的知识抽取过程。大百科全书方面,许勇、宋柔等人提出了一种基于隐马尔科夫模型的方法,即利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。在期刊方面,丁君军、郑彦宁、化柏林等人对学术期刊中的属性描述进行了数量关系和情感信息方面的分析,然后对学术概念属性抽取系统进行设计和实现,刘一宁、郑彦宁、化柏林等人针对学术期刊设计了一种学术定义抽取系统,通过混合使用模式规则、语法规则和词频统计以达到定义抽取的目的。
2) Webo Web的表现形式主要有Wikipedia, Web对象,Semantic; Web, Social Networks等,各个方面都得到相关学者的关注和研究。Wikipedia方面,K. Nakayama等人将Wiki作为Web语料库,详细揭示了其特点,并描述了锚文本链接在消除歧义和}可义词抽取中的重
要性。 Web对象方面,Nie Zaiqing等人认为W eb对象是一种有关某一Web信息的数据单元,可以用来收集、索引和排序。他们的项目从W eb数据源中,能自动地实现大规模产品对象的抽取。Semantic; Web方面,U. Shah等人设计了一种从包含自由文本和语义标记W eb中检索文档的方法,并发现索引和语义标记的结合运用能提高检索效率。Sovial Network、方面,Tang Jie等人讨论了在ArnetMiner系统中的几个关键问题,目的是从学术社会网络中抽取和挖掘专家信息。 3)其他类型。主要有简历和表单等,简历方面,木百鹤等人通过对大量简历文本的分析,概括出了一种简历信息的本体模型,并提出了基于本体的知识抽取框架。表单方面,王振雷等人引人数据元字典和数据字典对报表业务逻辑进行了描述,同时还完成了对表单业务逻辑的描述。
2半结构化文本知识抽取内容的界定及其相关研究
内容是半结构化文本知识抽取的最终目标,是依附于载体而存在的,但同样内容的知识可以存储在不同形式的载体中。不同载体在表现形式上有一定的差异,但从知识内容表达的构成来看,知识抽取内容可以独立于知识抽取载体而存在。在载体分类的基础上,针对不同内容的构成进行相关知识抽取。因此,对知识内容进行界定与区分也是该领域重要的研究部分。综合现有的学术成果,关于知识抽取内容界定及相关研究主要集中在术语、定义、情感倾向性与属性4个方面。 2. 1术语抽取
术语是指在特定学科领域内用来表示概念称谓的集合。术语作为特