一体化医学语言系统及其对规范我国医学术语的借鉴作用
朱彦慧 腾吉斯
(全国科学技术名词审定委员会,北京 100717)
摘要:由美国国立卫生院开发创立的一体化医学语言系统已成为世界上最全面的医学术语系统,它
包括四个组成部分:元叙词表、语义网络、专家词典与相关词典项目、支持性软件工具,并拥有17个语言版本。一体化医学语言系统不仅为全球使用者搜索文献提供便捷,也为我国电子病历的实施提供术语学基础。 关键词:一体化医学语言系统,术语
The UMLS and Its Reference to Standardize Chinese Medical Terminologies
ZHU Yanhui Tengjisi
( National Committee for Terms in Sciences and Technologies, Beijing, China 100717) Abstract: Has been developed for over two decades by U.S. National Institute of Health, with its 17 linguistic versions, the Unified Medical Language System (UMLS) has become the most universal medical terminology system. It includes the Metathesaurus, Semantic Network, SPECIALIST Lexicon and associate lexicon program, supporting software tools. The UMLS provides convenience for literature retrieval and the implementation of the national electronic medical record.
Keywords: UMLS; terminology
在当前众多的术语数据库中,一体化医学语言系统(the Unified Medical Language System)以收词量大,涵盖面广,语言版本多而备受瞩目。自美国国立卫生院开发以来,该系统在使用英语及其他欧洲语言的国家中使用率甚高。本文将简要介绍一体化医学语言系统的历史沿革、组成、应用,及对我国术语学和生物信息学发展的借鉴作用。
一 一体化医学语言系统的历史沿革
当今世界,随着信息技术的迅猛发展,信息的传播便捷,极大地提升了知识传播的速度和数量,从而使得现代医学在发展过程中产生了大量的生物医学文献。然而,很多文献在对同一概念的描述中经常使用不同的名称,给研究者在理解与区分方面带来了不同程度的困难。为解决此类问题,早在1986年,具有计算机专业知识背景的医学博士唐纳德·林德伯格(Donald Lindberg)就慧眼独具,开创并研发了一体化医学语言系统[1, 2]。美国国立卫生院国家医学图书馆纳入该系统,唐纳德·林德伯格博士也因此享有声誉。一体化医学语言系统是医生、生物信息专家、图书管理人员、计算机专家和语言学家通力合作而研发建立的数据库系统,其目的是通过发展计算机语言系统,对医学术语
1
和词典进行整合,以达到信息整合的目的,从而克服两个障碍:“一是不同机读资源和不同人群对同一概念表达的差异,二是信息在网络中的不同数据库之间传播的困难。”[3]
一体化医学语言系统的研发历经三个阶段:1986-1988年,调查用户需求,界定了一体化医学语言系统的三个组成部分:元叙词表、语义网络及情报源图谱,并将系统与医学术语数据库链接。 1989-1991年,主要研制和发布了三款一体化医学语言系统产品的测试版本,同时继续开展用户调查和一体化医学语言系统的功能开发。1992年以后,不断扩大词汇量和语言版本,以使数据库更加完善,1996年时一体化医学语言系统增加了一个新的组成部分——“专家词典”。目前,一体化医学语言系统每年更新两次,通过网络共享和发行光盘供全球使用者免费使用。
二 一体化医学语言系统的组成及应用
一体化医学语言系统由四个部分组成[4]:元叙词表、语义网络、专家词典和相关词典项目、支持性软件工具。
1.元叙词表(Metathesaurus)
元叙词表基于多种词典、分类、编码以及生物医学文献、基础医学、临床医学文献中的词汇,构成了一体化医学语言系统的基础,包含100多万个生物医学概念和500多万个名称[5],例如,2009年11月发布的最新版本的词汇来源于100多个词典和分类系统,包括国际疾病分类-9 (ICD-9)、国际疾病分类-10 (ICD-10)、 医学主题词表 (MeSH)、 临床医学命名系统(SNOMED-CT)、 观测指标标识符逻辑命名与编码系统(LOINC)、世界卫生组织不良反应术语集(WHO-ART)、英国临床术语(UK Clinical Terms)、临床药学标准术语(RxNORM)、基因本体(gene ontology)、人类孟德尔遗传网(OMIM)等(见图1)[6]。这些词汇称为元叙词表的“源词汇”,它来源于英语、西班牙语、法语、德语、日语等17个国家的语言,目前还不包括汉语。
从本质上说,元叙词表对同一概念的不同名称进行关联,元叙词表的一个概念至少被分配到语义网络的一个语义类型,它对语义网络的所有概念进行了分类。元叙词表中的许多单词和多个单词组成的术语也出现在专家词典中,该词典工具可以确定源于元叙词表的标准化词汇。
2
临床资料库 基因知识库 其他子域 临床医学 术语系统 ? 人类孟德尔遗传网 一体化医学语言系统 医学 主题词表 生物医学 文献检索 美国国立生物技术信息中心分类学数据库 基因本体论数据库 模式生物 华盛顿大学解剖学数字符号知识库 基因组 功能注释 解剖学 图1 2. 语义网络(Semantic Network)
语义网络对元叙词表中的每个概念进行语义分类,对各个语义类型之间的相互关系进行说明。元叙词表中的每个概念至少属于一个语义类型,从不同的语义类型之间可以获得“语义关系”,语义类型和语义关系构成了语义网络。一体化医学语言系统一共有135种语义类型和54种相互关系。大的语义类型包括:有机体、解剖结构、生物功能、化学物质、事件、物体、概念等。语义网络表明了组群和概念之间的相互关系(见图2)[7]。
3
生物 过程 部分 特性 生物属性 评估 发现 评估 生物学功能 解剖结构 实验室检验结果 体征或症状 破坏 生理功能 病理功能 破坏 胚胎结构 解剖异常 完全成形的 解剖构造 定位 损伤或中毒 同时发生 概念性部分 机体定位或区域 先天性异常 获得性异常 概念性部分 包含,生产 概念性部分 毗邻 机体空间或连接 机体系统 概念性部分 机体物质 定位 机体部分,器官或器官组成 部分 部分 部分 部分 组织 细胞 细胞成分 基因或基因组 图2
3. 专家词典和相关词典项目(SPECIALIST Lexicon and associate lexicon program)
专家词典包含了英语术语的句法信息,用于术语向元叙词表的映射,包括普通英语词典、MEDLINE和一体化医学语言系统中的术语以及生活医学术语等。每个词条包括句法的、形式和结构的拼写信息,词条可以是一个单词,也可以是多个单词组成的术语。应用Java程序,可以通过词典完成对生物医学文本变异的处理,这有利于网络搜索和对电子病历的搜索。
4.支持性软件工具
一体化医学语言系统的支持性软件工具包括MetamorphoSys、lvg、MetaMap、知识资源服务器。MetamorphoSys 是针对元叙词表的特殊用途而定制出的应用程序,例如,可以应用它来排除其他来源的词汇,可以从一个数据库中挑选出一个概念和这个概念优先使用的名词。lvg程序基于专家词典和手工编码的规则,产生一个既定术语的词汇变异(例如从单数变为复数)和衍生(例如形容词形式变为名词形式),并且能清除语义学上不重要的词汇。MetaMap是一个在线工具,当给予一个文本时,它能查找出与元叙词表相关的概念,MetaMap Transfer是一个Java程序,也具有相同于MetaMap的功能。知识资源服务器是一个在线服务器,它具有支持读者浏览元叙词表的功能。
4
一体化医学语言系统为美国国家生物技术信息中心(National Center for Biotechnology Information)的文献检索(包括MEDLINE等)提供关键词搜索。MEDLINE与世界上大部分生物医学文献链接,其搜索路径可以检索美国医学图书馆的大多数文献、会议资料、科研项目立题等。一体化医学语言系统也为临床试验系统(ClinicalTrials.gov)的使用提供搜索便捷,解决一个概念有多个名称的问题。另外,一些医学机构利用一体化医学语言系统的资料库收集医学术语[8]。
三 一体化医学语言系统对规范我国医学术语的借鉴作用和意义
我国医学术语系统化建设起步晚,收词量少,发展缓慢,而一体化医学语言系统正为发展我国医学术语系统化提供了概念基础和理念借鉴。
要建立我国的一体化医学语言系统,首先一点是要确立词库。一体化医学语言系统含有100多万个概念,500多万个名称,100多万个概念为汉语医学术语提供了概念基础,500多万个名称中有很多仅仅是英文次序或者语法的变化,因此要充分考虑到英语和汉语的异同点,做好本地化工作。汉语化的语义网络建设要充分考虑到汉语名词的同名不同义和异名同义的特点,另外,还应从汉语科技文献中补充汉语词汇。
在西方医学传入我国之前,传统中医学的主导地位不可动摇,在我国医学史上有着深远的影响。西方医学进入我国后,大量的西方医学术语被翻译成汉语,西方医学术语的翻译也同样受到传统中医学的影响,汉语化的西方医学术语带有很强的民族特色。因此,建立我国的一体化医学语言系统并不是一个简单的术语翻译问题,纳入中医学术语对该系统的汉语化建设具有重要意义。
随着社会现代化及信息网络化的发展,普及应用电子病历的重要性日益凸现出来。电子病历技术能够实现医疗信息共享,即将以医院为单位的医疗诊断信息通过网络实现不同医疗机构之间的信息共享,从而更加有效地利用医疗资源。信息共享的一个重要基础是术语的计算机化,以便使表达同一概念的不同名称能被计算机正确解读,一体化医学语言系统中的100多万个概念和500多万个名称为用汉语写作的生物医学文献提供了术语学参考,完成一体化医学语言系统的汉语版本对我国术语学建设和生物医学信息的发展具有不可估量的现实意义。
参考文献:
[1]Medical terminologies: UMLS. (2006-05-08) [2010-06-21]. http://www.openclinical.org/medTermUmls.html,.
[2]Lindberg DA, Humphreys BL, McCray AT. The Unified Medical Language System. Methods Inf Med, 1993 Aug, 32(4): 281-91.
[3] Humphreys BL. The UMLS and the web: new oppoutunities to link sciencitific knowledge to
5