医学信息数据库的建立与数据挖掘
作者:屈景辉 廖琪梅 许卫中 陈汉勇
【关键词】医学信息
关键词:医学信息;数据仓库;数据挖掘;数据组织
0引言
计算机和信息技术在医学领域中的应用,形成了现代医学中一个新的边缘学科医学信息学或医药信息学(medicalinformatics),进而成为生物医学工程学的重要支柱.医学信息涵盖了医学活动中产生的文字、图像、声音以及电磁波、光波、压力、温度等多媒体物理数据,这些数据在计算机和数据库技术的支持下,已成为医学技术领域实施科学管理和科学研究的重要资源.数据仓库(datawarehouse,DW)与数据挖掘(datamining,DM)技术的出现[1],为医务管理人员、科研工作者分析、利用这些数据资源进行科学管理、决策和开展大规模、高水平医学研究提供了有力的技术工具.数据仓库与数据挖掘技术已在国外一些大型企业中得到了成功应用,国内一些企业也已开始着手这方面的投资,有的并得到了可喜的回报.由于医学技术具有很强的实践性、实验性、统计性,是一门验证科学,浩瀚的医学资源要用现代技术去组织、去分析、去利用,因此,探索数据仓库与数据挖掘技术在医学信息方面的应用就具有更重要的实用价值和广阔的发展前景.
1
1问题的提出
目前,医学信息的处理大多停留在基于数据库技术支持的操作型事务处理的水平上,如数据的查询、修改等,是为特定的应用服务的.而建立在数据库技术之上的分析型信息处理最典型的应用是一些医学诊断方面的专家系统(expertsystem,ES),其数据资源仅仅是某一方面的专家知识,涉及的数据量很小,覆盖面也很窄.那么,摆在我们面前这个巨大的医学资源宝库究竟能为我们做些什么呢?例如,医院信息系统(hospitalinformationsystem,HIS),它是医学信息学的一个分支,分为管理信息系统(managementinforma-tionsystem,MIS)和临床信息系统(clinicalinformationsys-tem,CIS).前者主要处理医院内部管理方面的信息如人事、财务和设备管理等,而后者是以处理患者为中心的信息系统,如患者入院、住院、治疗、检查、病历、出院等一系列与患者有关的信息.那么,这两类系统能否满足下列要求呢?①如果医院明年利润目标要增长5%,哪些前提条件变化才能达到这一目标?此外还需采取哪些措施来实现这些变化?②未来某段时间内哪些药品使用的频度最高或最低?以及与治疗疾病间的关系?③未来某段时间内哪些疾病是常发病或发病率最高?使用的药物主要有哪些?如何组织急需药品的供应?④环境、气候、地理位置与流行病间的关系?利用现有信息系统要回答这些问题是困难的,有些甚至是不可能的.然而,利用数据仓库与数据挖掘技术就可以轻而易举地找到问题的答案.因此,建立数据仓库与利用数据挖掘技术对于开展科学研究,提高
2
医学技术水平是很有必要的.
2数据仓库的建立
所谓数据仓库是支持管理决策过程的、面向主题的、集成的、与时间有关的、持久的数据集合,它以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径,是与网络通信技术、面向对象技术、并行技术、多媒体技术、人工智能技术等相互浸透、互相结合与综合应用的技术.
创建基于HIS的数据仓库,是从已有数据出发的数据仓库的设计方法,称之为“数据驱动”的系统设计方法,它的基本思路是:利用以前建设的数据库系统的数据,按照分析领域对数据及数据之间的联系重新考虑,组织数据仓库中的主题,利用数据模型有效地识别数据和数据仓库中的主题的数据的“共同性”(即建立主题间相互联系的属性).其创建的基本方法如Fig1所示 [2].
图1略
从图中看出,数据仓库的设计是一个动态的、循环的过程,在系统设计初级阶段,人们对系统的分析需求不能预先作出规范说明,只能给出一个抽象的模糊的描述,数据仓库的内容、结构、粒度、分割以及其他物理设计根据用户反馈信息再不断地调整和完善.
3