基于数据仓库技术的中药科学实验信息数据库
陆嘉明
中药实验数据仓库是科技部基础性课题----“中医药科技信息数据库”的子课题之一。
收录X围是自1990年以来公开出版在中文医学期刊上的有关中药单味药、方剂、化学成份在药理、临床药理、毒理方面的一次实验文献。课题总周期三年,目前已经进行了两年。 1. 概况:
本数据库采用计算机数据仓库技术,在忠实于原文献内容的基础上,按照中药学研究的特点,建立了十五个空间维,将收录内容进行编辑和结构化存储,实现了对中医药文献资料中出现的术语进行规X表达以及术语间的相互关系的多重组合形式,用户可以进行研究数据的统计和相关多维的频次统计,作为药厂、临床、科研、管理、教学工作者必需的查询工具,将为启发科研思路,发掘出具有突出疗效的新药提供依据。
在科技部领导的关怀,中医研究院领导的支持下,我们采用远程建库的新模式,在XX大学计算机系的技术支持下,由全国六家省级中医药学院和研究院的50余位中药专业人员通过互联网进行建库工作。经历了基础工作准备阶段、人员培训与程序测试阶段、大量数据加工阶段,经过课题组全体人员近两年的共同努力,克服了多重困难,解决了多项技术难点,到目前为止,数据已经做到2002年,文献量已经达到20000余篇,数据量达到38900余条,原文图片达到55000余X。整体工作已经基本完成,可以提供网上数据查询与服务。部分数据已经投入使用与应用,实现了网上科技实验数据的便利检索与精确统计分析利用。 2. 目标与计划:
2.1 目标:依据中医药科技期刊文献科学实验数据,利用数据仓库技术,建立中医药科学实验信息数据仓库,为中药新药开发、科研创新及中医临床决策提供科研数据与思路。 2.2 任务计划:初步完成中药药理、毒理、临床药理数据库的整体结构的设计,合理搭建结构关联型数据库字段。在完成数据库应用程序的设计与开发的基础上,完成上述数据库1990-2002年约20000条数据的存储与加工,提供网上数据查询与服务。 3. 课题设计思路与理念: 3.1 关于数据仓库的概念:
数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
中药药理数据仓库就是针对结构不同的药理学文献数据源,进行抽取、清理,并有效集成,按照主题进行组织编辑,最后达到可以进行数据统计和分析的目的。 3.2 数据仓库的建模方式:
数据仓库建立的基础是Oracle Warehouse Builder,而逻辑建模是其实施中的重要一环,因为它能直接反映出技术需求,同时对系统的物理实施有着重要的指导作用。本数据仓库采用了两种建模方法,即第三X式和星型模式。
X式是数据库逻辑模型设计的基本理论,一个关系模型进行无损分解的过程称为规X化。在数据仓库的模型设计中目前一般采用第三X式,它有非常严格的数学定义。即必须具有三个条件:属性量值唯一,不具有多义性;非主属性必须完全依赖整个主键;非主属性不能依赖于其他关系中的属性。
星型模式由一个事实表(Fact Table)和一组维表(Dimension Table)组成,是一种多维的数据关系。事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据实体。 4. 课题设计策略与原则:
4.1 依照中药药理学科分类,筛选中药实验药理数据归类;
根据中药药理学科分类特点,按照中药药理学X围进行实验药理数据归类;选择主要数据项,利用结构化形式,表达数据特征与数据关联方式。 4.2 依照数据特点与现状,设计中药药理实验仓库的结构;
利用数据仓库的概念和技术,从一般数据库中抽取相关主题所需要的数据。找出中药科学实验数据分布特点,研究数据的主题信息抽取数量,是构思数据仓库的基础。在前期对中药实验药理血瘀证专题的数据进行分析与统计时,发现实验方法种类繁多,实验角度各有不同,数据值表达分散、涉及X围广泛,数据具有“高维、小样本”的特点,过分细化结构很难发现共性规律;因而针对中药药理实验数据的现状,降解难度,减少实验数据仓库的建模方式,筛选了有一定分析与统计意义的十五个数据维(文献出处、单味药、化学成分、方剂、剂型、疾病、证候、症状、病理生理、效应部位、微生物、药理分类、临床药理分类、毒理分类、指标),十五个维基本全面表达了中药科学实验数据的内涵值,可以支撑数据统计与分析。
4.3 依照数据仓库建模方法,编辑加工中药药理实验数据仓库数据;
中药药理数据仓库共建立了十五个维,每个维具有独立属性,通过后台的相互关联,共同组成事实表达方式。由于数据仓库需要数据值的标准化与术语用语的规X化;因而,在总体构架实现的基础上,必须研制中药药理学科涉及的常用术语与标准化加工方法。同时建立了十四X标准数据表格,便于数据加工与利用。根据中药科学实验数据的特点,对选择的数据进行结构化处理,对中药科学实验的对象、主要内容、方法与研制指标等数据进行抽取与加工。 5. 研制标准技术规X:
5.1 科技基础数据收集X围与原则:
收录X围是自1990年以来公开出版在中文生物医学期刊上的有关中药单味药、方剂、化学成份在药理、临床药理、毒理方面的一次实验项目。收录原则:全面收录中药实验研究的一次文献数据,或综述性文章均不在收录X围内。 5.2 科技基础数据编辑加工流程:
课题组制定良好的工作流程:中心组文献初筛与加工人员二次复筛——主题抽取——标准数据表——数据编辑加工、全文图片上传——数据初审——数据二审——总审——数据拆分——修改补充标准表 5.3 数据编辑加工标准与细则:
建立与研制了《中药药理数据仓库的编辑流程和技术要求》、《全文图片扫描技术标准》、《中药药理实验仓库的质量考核标准》等一系列操作手册和质控标准。 5.4 研制并建立了中药实验数据仓库标准表:
研制并建立了单味药、化学成分、方剂、剂型、疾病、证候、症状、病理生理、效应部位、微生物、药理分类、临床药理分类、毒理分类、指标等十四X标准表。
6. 研制应用程序:在XX大学的配合下,完成了具体应用程序与数据加工管理程序;
程序名称 数据仓库数据录入界面 数据仓库分析界面 标准词汇表查询 Web标准数据库管理界面 数据仓库管理界面 标准表管理程序 Oracle文献数据库和全文库的连接 7. 完成课题任务:
工具 环境 Asp Win2000,IIIS5.0 Win2000, IIS5.0 Win2000,IIS5.0 Windows Windows 内容与功能 中药实验数据仓库的录入部分,网上建立了基于标准数据查询的功能,可进行远程数据加工、归类、分组、整理的操作,并实现远程加工数据在线人员管理。 中药系统相关数据统计分析界面,提供了查询中医药文献资料中出现的术语以及术语组合进行频次统计的有效途径。 基于web的标准库查询系统,为中药基础数据库与中药实验数据库提供了标准数据查询与应用。 用于web标准数据库的管理界面,实现标准数据的倒入、倒出与标准表的增加、删除与修改等功能。 用于数据仓库数据的管理界面,实现数据仓库的审校与加工数据量的统计,并对数据进行结构拆分,将数据倒入15维的数据仓库中,实现数据库拆分功能。 中药标准数据库的VB录入界面,可实现本地对中药基础数据库的数据加工、修改与审定,并可实现新数据的增加与管理。 把文献库和图片库相关检索和浏览,在本地局域网内实现了对图片的查询。 Asp Asp VB VB VB Windows VB Windows 7.1 完成数据库加工建设任务:
本课题采用远程建库的新模式,在XX大学计算机科学与技术学院的技术支持下,由全国六家省级中医药学院和研究院的50余位中药专业人员通过国际互联网进行建库工作。经历了基础工作准备阶段、人员培训与程序测试阶段、大量数据加工阶段,经过课题组全体人员近两年的共同努力,克服了多重困难,解决了多项技术难点,到目前为止,实现数据已收录了20000余项,数据量达到38900余条,原文图片达到55000余X。 7.2 建立了数据管理与质量控制方式:
设立了远程三级审校管理界面,实现了对异地远程加工过程的监控与管理,不同的工作性质拥有不同的管理权限,实现了数据的三级管理方式与人员的远程在线管理。 7.3 建立了数据仓库应用平台:
数据仓库平台实现了对中药科学实验文献中出现的术语进行规X化表达,同时实现了术语间相互关系的多重组合,用户可根据不同需求进行中药科学实验数据的统计,以及多维数据出现频次的统计,通过频次显示相关数据值在1990年后获得重视的程度,用户可在此科学实验信息数据仓库的基础上,了解与分析近年来中药科学实验的进展情况,该平台将成为药厂、临床、科研、管理、教学工作者有效的查询工具,将为启发科研思路,发掘出具有突出疗效的新药提供依据。用户可根据自己的需求,执行相关操作程序,获得所需数据。 7.4 其他:
7.4.1人员技术培训:进行了分中心人员技术培训,从计算机软硬件配置,网络条件、编辑和审校人员素质、工作数量和质量控制等各方面,对其进行了培训,为课题顺利进行打下了