摘 要
中国古籍是中国优秀国家的文化遗产,传统中药理论在长期的医疗实践中积累了大量数据,挖掘其中的宝贵经验是一项十分宝贵的研究工作。数据挖掘可以发现古代中药书籍中隐藏的潜在知识。相关规则是数据挖掘的主要研究领域。这是目前主流的研究方向,专注于找出特定领域的数据与更好的应用之间的依赖关系。。
在这篇文章中,我们将聚焦于相关路由挖掘算法的研究。基于Apriori相关算法,对古书Typhoid Ninety进行数据挖掘。首先,对收集的古代文本数据进行预处理。其次,设计相关规则算法。古代中药的文本数据挖掘和相关规则结果的分析表明,挖掘结果遵循传统中药的相关理论,具有良好的临床标准。
关键词:伤寒九十论;关联算法;Apriori
第1章 绪论
1.1 课题研究的背景和意义
1.1.1 研究背景
随着互联时代的快速发展,传统医书文本的数字化建设、数字化产品,以及网络化服务,将成为现代发展的主流趋势。中医古籍上起周秦,下至清代,历时2000余年,具有数量庞大、专业性强、形式多样、内容杂糅、实用性强、价值巨大等特点,记载着古代人民创造出来的丰富知识,是珍贵的历史数据和具有重要价值的文化遗迹。对中医古籍的整理研究,是对传统医学的继承发展,早在西汉成帝年间就有侍医李柱国校方技,北宋嘉佑年间林亿等校正医书等,正是这些历代学者对古籍的不断整理研究,才能使很多中医古籍能够流传至今。然而,中医古籍的客观现状却不容乐观, 很多已年代湮远,有些甚至已成为孤本、善本,使得很多中医古籍只能束之高阁;另中医古籍因古籍的特殊性,不能以普通书籍印刷、传阅等传播方式广泛流传,这大大降低了中医古籍资源的使用价值。如何客观、合理地发掘遗产,发扬学术,做到“古为今用”,又能很好的保护这些不可复制的古籍文本,是图书馆古籍利用和文献保护工作中的一大难题。
在计算机网络技术还未发展之时,传统中医古籍的整理与研究,从版本考证、编目、校勘、训诂以及专科研究都用手工作业的方式,使得效率进展都很低。在互联新时代进行古籍整理工作已成为古籍整理得主流。古籍数字化最早开始于20世纪70到80年代,
1
人们对古籍数字化一直不断探索,中医古籍的整理与研究发生了翻天覆地的变化。 2002年以后,古籍数字化的探讨更多集中在理论层次, 而且不断向深度研究层次和高效化运用转变。伴随着相关领域的不断配套完善,古籍的数字化处理也必将加快进程,人们对中医古籍的整理与研究必然会更加深入。
1.1.2 研究价值
(1)古代中医文本系统开发的必要性
古代的书是属于珍贵的文化遗物,每次读各种程度的损伤引起,因此通常的书一样,不能广泛流通的,古代的书的资源保护和使用反映古代的书的价值大幅减少资源的使用古代的书的矛盾,为了保护它们,它们的文化历史资料的价值是很难实现的。古代书籍和文书的保护和利用常常看起来是不可能达成的,通过古代书籍资源的数字化,这个矛盾得到了很好的解决。 (2)古代中国文本系统开发的紧迫性
现在大家都很重视古代的书籍,但是古代书籍的保管环境非常严格,保管的温度、湿度、空气、光线都会影响古代书籍的寿命。根据古代书籍的文化遗产特性,它们的安全性和对老鼠和昆虫的防治不能忽视。但是,即使保存环境艰苦,古书一旦遭遇不幸灾害,就会遭到毁灭性的打击。古书、资料的资源是不可更新的,旧书的纸张每秒钟都会变旧,而且数量还在不断减少,所以古书、资料的数字化是当务之急。
(3)古代中国文字系统开发的便利性
现有的数字存储技术内容和形式丰富,几乎不占地方,可以长期保存,提高了搜索速度,让用户搜索变得容易。有了网络,可以随时随地获得必要的古书信息,以多面、多面、多形式的服务,飞跃性地提高了古书研究的便利性。图像扫描技术简单快速,保存方便,这些优点促进了对古代文献资源的保护和研究。共享旧书资源,也有助于学术研究。古书分散在全国各地,古书研究者使用特定的古书非常不方便。古书资料的数码化,这个不便被解除,不懈地寻找急忙宝贵的古书,而是必要的古书,可以随时随地获取信息相关的古书学者之间通过网络,可以互相讨论,研究资源利用率远高于传统的纸的古代文件中被使用。 1.2 国内外研究现状
1.2.1国内研究情况
2
根据《中国古代中药综合目录》,1949年以前在中国出版的中医书籍有13455种。韩医学文献庞大,整理调查大量古代韩医学书籍十分困难。20世纪90年代,一些科研单位和一些大型图书馆开始尝试建立古代书志,并取得了惊人的成果。古书文献目录的数码化的同时,稀有图书、古籍等电子化也,例如,1996年在上海图书馆从古文献稀有图书和古书选出全文光盘制作,稀有图书和古书构筑了检索系统。随着中国计算机和网络技术的进步,古代书籍的数字化已经具体化。1990年代后半期以后,在中国古代书籍的数字化急速发展。这一时期,一些人的出版部门、学术机构、商业公司开始介入古代书籍的数字化进程,使古代书籍的数字化规模迅速扩大。例如,国立图书馆制定计划,将金华、西夏的残金、敦煌的文物、数字本地记录、甲骨文的骨头、《永乐大典》等大型古代书籍和文书数字化。总管“中国基本古书库”的CD-ROM项目,北京Shutongwen Digital Technology Co., Ltd.,陆续开发了“Si Ku Quan Shu”,“Si Bu系列”,“Kangxi Dictionary”的电子版。产品在这个过程中,人们对数字化古代书籍资源特性、古代书籍数字化原理和形式等基本问题的理解得到了很大的升华。以前,有一些重要的技术长期限制着旧书的数字化,经过了持续的研究和实验。有了很大的进步。目前,中国古代百册古籍数据库在网上公开,大规模的网上古籍数据库也值得关注。旧书的数字化也分为CD-ROM版本、数据库版本、在线版本三个阶段。另外,开发的焦点从初期的书刊数据库的构筑转移到全文本数据库,逐步转移到主题功能数据库、专家数据库、本地功能数据库的构筑。添加更改。在理论研究方面,古代书籍的数字化也有了很大的进步,主要形成了古代书籍数字化的概念;标准程序和架构的确立:数据库检索系统的改善,研究支持系统的支持,书志数据库的标准标准和规格基本上是被决定,因此技术调查、数据挖掘、知识发现等古籍数字化的高度的功能。“中国古书的数字化项目,虽然起步比欧美晚,但不管规模和水平,发展到现在,比国外好很多。
1.2.2国外的研究情况
在海外,美国图书馆协会于1980年提议在北美建立“中国古代图书稀有图书国际共同目录”。涉及的大学有北美13所,中国本土5所。1991年,他们在被称为“中国古代书籍联合国目录”的清嘉清面前,开始实施雕刻和笔录的机器可读形式。现在,这个作品属于普林斯顿大学东工业研究所的独立项目。这被称为“RIG-CRBP”(中国的珍藏版)。
从那时起,“American Memory Pllot Project”已经成功地将图书馆21000个收藏品数字化,将所有的书籍、图纸、原稿、照片转换成数字图像,并通过互联网传送它们。
3
一些中国古代的书籍资源。同样,大英图书馆在1993年发表了“2000年战略目标”。计划到2000年为止,将收集文件数字化,并在互联网上实行,尽可能地向全世界的读者提供检索和查询服务。“日本的图书馆,是中国古代的书包括很多。1998年,国立国会图书馆,美国议会制定了图书馆数字图书馆项目。该项目是在中国的传统文化和宝贵的古典数码化,到2003年,超过500分的中国古代书的图像数据库被确立了。其中的“水丽典典”、“家族的古代古典”、“家族人”(天台山时),在中国是很少见的古代书。在中国古代中国的古书数字化项目正在进行中,例如,许多日本的“中药”是全文数字化的第二版了。韩国首尔国立大学图书馆“法国的古书扫描全文阅读系统”“yongle dadian”等相关的奥地利国籍的数码化也正在进行中。[1]。
1.2.3古代中国文本系统的研究目的
传统中药是具有悠久历史的传统中药,具有独特的理论体系、丰富的实务经验、卓越的临床优势。另一方面,传统中药文献是传统中药积累、继承、开发的主要载体。传统中药的开发相关的古代中国的书籍不可估量的效果。近年来,中国越来越注重传统中医的发展,传统中医必然会在中国和世界呈现出繁荣发展的前景。古代中医书籍的数字技术也在不断更新和完善,古代中医书籍的分类和研究是一项非常困难,但意义重大,难度很大的工作。这个研究,是传统的中药材用户的评价指标体系,基于现有的古代的书的情况的比较指标分析,确立了抽屉,优点和缺点,结合最新的理论和技术,用户为中心的理想的服务比提议试图tcm古代的书的完成计划。TCM古本具有几千年积累的丰富的理论知识和临床经验,是TCM理论的出处和实践的强有力的向导。TCM旧书的对照和利用,是TCM开发的不竭动力。古代中国文本分析系统的主要技术和实现是适应时代发展趋势,继承传统中医文化,为人们带来益处[2]。
1.3论文的研究内容和组织结构
这篇论文的研究重点是研究相关分析算法在古代中医数据挖掘中的应用。这篇报道主要由下一章构成。
第一章是该论文的研究的重要性和相关的背景及国内外的研究开发现状,介绍序论。最后,展示论文的整体组织结构。
第二章是相关技术,主要说明数据挖掘技术、相关规则技术和中药数据文本挖掘技术。
第三章,根据相关分析研究古代中医教材。首先,apriori算法的具体实现过程进行介绍,其次apriori算法的设计。详细介绍使用Matlab2018b预处理的处方数据的Apriori算
4
法的数据挖掘过程,简单分析挖掘结果。
第4章,具体分析数据挖掘的结果,说明与中药的组合。通过分析得到的相关规则的结果,表示可以使用相关规则的结果取得中药的有效的数据挖掘结果。书的临床参考价值也说明了传统中医对古代书籍数字化的看法和展望。
第5章,总结论文的工作,展望未来的研究开发。
第2章 相关技术
2.1 概述
2.1.1数据挖掘
数据挖掘(Data Mining)是指通过数据分析来识别趋势和模式,建立基于多个数据集的分类自动化过程,以解决商业问题。换句话说,数据挖掘是从人们事先不知道的、不完整的、嘈杂的、模糊的、随机的大量数据中提取隐藏的、潜在的、未知的信息和知识。过程数据挖掘分为带导向的数据挖掘和无导向的数据挖掘。附带向导的数据挖掘是使用可用的数据来构建模型,说明特定属性。没有向导的数据挖掘是找到所有属性之间的关系。具体来说,分类、评价、预测是有导向的数据挖掘,相关规则和聚集是无导向的数据挖掘。数据挖掘是普通计算机科学相关,而且统计、在线分析处理、信息检索、机器学习、专家系统(依赖过去的经验规则),通过姿势识别等许多方法实现上述目标。目前,数据挖掘的算法主要有神经网络算法、决策树算法、遗传算法、障碍集算法、规则集算法、相关规则法等[3]。 2.1.2数据挖掘的技术过程
从数据本身来看,通常的数据挖掘需要8个步骤,包括数据清洗、数据转换、数据挖掘的实现过程、格式的评估、知识的表达等。
(1)信息收集:决定了数据为分析对象,根据数据分析提取必要的特性信息,选择最佳的信息收集方法数据库积累。在大量数据的情况下,选择合适的数据存储设备和管理数据保护设备是很重要的。
(2)数据集成:将各种理由、格式、特性的数据进行逻辑或物理集成,为企业提供全面的数据共享。
(3)数据传输协议:少量的数据大部分实行也要花很长的时间,实行商业操作的数据挖掘,数据量非常大的事是经常发生的。数据缩减方法可以用于获取数据集的缩减表示。这将会小得多,但接近于保持原始数据的一致性,减少后的数据挖掘结果与减少前相同或几乎相同。
5