关联规那么在中医药领域的应用研究
童元元,赵英凯,于静,胡艳敏,潘艳丽
【关键词】 数据挖掘;关联规那么;中医药;文献分析
数据挖掘又称数据库中的知识发觉,是随着数据库和人工智能进展起来的一门新兴技术,是从大量数据中发觉有效的、新颖的、潜在有效的而且最终可明白得的知识的进程[1]。利用数据挖掘技术进行中医药海量数据的知识发觉,对中医药的继承进展具有现实意义。
关联规那么(Association Rules)是数据挖掘的重要研究方式之一,由等人[2]于1993年第一提出,用于从大量数据中发觉知足必然条件的项集之间隐藏的关联。其中,关联有简单关联、时序关联、因果关联。关联规那么的挖掘一样分成两个子问题:①找出所有支持度≥最小支持度阈值的频繁项集;②由频繁模式生成知足可信度阈值的关联规那么。笔者旨在通过对以关联规那么为要紧方式进行中医药研究的文献报导进行整理分析,寻觅关联规那么应用于中医药研究的特点、规律,以期为相关研究人员提供参考。
1 资料与方式
检索源
以中国中医科学院中医药信息研究所的《中医药期刊文献数据库》(1949-2020年),和中国医学科学院医学信息研究所的《中国生物医学文献数据库(CBM)》(1978-2020年)为检索源(注:2020年为不完全收录)。
检索策略
检索入口选取“关键词”、“篇名”、“主题辞”、“摘要”,检索式为“关联or Apriori算法or频集算法or购物篮分析”进行检索。
统计方式
获取检索题录的全文,排除重复、综述性文献和非中医药研究文献。提取文献的发表年份、机构等内容录入Access数据库,进行数据处置,并对关联规那么的具体应用情形进行分析。
分析内容
别离对文献的年度散布、机构发文量、资助情形、算法利用、研究内容等进行统计分析,进一步分析关联规那么在中医药领域的应用情形。
2 结果与分析
文献量
检索取得以关联规那么为要紧研究方式的中医药文献共44篇,文献量呈逐年递增走势(见表1)。其中属于评述性文献5篇,应用性文献39篇。注明同意立项资助的文献35篇(见表1)。表1 各年度文献量及资助情形(略)
机构散布
依照文献第一作者所在机构统计,发文量居前3位的单位别离是:成都中医药大学,发文6篇,占总文献的%;北京中医药大学,发文5篇,占%;中国中医科学院广安门医院,发文4篇,占9%。发文2篇以上的单位有10个,发文31篇,占所有文献的%。
关联规那么应用情形
在44篇文献报导中,注明所采纳具体算法的文献17篇,其中应用Apriori及Apriori改良算法的报导13篇;FP-Growth算法4篇。以关联规那么作为唯一研究方式的文献16篇,与其他方式联合应用的