关联规则在高校评教系统的应用
白 玲,陈井霞,刘志凯
【摘 要】【摘要】 利用关联规则对高校教师进行评价,进而探索受学生欢迎的教师类型.
【期刊名称】哈尔滨师范大学自然科学学报 【年(卷),期】2011(027)001 【总页数】3
【关键词】关键词:数据挖掘;关联规则;Apriori算法
1 数据挖掘概述
1.1 数据挖掘定义
简单地说,数据挖掘 (Data Mining,DM)是指从大量数据中提取或“挖掘”知识.广义观点是:数据挖掘是从存放在数据库、数据仓库或其他信息库的大量数据中发现有趣知识的过程.它是“数据中的知识发现”(KDD)的一个非常重要的步骤.[1] 1.2 数据挖掘流程
数据挖掘是知识发现中比较重要的步骤.数据挖掘流程如图1所示.
虽然挖掘的最后结果不可预测,但要探索的问题应是有预见性的.首先要选择合适的挖掘算法,然后按照不同算法进行预处理.这一步非常重要,不同的算法可能需要不同的分析数据模型.数据挖掘的过程是一个多次循环反复的过程,每一个步骤一旦与预期目标不符,都要回到前面步骤,重新调整,重新执行.[2]
2 关联规则
2.1 频繁模式
频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构).在挖掘数据之间的关联、相关和许多其他有趣的联系时,频繁模式起着重要的作用.因此频繁模式的挖掘就成了一项重要的挖掘任务和挖掘研究关注的主题之一.[1] 2.2 关联规则挖掘过程
关联规则挖掘过程一般分两步:
第一步:找出所有的频繁项集.根据定义,这些项集的每一个出现的频繁性至少与预定义的最小值支持计数min_sup一样.
第二步:由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度.
2.3 Apriori算法概述
Apriori算法是Agrawal和 R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创算法.
Apriori算法分析:算法使用频繁项集性质的先验知识.Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集.首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合.该集合记作L1.然后,L1用于找频繁2项集的集合,L2用于找L3,如此下去,直到不能再找到频繁k项集.找每个Lk需要一次数据库全扫描.[1]
3 关联规则在评教系统的应用
3.1 方案设计
算法选择:选用经典的Apriori算法.
挖掘对象:全校现任专兼职教师,79人次,100门课程. 挖掘目标:挖掘学生更喜欢哪类教师,学历高还是职称高?
数据采集:2010-2011第一学期的教师评价表 数据源类型:Excel工作表 挖掘工具:SPSS Clementine 3.2 数据采集及预处理
原始表有两个,一个是教师基本信息表,一个是学生评教表,因为有些教师信息不全,所以采用忽略元组的方式,将资料不全的教师信息删除.将两表集成后得到教师评估表.因为主要针对职称、学历、评分结果信息挖掘,其他字段对来说没有意义,所以将其余字段删除.由于Apriori算法是基于布尔型的算法,对连续数据无法使用,所以需对评分结果离散化,离散标准是:设大于等于90分为“优秀”;大于等于85分为“良好”;大于等于80分为“中等”;小于80分为“一般”四个等级.离散化后教师评估表如表1所示. 3.3 数据挖掘
利用Apriori算法,在Clmentine下建立的数据挖掘模型如图2所示.
图2是针对本次挖掘任务所设计的流.流中将“教师评估表.xls”作为源文件节点.添加类型节点建立库与模型间的数据传输,Apriori算法模型中共用到了6个属性字段,所以叫6字段,最后将图形节点填入流中,实现了结果多样性. 建模过程及主要参数配置如下: (1)建立数据源节点.教师评估表.xls
(2)建立类型节点,与数据源连接.将所有字段将方向设置为两者.
(3)建立Apriori模型,与类型连接.将后项、前项设置为全选;最低支持度设为10%,最低置信度设为60%,最大前项数设为2.
(4)建立网络图形,与类型连接.将可显示的最大链接数设为15.其他默认即可.