好文档 - 专业文书写作范文服务资料分享网站

基于数据挖掘技术的招生电子档案信息系统模型构建

天下 分享 时间: 加入收藏 我要投稿 点赞

基于数据挖掘技术的招生电子档案信息系统模型构建

□哈尔滨工业大学管理学院中原工学院 韦映梅 中原工学院 邹海林

【摘 要】摘要:本文通过详细说明自上而下和基于信息包图方法设计的系统的数据仓库的过程,以及采用Apriori算法挖掘各个主题的关联规则,通过该系统为招生工作及高校发展提供支持和决策等辅助作用。 【期刊名称】兰台世界 【年(卷),期】2014(000)014 【总页数】2

【关键词】数据挖掘技术 招生电子档案信息系统

在“高校招生远程录取子系统”(以下简称子系统)招生工作网络化之前,学校招生的档案管理都是纸质表格的形式,需要人工参与建立电子档案。这种方式工作繁琐、工作量大,且安全系数和正确率不高。随着子系统的推广,解决了数据标准化等部分问题。但仍缺乏对数据分析和预测工作,大量与招生电子档案之间的联系得不到更深层次分析,从而对高校的发展规划具有一定的局限性。

本文采用数据挖掘技术的Apriori算法,并基于信息包图方法设计构建招生电子档案信息系统模型,以期该模型能依据高校的特征,制定出有针对性的、更具效果的招生宣传和招生计划编制,甚至在专业学科建设等影响招生内涵建设方面做出科学的指导,促进各项工作的科学化。

一、招生电子档案数据挖掘系统的总体框架

系统总体框架设计为“四个层次三个阶段”。“四个层次”自下而上分别为数据源层、数据仓库层、数据分析服务层、图形用户展现层,“三个阶段”自下

而上分别为数据准备阶段、数据挖掘阶段、结果解释及表达阶段。其中,数据源层包括原始数据库中抽取系统所需要的数据,对其进行预处理,并针对数据仓库设计的要求对原始的招生电子档案再次进行组织、加工和集成,并加载到数据仓库中,完成数据准备阶段的任务,这一步是得到有效预决策的前提和关键。数据仓库层是按主题进行分析,并对相关的数据进行挖掘的数据源,包含以主题划分的数据集市和专门用于数据挖掘的数据挖掘库。数据分析服务层是联结数据存储层和前端分析工具层的桥梁,其包括联机分析处理(On-LineAnalyticalProcessing,OLAP),分析引擎和安全控制机制等部分。该层能按照系统开发需求设计、生成具有多维分析功能的分析主题,响应前端用户的分析请求,将多维数据传送给前端的分析工具,并予以组织,以便进行多角度和层次的分析。在用户眼中,前端用户展现层才是最重要的,本系统中采用基于Web的数据展现和图形展现,并提供给用户多种交互查询方式,能根据用户要求钻取到相关层,并获得相关的明细数据。

二、招生电子档案信息系统数据仓库的设计

系统的数据仓库采用最常用的自上而下的三层数据建模方式,模型分为概念模型设计、逻辑模型设计和物理模型设计三层。

概念模型设计,其以信息包方式对本系统整体进行概括性描述,确定系统的边界和信息包的主题及其内容(包括维度、类别、指标等)。在高校招生录取工作中,招生决策部门最关心的问题有招生生源、专业填报的第一志愿率、开学时的报到率等。对于这些问题的准确了解和预测有助于制定相应的政策以提高学院生源质量和数量,以及合理专业设置等来促进学校的建设和发展。因此,在创建系统的数据仓库时,先确定了三个主题:生源结构分析、专业填报分析、

生源流失分析。其中,生源结构分析的信息包如表1所示。

逻辑模型设计部分是对概念模型设计的细化,即把不同主题和维的信息映射到数据仓库具体表中。本系统采用星型模型设计(如图1所示),且对所有表中主要字段均建立了索引。模型包括2部分,分别是两种类型的表:事实表和维度表;和三个对象分别对应的逻辑实体信息包:维度、类别和指标。

物理模型设计,基于逻辑模型在数据仓库中的实现。本环节包含数据存储结构、物理存取方式、数据存储分配以及存放位置等。需要考虑I/O存取时间和空间利用率,以及维护代价等因素。

最后,为了能按照统一的规则集成并提高数据的价值,本系统在MS SQLServer2000环境下对数据进行提取、清洗、转换、加载,最终完成数据仓库的实现。

三、基于Apriori算法的招生管理系统

数据挖掘以招生电子档案数据仓库的海量数据为基础,利用分析工具发现数据中的潜在模式和数据间的关系,并以这些模式和关系为基础做出预测。本系统采用Apriori算法对建立的数据仓库进行关联规则挖掘。过程分两步:一是找出所有支持度满足最小支持度的项的集合,即产生频繁项集,主要分为连接和剪枝两步。二是根据所得的频繁项集,产生满足最小支持度和最小置信度的强关联规则。具体描述如下:

基于这种支持度-置信度框架的关联规则在产生过程中,常会出现一些问题。一是大量规则的产生,二是产生的规则可能具有欺骗性。例如在给定的支持度与置信度的条件下,存在“区域A成绩等级中”的规则,这个规则不一定正确,与其他规则也不一定存在着因果关系,同时它也不是系统关心的对象。出现这

基于数据挖掘技术的招生电子档案信息系统模型构建

基于数据挖掘技术的招生电子档案信息系统模型构建□哈尔滨工业大学管理学院中原工学院韦映梅中原工学院邹海林【摘要】摘要:本文通过详细说明自上而下和基于信息包图方法设计的系统的数据仓库的过程,以及采用Apriori算法挖掘各个主题的关联规则,通过该系统为招生工作及高校发展提供支持和决策等辅助作用。【期刊名称】兰台世界【年(卷
推荐度:
点击下载文档文档为doc格式
3a76b7bt1b9epjx24qwd4i6jo0x1tb0127n
领取福利

微信扫码领取福利

微信扫码分享