《数据挖掘》课程教学大纲
课程代码:090142131
课程英文名称:Data Mining
课程总学时:40 讲课:32 实验:8 上机:0 适用专业:信息与计算科学 大纲编写(修订)时间:2017
一、大纲使用说明
(一)课程的地位及教学目标
本课程是信息与计算科学专业一门重要的专业选修课,它较详细地阐述了数据分析与数据挖掘理论及使用。本课程以数据挖掘为主要教学内容,讲述实现数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘模型。通过《数据挖掘》课程的教学,使学生理解数据挖掘的基本概念和方法,学习和掌握常见的数据挖掘方法。使学生能够借助IBM SPSS Clementine Modeler,Weka,Python,Matlab,SAS Enterprise Miner等软件工具进行具体数据的挖掘分析,培养学生数据分析与挖掘的能力。 (二)知识、能力及技能方面的基本要求
要求学生能够理解数据挖掘的工作原理,熟悉数据分析方法,统计方法,优化方法,以及神经网络常用算法的使用,熟悉基本数据分析软件的操作和工作原理,例如常用数据分析软件SPSS,MATLAB等。同时要求学生熟悉数据仓库的概念,要求强化知识获取,信息检索的能力,掌握数据获取的源头。熟练R语言与Python语言或者其他的面向对象语言,熟练操作Mysql,SQL,DB2,Oracle中至少一种数据库。至少熟练一种数据挖掘软件的操作。
该课程的知识系统结构围绕培养学生的数据分析与数据挖掘能力涉及的技术要点和技术难点来展开。知识的运用是由课堂讨论、习题、实践环节三大部分组成。教师应培养学生实用的数据挖掘所必须具备的基础知识及相关的理论知识及基本技能。学生应能掌握基本的数据挖掘软件进行应用操作。 (三)实施说明
要提高学生的基本素质,必须引导学生从被动吸收知识的状态转化到主动索取知识的状态中来。教师在讲解过程中应循序渐进、深入浅出、联系实际、结合实例,才能收到较好的效果。应培养学生良好的数据挖掘思想、方法与技巧,培养初步的算法抽象能力与数据抽象能力。同时注重方法的传授而不纠缠细节。
实践永远是学好数据分析与数据挖掘的关键,本课程对学生的动手能力要求较强,应配置相应的课程设计环节。采用“自学+实战+讨论”的方法,激发学生学习的兴趣。要督促并采用一定的方法使学生在课外时间进行大量的实践练习。使学生在编程的训练中,进一步理解面数据挖掘方法的理论,并能将经典的数据挖掘思想应用到实际的数据挖掘问题中,真正掌握数据挖掘的方法。
理论授课最好采用多媒体教学方式,上课过程中除了讲清基本理论和基本方法外,还应该在课堂上通过多媒体手段现场演示数据挖掘软件的使用、编写、调试过程。在整个课程的教学过程中,教师应成为学生的导师,指导学生如何学习,还应充当课堂讨论的组织者及引导者,扮演实践环节中应用软件项目开发的负责人。
该大纲的实施过程中,应站在培养人才的整体高度上,教师传授的不仅仅是知识,更重要的是如何获取知识。
(四)对先修课的要求
本课程的教学必须在完成先修课程之后进行。本课程主要的先修课程是《数据库原理》、《概率论与数理统计》,《数据分析》,《面向对象程序设计》《运筹学》。 (五)对习题课、实践环节的要求
学习数据挖掘必须多上机实践。只有多动手,才能掌握常用的挖掘算法的使用。因此,建议除教学计划安排的习题与实验教学外,教师应该多采用课外实验作为补充,习题和实验相结合,具体实验的多少应根据具体情况灵活运用。本大纲是以实施素质教育为目标制订的,所以对不同专业、不同班级在同一总学时下,执行过程中应有差异。教师要根据具体情况灵活掌握。 (六)课程考核方式
1.考核方式:考查(平时成绩+大作业+实验报告)
2.考核目标:在考核学生对数据挖掘基本知识、基本原理和方法的基础上,重点考核学生的数据挖掘的应用能力和软件操作能力。
3.成绩构成:本课程的总成绩主要由两部分组成:平时成绩(包括作业情况、出勤情况、实验成绩等)占20-30%,期末成绩(考试或大作业成绩)占70-80%。
平时成绩由任课教师视具体情况按百分制给出;实验成绩由实验老师参照相关规定按百分制给出,实验无成绩或实验不及格,取消期末考试资格,总成绩直接以不及格计。 (七)参考书目
《数据仓库与数据挖掘》,周根贵,浙江大学出版社,2004 《数据仓库与数据挖掘实践》,李春葆,电子工业出版社,2014 《数据挖掘导论》,陈封能编著,人民邮电出版社,2011 《基于Clementine的数据挖掘》,薛薇主编,中国人民大学出版社,2012 《SPSS Modeler数据挖掘方法及应用》,薛薇主编,电子工业出版社,2014
《数据挖掘原理与SPSS Clementine应用宝典》,元昌安主编,电子工业出版社,2009
二、中文摘要
本课程的目的是培养学生理解数据挖掘的基本思想及应用,以及对于数据挖掘软件的运用操作能力。课程内容包括数据挖掘的思想及常用算法,以及相关软件操作,如数据仓库知识、数据清洗预处理、分类与预测、聚类分析。另外,学生应该学会使用如SPSS Clementine或者weka,Python,MATLAB等数据挖掘工具软件。该课程是信息与计算科学专业的专业选修课程,课程将把前期所学的一些基础课程的进行曲面横向与纵向的穿插使用,为毕业设计等奠定重要的基础,同时也是学生就业时一个重要技能。
三、课程学时分配表
序号 1 1.1 1.2 1.3 2 2.1 2.2 3 3.1 3.2 数据挖掘导论 数据挖掘概述; 数据挖掘功能; 数据仓库概述,构建; 数据预处理 数据清洗 数据集成与转换 实验一 数据预处理实验 相关性与关联规则 多种关联规则挖掘 从关联分析到相关分析 教学内容 学时 6 10 6 讲课 6 2 2 2 8 4 4 4 2 2 实验 2 2 2 上机 4 4.1 4.2 4.3 4.4 4.5 5 5.1 5.2 实验二 相关性分析实验 分类与预测 分类与预测的基本知识 基于决策树的分类 贝叶斯分类, 神经网络分类 预测方法 实验三 决策树分类算法 聚类分析 聚类问题概述 K-means算法 实验四 K-Means算法实践 合计 12 6 40 10 2 2 2 2 2 4 2 2 32 2 2 2 2 2 8 四、教学内容及基本要求
第1部分数据挖掘导论
总学时(单位:学时):6 讲课:6 实验:0 上机:0 第1.1部分 数据挖掘概述 (讲课2学时) 具体内容:
理解数据挖掘的概念;
第1.2部分 数据挖掘功能 (讲课2学时) 具体内容:
了解书绝挖掘功能的分类,既描述性的和预测性的; 第1.3部分 数据仓库概述,构建 (讲课2学时) 具体内容:
了解数据仓库产生的原因,基本概念,以及数据仓库的体系结构; 重 点:
1) 数据挖掘定义,功能与原理; 2) 数据仓库的构建。 难 点:
数据仓库的构建。 习 题:
深入理解书中关于数据挖掘与数据仓库的关系。 第2部分 数据预处理
总学时(单位:学时):10 讲课:8 实验:2 上机:0 第2.1部分 数据清洗 (讲课4学时) 具体内容:
1)掌握噪声数据处理 ;
2)掌握不一致数据处理;
第2.2部分 数据集成与转换(讲课4学时) 具体内容: 掌握数据集成处理,掌握数据转换处理; 重 点:
数据缺失的处理,数据集成,数据转换,数据规约与数据离散化。
难 点:
数据集成与转换。
习 题:
讨论数据质量的评估如何依赖于数据的应用目的,给出例子。
实 验:
数据的均值平滑,中值平滑,边界值平滑。(2学时) 第3部分 相关性与关联规则
总学时(单位:学时):6 讲课:4 实验:2 上机:0 第3.1部分 多种关联规则挖掘 (讲课2学时) 具体内容:
理解多种关联规则挖掘介绍,由频繁项集产生关联规则,熟练Apriori算法;
第3.2部分 从关联分析到相关分析(讲课2学时) 具体内容:
熟练掌握从关联分析到相关分析问题,高度关联模式定义;
重 点:
相关分析,Apriori算法流程。
难 点:
挖掘高度关联模式。 习 题:
相关分析应用练习。 实 验:
相关性分析实验;(2学时) 第4部分 分类与预测
总学时(单位:学时):12 讲课:10 实验:2 上机:0 第4.1部分 分类与预测的基本知识(讲课2学时) 具体内容:
1) 了解分类基础; 2) 了解预测基础;
第4.2部分 基于决策树的分类(讲课2学时) 具体内容:
1) ID3算法; 2) C4.5算法;
第4.3部分 贝叶斯分类;(讲课2学时) 具体内容:
理解贝叶斯基本理论,了解朴素贝叶斯的原理和工作过程; 第4.4部分 神经网络分类;(讲课2学时) 具体内容:
理解掌握BP算法;
第4.5部分 预测方法(讲课2学时) 具体内容:
1)掌握线性与多变量回归; 2)熟悉非线性回归; 3)了解其他回归模型; 重 点:
决策树分类,贝叶斯分类,预测方法。 难 点:
决策树分类与预测方法的应用。 习 题:
每个分类应用实践的大作业。 实 验:
实践决策树分类的算法 (2学时) 第5部分 聚类分析
总学时(单位:学时):6 讲课:4 实验:2上机:0 第5.1部分 聚类问题概述 (讲课2学时) 具体内容:
了解聚类分析方法;
第5.2部分 K-means算法(讲课2学时) 具体内容:
掌握K-means算法的结构,应用流程; 重 点:
K-means算法原理与使用。 难 点:
算法实现 习 题:
应用K-means算法进行聚类实践,数据自行差找构建。 实 验:
K-means算法实践。(2学时)