《数据挖掘》教学大纲
课程类别:专业任选修课程 课程名称:数据挖掘 开课单位:理学院 课程编号:B03081904 总学时:40 学 分:4 适用专业:统计学专业
先修课程:概率论、数理统计、多元统计分析等 一、课程在教学计划中地位、作用
数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据科学和统计科学的科研工作者和工程技术人员迫切需要了解和掌握它。数据挖掘自产生以来就是以分析数据、理解数据的实际需求为推动力的,其研究发展也逐步渗透到工业、农业、医疗卫生和商业的实际需求当中。数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。数据挖掘已成为计算机、统计学专业的一门重要课程,也是从事相关研究和应用人员必须掌握的重要知识。 二、课程目标
通过本课程的实验教学,使学生具备下列能力:
(1)全面而深入地掌握数据挖掘的基本概念和原理,了解模型精度的评价方法。
(2)深入地掌握线性回归分析及模型的改进与评价,掌握各种分类方法以及对其进行比较。能够对实际数据进行分类模型的建立,具有比较各方法的能力。
(3)通过学习关联分析、社交网络分析以及文本挖掘,能够对实际数据进行处理、分析,并建立解释合理的统计模型。 三、课程内容及基本要求
第一章 数据挖掘概述
1、理解和掌握数据挖掘的基本概念、数据挖掘过程以及数据挖掘功能; 2、了解数据挖掘的应用和面临的问题;
3、对数据挖掘能够解决的问题和解决问题思路有清晰的认识。 第二章 数据探索
1、了解数据的导入与导出; 2、了解单变量数据的探索方法; 3、了解多变量数据的探索方法;
4、掌握图表的意义以及数据的描述统计。 第三章 回归分析
1、理解多元线性回归模型的确定方法以及模型的检验方法; 2、理解基于树的回归分析方法; 3、了解非线性回归方法。 第四章 分类
1、了解分类及预测的基本思想、概念和意义;
2、掌握逻辑斯蒂回归,掌握线性判别分析,了解非线性判别分析; 3、了解分类方法的比较。 第五章 聚类分析
1、了解聚类分析的基本思想、概念和意义; 2、 掌握相似度(或相异度)的常用度量方法;
3、 掌握常用的聚类算法,包括K-Means、SOM 、BIRCH、DBSCAN、STING; 4、了解孤立点分析的三类方法;了解其它方法的内容;了解聚类分析的研究动态。 第六章 关联规则
1、了解关联规则的基本思想、概念和意义; 2、了解关联规则挖掘的应用背景;
3、掌握常用的关联规则算法,包括Apriori、GRI、Sequence Detection; 4、了解关联规则挖掘的研究动态。 第七章 文本挖掘
1、了解文本挖掘的基本思想、概念和意义;
2、掌握常用的文本挖掘的软件包,了解分词方法,掌握词项-文档矩阵的建立方法。 3、能够进行词频统计分析以及词项聚类;
3、能够利用文本挖掘工具对实际文本数据进行建模分析。 第八章 社交网络分析
1、了解社交网络分析的基本思想、概念和意义; 2、了解社交网络分析的应用背景; 3、掌握社交网络分析方法。 第九章 综合案例分析
1、了解数据挖掘课程所学内容,能够利用所学统计模型建立合适的回归方程; 2、了解关联规则和社交网络分析在商品销售中应用; 四、学时分配
章节名称 第一章 数据挖掘概述 讲授(学时) 2 实验(学时) 0 小计 2 第二章 数据探索 第三章 回归分析 第四章 分类 第五章 聚类分析 第六章 关联规则 第七章 文本挖掘 第八章 社交网络分析 第九章 综合案例分析 合计 2 8 4 4 4 6 4 6 40 0 0 0 0 0 0 0 0 0 2 8 4 4 4 6 4 6 40 五、课程目标达成评价的途径和措施 本课程通过“平时成绩”、 “综合数据分析答辩成绩”两种方式对课程目标达成进行评价,考核成绩计算公式如下(本大纲中成绩均采用百分制):
考核成绩 = 平时成绩30% +综合数据分析答辩成绩70%
平时成绩 = 出勤成绩
1.平时成绩
平时成绩给定方法如下表所示:
序号 1 2 3 4 5 6 7 4 出勤次数 20 19 18 17 16 15 14 小于等于13 成绩 100 90-95 80-85 70-75 60-65 50-55 40-45 0 在课堂上能积极主动回答问题,并回答正确者每次加10分;能积极主动回答问题,但有缺陷者每次加5分,该成绩加入平时成绩中。如平时成绩超过100分者,按最高分100分计。
2、综合数据处理答辩成绩 综合数据处理答辩成绩给定方
法如下表所示:
序号 1 综合数据处理答辩情况 统计描述恰当、图表使用正确、统计方法正确,结论合理,检验有效 2 3 统计描述和图表解释不详,统计模型正确,结论合理,检验有效 80-89 统计描述恰当,图表适用正确,模型合理,结论合理,缺失模型检验 4 5 6 数据处理恰当,统计模型正确,结论较为合理,缺失模型检验 数据处理有错误,建立统计模型,结论没有有效分析 数据处理有错误,模型建立不合理 60-69 31-59 0-30 70-79 成绩 90-100 六、主要参考书
1. Yanchang Zhao (陈健 黄琰 译). R语言与数据挖掘 最佳实践和经典案例. 机械工业出版社
2. Luis Torgo (李洪成、陈道轮 吴立明译) . 数据挖掘与R语言. 机械工业出版社
3. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani(王星译). 统计学习导论 基于R应用. 机械工业出版社
《数据挖掘实验》教学大纲
实验类别:专业教育课程 所属课程名称:数据挖掘实验 实验学时:24 所属课程编码:B03081904S 实验室名称:大学数学实验室 实验室类别:基础实验室教学中心 适用专业:统计学专业 先修课程:多元统计、概率论、数理统计 一、实验在教学计划中地位、作用
本课程是统计学专业的专业教育实验课之一,是具有实际操作性和广阔应用前景的专业实验课。该课程要求学生掌握一种统计语言,通过编写程序,处理解决回归、分类、聚类、社交网络、关联分析、文本挖掘等数据问题。通过该课程的学习,使学生更深刻地认识数据挖掘各模块的实际应用背景,处理方法,可以提高观察、解决问题、科学思维以及从事科学研究的能力,养成严谨科学的作风和良好的实验习惯,为后续课程的学习奠定必要的基础。 二、课程目标
通过本课程的实验教学,学生应具备下列能力:
1. 能够导入、输出各种类型的数据,并对数据进行简单描述统计
2. 能够编写建立线性回归模型、非线性回归模型、树回归模型的程序,并能够通过程序检验模型。
3. 能够对数据进行聚类分析、分类分析、关联分析、社交网络分析,并能够对文本数据进行数据挖掘。
三、实验内容及基本要求
实验一 数据的输入与导出
1.掌握EXCEL数据、SAS数据、SPSS数据、文本数据等数据类型的输入 2.掌握其它从外部获取数据源的方法 3.掌握对数据进行统计描述
4.掌握R数据的导出方法,以及熟悉R语言的常用统计命令 实验二 多元线性回归分析
1.了解多元线性回归模型的命令,能够解释回归模型的系数 2. 掌握残差分析的方法
3.了解Vif、updata、fit、predict等命令 实验三 局部多项式回归
1.了解局部多项式回归的应用条件,使用背景 2.掌握利用lm命令进行局部多项式回归 3. 掌握局部多项式回归的评价方法 实验四 决策树回归 1.了解决策树的基本原理
2.掌握tree、randomForest、gbm、Importance等命令的使用方法 3.能够利用决策树理论分析离线数据的回归问题
实验五 分类分析
1.理解Logistics回归在二分类中的应用
2.掌握Logistics回归命令glm、线性判别命令lda、二次判别命令qda,以及其它的用于分类判别的R命令
3.了解各种判别方法的比较方法 实验六 聚类分析
1.了解聚类分析的基本思想
2.掌握聚类分析的几种算法,K-means, k-medoids,系统聚类分,密度聚类法等,掌握R语言命令:Kmeans,hclust,cutree,pamk,dbscan等命令 3.能够利用各种聚类方法对实际数据iries进行聚类分析
实验七 关联分析
1.了解关联规则的基本概念置信度、可信度、提升度,掌握关联规则的冗余消除方法。 2.掌握apriori算法,能够利用arules包对数据Titanic进行关联分析,挖掘出有效的关联规则。
3.了解arulesviz包的使用,能够对经过冗余处理和裁剪的关联规则进行可视化处理 实验八 文本挖掘
1、了解文本挖掘的常用的R包tm、jiebaR等,并掌握它们的安装方法 2. 掌握文本数据语料库的建立命令Corpus,语料库的处理命令tm_map; 3、掌握分词命令,建立词项-文档矩阵。 4、能够进行词频统计分析以及词项聚类;
5、利用词云命令Wordcloud画出词云,找出关键词。 实验九 社交网络分析
1、了解处理社交网络的常用R包igraph; 2、掌握社交网络中节点,中心点,社区的概念;
3、掌握igraph包命令graph.adjacency, simplify, V, degree,plot的使用。