---- -- - -- - -- - -- - -- - -:-号---学--- -- - -- - 线 -- - -- - -- -:-名---姓--- -- -班--- -- - -- - -- -级--- -- 封 - -- - -- -业---专--- -- - -- - -- - -- - -院- --学。-题--- 院试---学试学考密--科末--息期-期--信学--与季---学春--数年--学---4-1-0-2-—---3-1-0-2-------数据挖掘试卷
A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
课程代码: C0204413 课程: 数据挖掘A卷
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 题目 一 二 三 四 五 六 七 八 九 十 总成绩 复核 D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 得分 5.下列关于Ward’s Method说法错误的是:( ) 阅卷教师 A.对噪声点和离群点敏感度比较小
B.擅长处理球状的簇
一、判断题(每题1分,10分)
C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。( ) D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。( ) 6.下列关于层次聚类存在的问题说法正确的是:( ) 3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( ) A.具有全局优化目标函数
4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。( ) B.Group Average擅长处理球状的簇 5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。( ) C.可以处理不同大小簇的能力 6. 属性的性质不必与用来度量他的值的性质相同。( ) D.Max对噪声点和离群点很敏感
7. 全链对噪声点和离群点很敏感。( )
7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) 8. 对于非对称的属性,只有非零值才是重要的。( ) A.一旦两个簇合并,该操作就不能撤销 9. K均值可以很好的处理不同密度的数据。( ) B.算法的终止条件是仅剩下一个簇
10. 单链技术擅长处理椭圆形状的簇。( )
C.空间复杂度为O?m2?
二、选择题(每题2分,30分)
D.具有全局优化目标函数
1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 离?( )
A.分类 B.聚类 C.关联分析 D.主成分分析
2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法
TID 项 集 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 1 {面包,牛奶} 2 {面包,尿布,啤酒,鸡蛋} A 分类 B 预测 C关联规则分析 D聚类 3 {牛奶,尿布,啤酒,可乐} 4.关于K均值和DBSCAN的比较,以下说法不正确的是( )
4 {面包,牛奶,尿布,啤酒} 5 {面包,牛奶,尿布,可乐}
A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.4 9.下列( )是属于分裂层次聚类的方法。
A.Min B.Max C.Group Average D.MST
10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )
A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 11.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘
12. 决策树中不包含一下哪种结点( )
A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node)
13. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任
务?( )
A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则
14. 下列哪个描述是正确的?( )
A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习
C、分类是有指导的学习,聚类是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习
15. 下面购物篮能够提取的3-项集的最大数量是多少( )
ID 购买项
1 牛奶,啤酒,尿布 2 面包,黄油,牛奶 3 牛奶,尿布,饼干
4 面包,黄油,饼干 5 啤酒,饼干,尿布 6 牛奶,尿布,面包,黄油
7 面包,黄油,尿布 8 啤酒,尿布 9 牛奶,尿布,面包,黄油
10 啤酒,饼干
A.1 B.2 C.3 D 4
三、简答题(每题8分,40分)
1. 何谓数据挖掘?它有哪些方面的功能?
2. 简述数据预处理方法和内容。
3. 何谓聚类?它与分类有什么异同?
4. 什么是决策树?如何用决策树进行分类?
5. 简述ID3算法的基本思想及其主算法的基本步骤 X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用 K-means算法来计算:
四、 算法题(每题10分,20分)
1.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?
P1 P2 P3 P4 P5 P6 P1 0.00 0.24 0.22 0.37 0.34 0.23 P2 0.24 0.00 0.14 0.20 0.13 0.25 P3 0.22 0.14 0.00 0.15 0.28 0.11 P4 0.37 0.20 0.15 0.00 0.29 0.22 P5 0.34 0.13 0.28 0.29 0.00 0.39 P6 0.23 0.25 0.11 0.22 0.39 0.00
2.假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选择欧几里德距离。假设初始选择