好文档 - 专业文书写作范文服务资料分享网站

大学数据挖掘期末考试题

天下 分享 时间: 加入收藏 我要投稿 点赞

大学教育管理存在的问题与应对方式探讨 封---- - - - - - - - - - -:-号--学-- - - - - - - - - - - - -:-名--姓-- 班 密 级 - - -业--专-- - - 。-- 题- 试-- 试- 院考--末-学期-- 期-院学--学季-学春--科年-息学--信4-10-与2-学—-3-数1-0-2数据挖掘试卷 技术。 课程代码: C0204413 课程: 数据挖掘A卷 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 题目 一二三四五六七八九十总复核 A 分类 B 预测 C关联规则分析 D聚类 成绩 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) 得分 A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 阅卷 B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 教师 一C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 、判断题(每题1分,10分) D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( ) 1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。( ) A.对噪声点和离群点敏感度比较小 2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。( ) B.擅长处理球状的簇 3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( ) C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。( ) D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。( ) 6.下列关于层次聚类存在的问题说法正确的是:( ) 6. 属性的性质不必与用来度量他的值的性质相同。( ) A.具有全局优化目标函数 7. 全链对噪声点和离群点很敏感。( ) B.Group Average擅长处理球状的簇 8. 对于非对称的属性,只有非零值才是重要的。( ) C.可以处理不同大小簇的能力 9. K均值可以很好的处理不同密度的数据。( ) D.Max对噪声点和离群点很敏感 10. 单链技术擅长处理椭圆形状的簇。( ) 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) 二、选择题(每题2分,30分) A.一旦两个簇合并,该操作就不能撤销 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据B.算法的终止条件是仅剩下一个簇 相分离?( ) C.空间复杂度为O?m2? A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 页脚内容- 3 - 大学教育管理存在的问题与应对方式探讨 TID 1 2 3 4 5 A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.4 9.下列( )是属于分裂层次聚类的方法。 A.Min B.Max C.Group Average D.MST 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) 项 集 {面包,牛奶} {面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐} 任务?( ) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 14. 下列哪个描述是正确的?( ) A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习 C、分类是有指导的学习,聚类是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习 15. 下面购物篮能够提取的3-项集的最大数量是多少( ) ID 购买项 1 牛奶,啤酒,尿布 2 面包,黄油,牛奶 3 牛奶,尿布,饼干 4 面包,黄油,饼干 5 啤酒,饼干,尿布 6 牛奶,尿布,面包,黄油 7 面包,黄油,尿布 8 啤酒,尿布 9 牛奶,尿布,面包,黄油 10 啤酒,饼干 A.1 B.2 C.3 D 4 三、简答题(每题8分,40分) 1. 何谓数据挖掘?它有哪些方面的功能? A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 11.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 12. 决策树中不包含一下哪种结点( ) 2. 简述数据预处理方法和内容。 A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node) 13. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类页脚内容- 3 -

大学教育管理存在的问题与应对方式探讨 3. 何谓聚类?它与分类有什么异同? 1 P1 P2 P3 P4 P5 P6 2 0.24 0.00 0.14 0.20 0.13 0.25 3 0.22 0.14 0.00 0.15 0.28 0.11 4 0.37 0.20 0.15 0.00 0.29 0.22 5 0.34 0.13 0.28 0.29 0.00 0.39 6 0.23 0.25 0.11 0.22 0.39 0.00 4. 什么是决策树?如何用决策树进行分类? 5. 简述ID3算法的基本思想及其主算法的基本步骤 0.00 0.24 0.22 0.37 0.34 0.23 2.假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选择欧几里德距离。假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用 K-means算法来计算:

四、 算法题(每题10分,20分) 1.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图? PPPPPP 页脚内容- 3 -

大学数据挖掘期末考试题

大学教育管理存在的问题与应对方式探讨封--------------:-号--学--------------:-名--姓--班密级---业--专----。--题-试--试-院考--末-学期--期-院学--学季-学春--科年-息学--信4-10-与2-学—-3-数1-0-2数据挖掘试卷技术。
推荐度:
点击下载文档文档为doc格式
814oo5rw1u0a6ri16ozy38gut0xt46013vg
领取福利

微信扫码领取福利

微信扫码分享