南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业2答案

由天下分享时间：2025/3/3 7:15:26 加入收藏我要投稿点赞

南开19春学期（1503、1509、1603、1609、1703）《数据挖掘》在线作业-2

一、单选题共20题，40分

1、通常,在为数据仓库准备数据时,数据清理和集成将作为( )步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。 A预处理 B分析 C存储 D挖掘

本题选择是：？ 2、考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( )。 A1，2，3，4 B1，2，3，5 C1，2，4，5 D1，3，4，5 本题选择是：？

3、( )可能使挖掘过程陷入混乱,导致不可靠的输出。 A脏数据 B一致性数据 C可信性数据 D可解释性数据本题选择是：？

4、在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。 A曼哈顿距离

B平方欧几里德距离 C余弦距离 DBregman散度本题选择是：？

5、以下哪项关于决策树的说法是错误的?( )

A冗余属性不会对决策树的准确率造成不利的影响 B子树可能在决策树中重复多次

C决策树算法对于噪声的干扰非常敏感 D寻找最佳决策树是NP完全问题本题选择是：？

6、以下是( )聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。 AMST BOPOSSUM CChameleon

DJarvis－Patrick（JP）本题选择是：？

7、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )。 A层次聚类 B划分聚类 C非互斥聚类 D模糊聚类

本题选择是：？

8、聚类技术把( )看做对象。 A数据 B数据库 C簇

D数据元组

本题选择是：？

9、( )是数据挖掘类型之一,不仅寻找数据中的任何模式,而且还会寻找能够解释目标值的模式。

A无指导数据挖掘 B有指导数据挖掘 C聚类 D数据分析

本题选择是：？

10、如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为( )。 A无序规则 B穷举规则 C互斥规则 D有序规则

本题选择是：？

11、( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。 AMIN（单链） BMAX（全链） C组平均 DWard方法

本题选择是：？ 12、( )说明空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值。 A唯一性规则 B连续性规则 C空值规则 D解释性规则本题选择是：？

13、一个离散的( )类似于标称变量,它对记录那些难以客观度量的主观评价是非常有用的。 A标称变量 B二元变量 C区间变量

D序数型变量本题选择是：？

14、有关数据仓库的开发特点,不正确的描述是( )。 A数据仓库开发要从数据出发

B数据仓库使用的需求在开发出去就要明确

C数据仓库的开发是一个不断循环的过程,是启发式的开发

D在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式本题选择是：？

15、( )的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。 A变换 B归约 C集成

D属性子集选择本题选择是：？

16、数据仓库是随着时间变化的,下面的描述不正确的是( )。 A数据仓库随时间的变化不断增加新的数据内容 B捕捉到的新数据会覆盖原来的快照

C数据仓库随事件变化不断删去旧的数据内容

D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合本题选择是：？ 17、数据仓库和OLAP工具基于( )数据模型。该模型将数据看作数据立方体(data cube)形式。 A单个 B二维 C多维 D三维

本题选择是：？

18、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为( )。 A18.3 B22.6 C26.8 D27.9

本题选择是：？

19、将原始数据进行集成、变换、维度归约、数值归约是在以下( )步骤的任务。 A频繁模式挖掘 B分类和预测 C数据预处理 D数据流挖掘本题选择是：？

20、当不知道数据所带标签时,可以使用( )技术促使带同类标签的数据与带其他标签的数据

相分离。 A分类 B聚类 C关联分析 D隐马尔可夫链本题选择是：？

二、多选题共10题，20分

1、在数据挖掘的分析方法中,直接数据挖掘包括( )。 A分类 B关联 C估值 D预言

本题选择是：？CD

2、通过数据挖掘过程所推导出的关系和摘要经常被称为:( )。 A模型 B模式 C模范 D模具

本题选择是：？B

3、数据挖掘应用了许多应用领域的大量的技术,包括( )、信息检索、可视化、算法、高性能计算等。 A统计学 B机器学习 C模式识别

D数据库和数据仓库本题选择是：？BCD

4、数据质量涉及许多因素,包括准确性、完整性、( )。 A一致性 B时效性 C可信性 D可解释性

本题选择是：？BCD

5、数据仓库包含了海量数据。要求OLAP服务器在若干秒内回答决策支持查询。因此,数据仓库系统要支持高效的( )。 A变换

B数据立方体计算技术 C存取方法 D查询处理技术本题选择是：？CD

6、统计学研究数据的( )。 A收集 B分析 C解释 D表示

本题选择是：？BCD 7、数据预处理的原因:数据多半来自多个异种数据源,极易受( )数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。 A受噪声 B不一致 C缺失值 D正确

本题选择是：？BC

8、数据仓库在技术上的工作过程是:( )。 A数据的抽取 B存储和管理 C数据的表现 D数据仓库设计本题选择是：？BCD

9、数据分类的评价准则包括( )。 A精确度

B查全率和查准率 CF-Measure D几何均值

本题选择是：？BCD

10、电信数据的( )等是利用数据挖掘改进电信服务的具体应用。 A多维分析 B盗用模式分析 C异常模式识别 D单模式分析

本题选择是：？BCD

三、判断题共20题，40分

1、K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。 A对 B错

本题选择是：？

2、重复元组不需要数据清理。 A对 B错

本题选择是：？

3、在等宽直方图中,每个桶的宽度区间是一致的。例如,每个桶的宽度为10美元。 A对 B错

本题选择是：？

4、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。 A对 B错

本题选择是：？

5、不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而

南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业2答案

南开19春学期（1503、1509、1603、1609、1703）《数据挖掘》在线作业-2一、单选题共20题，40分1、通常,在为数据仓库准备数据时,数据清理和集成将作为()步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。A预处理B分析C存储D挖掘本题选择是：？2、考虑下面的频繁3-项集的集合:{1,2

推荐度：

点击下载文档文档为doc格式

南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业2答案

南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业2答案

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表