南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-2
一、单选题共20题,40分
1、通常,在为数据仓库准备数据时,数据清理和集成将作为( )步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。 A预处理 B分析 C存储 D挖掘
本题选择是:? 2、考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( )。 A1,2,3,4 B1,2,3,5 C1,2,4,5 D1,3,4,5 本题选择是:?
3、( )可能使挖掘过程陷入混乱,导致不可靠的输出。 A脏数据 B一致性数据 C可信性数据 D可解释性数据 本题选择是:?
4、在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。 A曼哈顿距离
B平方欧几里德距离 C余弦距离 DBregman散度 本题选择是:?
5、以下哪项关于决策树的说法是错误的?( )
A冗余属性不会对决策树的准确率造成不利的影响 B子树可能在决策树中重复多次
C决策树算法对于噪声的干扰非常敏感 D寻找最佳决策树是NP完全问题 本题选择是:?
6、以下是( )聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。 AMST BOPOSSUM CChameleon
DJarvis-Patrick(JP) 本题选择是:?
7、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )。 A层次聚类 B划分聚类 C非互斥聚类 D模糊聚类
本题选择是:?
8、聚类技术把( )看做对象。 A数据 B数据库 C簇
D数据元组
本题选择是:?
9、( )是数据挖掘类型之一,不仅寻找数据中的任何模式,而且还会寻找能够解释目标值的模式。
A无指导数据挖掘 B有指导数据挖掘 C聚类 D数据分析
本题选择是:?
10、如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为( )。 A无序规则 B穷举规则 C互斥规则 D有序规则
本题选择是:?
11、( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。 AMIN(单链) BMAX(全链) C组平均 DWard方法
本题选择是:? 12、( )说明空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值。 A唯一性规则 B连续性规则 C空值规则 D解释性规则 本题选择是:?
13、一个离散的( )类似于标称变量,它对记录那些难以客观度量的主观评价是非常有用的。 A标称变量 B二元变量 C区间变量
D序数型变量 本题选择是:?
14、有关数据仓库的开发特点,不正确的描述是( )。 A数据仓库开发要从数据出发
B数据仓库使用的需求在开发出去就要明确
C数据仓库的开发是一个不断循环的过程,是启发式的开发
D在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式 本题选择是:?
15、( )的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。 A变换 B归约 C集成
D属性子集选择 本题选择是:?
16、数据仓库是随着时间变化的,下面的描述不正确的是( )。 A数据仓库随时间的变化不断增加新的数据内容 B捕捉到的新数据会覆盖原来的快照
C数据仓库随事件变化不断删去旧的数据内容
D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 本题选择是:? 17、数据仓库和OLAP工具基于( )数据模型。该模型将数据看作数据立方体(data cube)形式。 A单个 B二维 C多维 D三维
本题选择是:?
18、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为( )。 A18.3 B22.6 C26.8 D27.9
本题选择是:?
19、将原始数据进行集成、变换、维度归约、数值归约是在以下( )步骤的任务。 A频繁模式挖掘 B分类和预测 C数据预处理 D数据流挖掘 本题选择是:?
20、当不知道数据所带标签时,可以使用( )技术促使带同类标签的数据与带其他标签的数据
相分离。 A分类 B聚类 C关联分析 D隐马尔可夫链 本题选择是:?
二、多选题共10题,20分
1、在数据挖掘的分析方法中,直接数据挖掘包括( )。 A分类 B关联 C估值 D预言
本题选择是:?CD
2、通过数据挖掘过程所推导出的关系和摘要经常被称为:( )。 A模型 B模式 C模范 D模具
本题选择是:?B
3、数据挖掘应用了许多应用领域的大量的技术,包括( )、信息检索、可视化、算法、高性能计算等。 A统计学 B机器学习 C模式识别
D数据库和数据仓库 本题选择是:?BCD
4、数据质量涉及许多因素,包括准确性、完整性、( )。 A一致性 B时效性 C可信性 D可解释性
本题选择是:?BCD
5、数据仓库包含了海量数据。要求OLAP服务器在若干秒内回答决策支持查询。因此,数据仓库系统要支持高效的( )。 A变换
B数据立方体计算技术 C存取方法 D查询处理技术 本题选择是:?CD
6、统计学研究数据的( )。 A收集 B分析 C解释 D表示
本题选择是:?BCD 7、数据预处理的原因:数据多半来自多个异种数据源,极易受( )数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。 A受噪声 B不一致 C缺失值 D正确
本题选择是:?BC
8、数据仓库在技术上的工作过程是:( )。 A数据的抽取 B存储和管理 C数据的表现 D数据仓库设计 本题选择是:?BCD
9、数据分类的评价准则包括( )。 A精确度
B查全率和查准率 CF-Measure D几何均值
本题选择是:?BCD
10、电信数据的( )等是利用数据挖掘改进电信服务的具体应用。 A多维分析 B盗用模式分析 C异常模式识别 D单模式分析
本题选择是:?BCD
三、判断题共20题,40分
1、K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。 A对 B错
本题选择是:?
2、重复元组不需要数据清理。 A对 B错
本题选择是:?
3、在等宽直方图中,每个桶的宽度区间是一致的。例如,每个桶的宽度为10美元。 A对 B错
本题选择是:?
4、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。 A对 B错
本题选择是:?
5、不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而