一、选择题(本题共5道小题,每小题2分,共10分)
1. 数据仓库是随着时间变化的,下面的描述不正确的是 ( C )。 A. 数据仓库随时间的变化不断增加新的数据内容 B. 捕捉到的新数据会覆盖原来的快照
C. 数据仓库随事件变化不断删去旧的数据内容
D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 2. 有关数据仓库的开发特点,不正确的描述是( B )。 A. 数据仓库使用的需求在开发初期就要明确 B. 数据仓库开发要从数据出发
C. 数据仓库的开发是一个不断循环的过程,是启发式的开发
D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
3. 在有关数据仓库测试,下列说法不正确的是 ( D )。
A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统测试。
B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试。
C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。 D. 在测试之前没必要制定详细的测试计划。 4. 关于基本数据的元数据是指 ( D )。
A. 基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息 B. 基本元数据包括与企业相关的管理方面的数据和信息 C. 基本元数据包括日志文件和简历执行处理的时序调度信息
D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息 6. 下面关于数据粒度的描述不正确的是 ( C )。 A. 粒度是指数据仓库小数据单元的详细程度和级别 B. 数据越详细,粒度就越小,级别也就越高
C. 数据综合度越高,粒度也就越大,级别也就越高
D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量 6. 关于OLAP的特性,下面正确的是:( D )
(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性 A. (1) (2) (3) B. (2) (3) (4) C. (1) (2) (3) (4) D. (1) (2) (3) (4) (5)
7. 关于OLAP和OLTP的区别描述,不正确的是: ( C )
A. OLAP主要是关于如何理解聚集的大量不同的数据,它与OTAP应用程序不同。 B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.
D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的。
8. 关于OLAP和OLTP的说法,下列不正确的是: ( A ) A. OLAP事务量大,但事务内容比较简单且重复率高 B. OLAP的最终数据来源与OLTP不一样 C. OLTP面对的是决策人员和高层管理人员
D. OLTP以应用为核心,是应用驱动的 9. OLAP技术的核心是( D )。 A. 在线性
B. 对用户的快速响应 C. 互操作性 D. 多维分析
10.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( A )
A. 关联规则 B. 聚类
C. 分类 D. 自然语言处理
11. 分析型CRM的( C )功能可以让CRM对所进行的销售活动相关信息进行存储和管理,将客户所发生的交易与互动事件转化为有意义、高获利的销售商机。
A. 促销管理 B. 个性化和标准化 C. 客户分析和建模 D. 客户沟通 12. 运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤( A )。 A. 确定关键成功领域、确定关键绩效要素、确定关键绩效指标 B. 计划目标、实施目标、评价结果、反馈
C. 确定目标、比较目标、收集分析数据、系统学习与改进、评价和提高 D. 确定长期整体目标、确定短期目标 13.什么是KDD? ( A )
A. 知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现
14. 呼叫中心是一种基于( D )的一种新的综合信息服务系统。 A IT技术 B CTI技术 C WEB技术 D CRM技术
15. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘
16. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B )
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链
17. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A ) A. 探索性数据分析 B. 建模描述
C. 预测建模 D. 寻找模式和规则
18. 为数据的总体分布建模,把多维空间划分成组等问题属于数据挖掘的哪一类任务?( B)
A. 探索性数据分析 B. 建模描述
C. 预测建模 D. 寻找模式和规则
19. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )
A. 根据内容检索 B. 建模描述
C. 预测建模 D. 寻找模式和规则
20. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?( A )
A. 根据内容检索 B. 建模描述
C. 预测建模 D. 寻找模式和规则 21.下面哪种不属于数据预处理的方法? ( D )
A. 变量代换 B. 离散化 C. 聚集 D. 估计遗漏值 22.下面哪个不属于数据的属性类型( D )。
A. 标称 B. 序数 C. 区间 D. 相异 23. 在上题中,属于定量的属性类型是( C )。
A. 标称 B. 序数 C. 区间 D. 相异 24. 只有非零值才重要的二元属性被称作( C )。
A. 计数属性 B. 离散属性 C. 非对称的二元属性 D. 对称属性 25. 以下哪种方法不属于特征选择的标准方法 ( D )。
A. 嵌入 B. 过滤 C. 包装 D. 抽样 26.下面不属于创建新属性的相关方法的是( C )。
A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 27. 下面哪个属于映射数据到新的空间的方法? ( A )
A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 28. 企业所建立的预测模型的好坏取决于模型在( A )上的表现效果。 A. 得分集 B. 训练集 C. 测试集 D. 评价集
29. 客户在经济活动中具有多重身份,下面哪一种不是其身份之一( C )。 A. 行为身份 B. 所有权身份 C. 学习身份 D. 决策身份 30. 下列四条描述中,正确的一条是( B )。 A. 企业实施数据挖掘,必须要有数据仓库。
B. 企业要实施数据挖掘最好的方式是请编外专家。
C. 企业购买现成数据挖掘模型的一个先决条件是:该企业的产品、客户、市场定位和所买来的现成模型设计之初的假设相吻合。
D. 在建模的时侯,增益最高的模型就是最好的模型。 31. 数据挖掘算法以( D )形式来组织数据。 A. 行 B. 列 C. 记录 D. 表格
32. 企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。 A. 数据越多越好。
B. 尽可能多的适合的数据。
C. 得分集数据是建模集数据的一部分。 D. 以上三条都正确。
33. K—均值类别侦测要求输入的数据类型必须是( B )。 A. 整型 B. 数值型 C. 字符型 D. 逻辑型
34. 在决策树和累计增益图的关系转化过程图中,决策树上某一页节点的增益与累计增益图上的( D )相对应。 A. 线段长度 B. 线段斜率 C. 相对应的线段长度 D. 相对应的线段斜率 35. 企业为提升每个客户的价值,应实现( C )最优化。
A. 促销活动 B. 预算最优化 C. 客户最优化 D. 三者都不是
36. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( C )数据挖掘方法。 A. 分类 B. 预测 C. 组合或关联法则 D. 聚类 37. 企业成功实施数据挖掘, 需要以下( B )知识或技术。
A. 预先的规划 B. 对商业文体的理解 C. 综合商业知识和技能 D. 都需要 38. 下列哪个不是专门用于可视化时间空间数据的技术( B )。
A. 等高线图 B. 饼图 C. 曲面图 D. 矢量场图
39. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是 ( D )。
A. 有放回的简单随机抽样 B. 无放回的简单随机抽样 C. 分层抽样 D. 渐进抽样 40. 设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。 A. 4 B. 5 C. 6 D. 7 41. 概念分层图是( B )图。
A. 无向无环 B. 有向无环 C. 有向有环 D. 无向有环 42. 以下哪些算法是分类算法( B )。
A. DBSCAN B. C4.5 C. K-Mean D. EM
43. 以下哪些分类方法可以较好地避免样本的不平衡问题( A )。 A. KNN B. SVM C. Bayes D. 神经网络
44. 以下关于人工神经网络(ANN)的描述错误的有 ( A )。 A. 神经网络对训练数据中的噪声非常鲁棒 B. 可以处理冗余特征
C. 训练ANN是一个很耗时的过程 D. 至少含有一个隐藏层的多层神经网络
45. 通过聚集多个分类器的预测来提高分类准确率的技术称为 ( A ) 。
A. 组合(ensemble) B. 聚集(aggregate) C. 合并(combination) D. 投票(voting)
46. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )。
A. 层次聚类 B. 划分聚类 C. 非互斥聚类 D. 模糊聚类
47. 在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
A. 曼哈顿距离 B. 平方欧几里德距离 C. 余弦距离 D. Bregman散度 48.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A. 边界点 B. 质心 C. 离群点 D. 核心点
48. 检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。 A. 统计方法 B. 邻近度 C. 密度 D. 聚类技术 49. DBSCAN在最坏情况下的时间复杂度是( B )。
A. O(m) B. O(m2) C. O(log m) D. O(m*log m)
50. 关于K均值和DBSCAN的比较,以下说法不正确的是( A )。 A. K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 B. K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C. K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D. K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
51. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( A ) A. 探索性数据分析 B. 建模描述
C. 预测建模 D. 寻找模式和规则
52.下面哪种不属于数据预处理的方法? ( D )
A变量代换 B离散化 C 聚集 D 估计遗漏值 二、判断题(本题共10道小题,每小题1分,共10分)
( T )1.商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。 ( F )2.数据分析是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。
( T )3.维是人们观察数据的特定角度,是考虑问题时的一类属性。
( F )4.独立的数据集市架构的优点是企业内数据一致,不会产生信息孤岛。 ( T )5. 星型模型的核心是事实表,事实表把各种不同的维表连接起来。
( F )6.企业风险分析是通过对企业的经营成本进行综合评价,拟定一个企业成本的临界值。
( T )7.衡量客户忠诚的唯一尺度就是客户是否重复或持久地购买企业的产品或者服务。 ( T )8.在BI中,DW是前提和基础,负责统一数据规则的处理和存储。
( F )9.客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。
( F )10. 平衡计分卡共包括三个层面,分别是财务层面、客户层面、内部业务流程层面。 ( T )11.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( F )12.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。 ( F )13.OLAP是用来协助企业对响应事件或事务的日常商务活动进行处理。
( T )14.数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
( T )15. 数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。
( F )16.C4.5决策树算法是国际上最早、最有影响力的决策树算法,
( T )17.平衡计分卡是从财务、客户、内部运营、学习与成长四个角度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。
( F )18.客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。 ( F )19. 企业绩效管理的目的在于进一步加强成本的事前控制,同时有助于通过盈亏分析,辅助产品科学的报价。
20. 数据仓库的数据量越大,其应用价值也越大。F 21. 啤酒与尿布的故事是聚类分析的典型实例。F 22. 等深分箱法使每个箱子的记录个数相同。T 23. 数据仓库“粒度”越细,记录数越少。F
24. 数据立方体由3维构成,Z轴表示事实数据。F 25. 决策树方法通常用于关联规则挖掘。F 26. ID3算法是决策树方法的早期代表。T 27. C4.5是一种典型的关联规则挖掘算法。F 28. 回归分析通常用于挖掘关联规则。F
29. 人工神经网络特别适合解决多参数大复杂度问题。T 30. 概念关系分析是文本挖掘所独有的。F 31. 可信度是对关联规则的准确度的衡量。F
32. 孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。T 33. SQL Server 2005不提供关联规则挖掘算法。F 34. 决策树方法特别适合于处理数值型数据。F
35. 数据仓库的数据为历史数据,从来不需要更新。T 36. 数据立方体是广义知识发现的方法和技术之一。F 37. 数据立方体的其中一维用于记录事实数据。T
38. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。( T )
39. 图挖掘技术在社会网络分析中扮演了重要的角色。( T )