数据挖掘期末复习2014

由天下分享时间：2025/3/20 8:30:56 加入收藏我要投稿点赞

《数据挖掘》总复习题

1．数据挖掘系统可以根据什么标准进行分类？

答：根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类

2．知识发现过程包括哪些步骤？

答：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示 3．什么是概念分层？

答：一个映射序列，将低层概念映射到更一般的较高层概念。 4．多维数据模型上的 OLAP 操作包括哪些？

答：上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作 5．OLAP 服务器类型有哪几种？

答：关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器 (HOLAP)、特殊的 SQL 服务器 6．数据预处理技术包括哪些？

答：聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。 7．什么是数据清理？

答：填写缺失的值，平滑噪声数据，识别、删除离群点，解决不一致性 8．什么是数据集成？

答：集成多个数据库、数据立方体或文件 9．什么是数据归约？

答：得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果 10．数据清理的内容包括哪些？

答：缺失值、噪声数据、数据平滑、聚类、回归 11.将下列缩略语复原

OLAP——on-line analytical processing DM——data mining

KDD——knowledge discovery in databases OLTP——on-line transaction processing DBMS——database management system DWT——discrete wavelet transform

（DMQL）－－Data Mining Query Language 12．什么是数据挖掘？

答：简单地说，数据挖掘是从大量数据中提取或挖掘知识。具体地说，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 13．什么是关联规则？答：（关联规则是形如X→Y的蕴涵式，其中且， X和Y分别称为关联规则的先导和后继。）假设I是项的集合。给定一个交易数据库，其中每个事务(Transaction)t是I的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。

（关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。

）

14，15．什么是可信度？什么是支持度？

答：支持度：支持度用来确定给定数据集的频繁程度，即给定数据集在所有的数据集中出现的频率，例

如s(X -> Y) = P(X,Y) / N ；置信度：置信度则是用来确定Y在包含X的事务中出现的频繁程度，即 c(X -> Y) = P(X,Y) / P(X)

16．什么是数据仓库？其主要特征是什么？

答：数据仓库是一个提供决策支持功能的数据库，它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。

特征：面向主题、数据集成、随时间而变化、数据不易丢失（数据不易丢失是最明显特征） 17．什么是数据集市？

答：数据集市包含企业范围数据的一个子集，对于特定的用户群是有用的。其范围限于选定的主题。

(是完整的数据仓库的一个逻辑子集，而数据仓库正是由所有的数据集市有机组合而成的) 18．数据库中的知识发现过程由哪几个步骤组成？

答：数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示 19．典型的数据挖掘系统有哪几个主要成分？

答：数据库、数据仓库、万维网或其他信息库；数据库或数据仓库服务器；知识库；数据挖掘引擎；模式评估模块；用户界面

20．从软件工程的观点来看，数据仓库的设计和构造包含哪些步骤？

答：规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。 21．在数据挖掘系统中，为什么数据清理十分重要？

答：脏数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。

22．脏数据形成的原因有哪些？

答：滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码 23．数据清理时，对空缺值有哪些处理方法？

答：忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值 24．什么是数据变换？包括哪些内容？

答：将数据转换或统一成适合于挖掘的形式。包括：光滑、聚集、数据泛化、规范化、属性构造 25．数据归约的策略包括哪些？

答：数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生 26．提高数据挖掘算法效率有哪几种思路？

答：减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算方法 27．假定属性income的最小值与最大值分别为12000和980到区间[0.0，1.0]，根据 min-max 规范化，income的值73600将变为＿3631/551＿。

28．假定属性income的平均值和标准差分别为54000和16000，使用 Z-score 规范化，值73600被转换为＿1.225＿。

29．假定A的值由-986到917.A的最大绝对值为986，使用小数定标规范化，-986被规范化为＿-0.986＿

30．从结构角度来看，有哪三种数据仓库模型。答：企业仓库、数据集市、虚拟仓库

31．什么是聚类分析？它与分类有什么区别？

答：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程

区别：分类有监督聚类无监督分类要靠学习聚类要靠启发式搜索

32．与数据挖掘类似的术语有哪些?

答：数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。 33．解释下列术语 34．翻译下列术语

Data Mining 数据挖掘 Data warehousing 数据仓库 Data Mart 数据集市

drill-down 下钻 roll-up 上卷 OLAP 联机分析处理 Data cube 数据立方体 Association rule 关联规则 Data cleaning 数据清理 Data integration 数据集成 Data transformation 数据变换 Data reduction 数据归约

35．可以对按季度汇总的销售数据进行___B___，来观察按月汇总的数据。 A 上卷 B 下钻 C 切片 D 切块

36．可以对按城市汇总的销售数据进行____A__，来观察按国家总的数据。 A 上卷 B 下钻 C 切片 D 切块

37．通过不太详细的数据得到更详细的数据，称为____B____。 A 上卷 B 下钻 C 细化 D 维规约

38．三层数据仓库结构中，从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层__。

39．已知事物数据库D，给定最小支持度，会求所有的频繁项集和它们的支持度。 40.类比较过程有哪几个步骤？答：（1）数据收集。

通过查询处理手机数据库中相关的数据，并将其划分为一个目标类和一个或多个对比类。

（2）维相关分析。

使用属性相关分析方法，使我们的任务中仅包含强相关的维。（3）同步概化。

同步的在目标类和对比类上进行概化，得到主目标类关系/方体和主对比类关系/方体

（4）导出比较的表示。

用可视化技术表达类比较描述，通常会包含“对比”度量，反映目标类与对比类间的比较

41.给出数据仓库的某种概念模式图，会用DMQL语句描述该概念模式，包括事务和维 42．常用的四种兴趣度的客观度量。答：简单性确定性实用性新颖性 43．四种常用的概念分层类型。

答：模式分层、集合分组分层、操作导出的分层、基于规则的分层 44.各种DMQL子句的表述？

答：1. use database or use data warehouse//

use子句将数据挖掘任务指向说明的数据库或数据仓库.

2. from[where]//

from 和where子句分别指定所涉及的表或数据立方体和定义检索数据的条件．

3. in relevance to :该子句列出要探查的属性和维．

4. order by :order by 子句说明任务相关的数据排序的次序． 5. group by: group by 子句说明数据分组的标准． 6. having :having 子句说明相关数据分组条件．

45．如何理解现实世界的数据是“肮脏的”？答：不完整的、含噪声的、不一致的、重复的 46．多维数据仓库有哪几种概念模型？

答：星形模式、雪花形模式或事实星座形模式。 47．脏数据形成的原因有哪些？（同22题）

答：滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码

课后作业：

第一次：什么叫数据挖掘（题库里有）第二次：什么叫数据仓库（题库里有）

第三次：1. Suppose that the data for analysis includes the attribute age. The age values for the data

tuples are (in increasing order) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.

(a) Use smoothing by bin means to smooth the above data, using a bin depth of 3. (b) How might you determine outliers in the data? (c) What other methods are there for data smoothing?

假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。 (a) 使用按箱平均值平滑法对以上数据进行平滑，箱的深度为3。 (b) 如何确定数据中的离群点？ (c) 对于数据平滑，还有哪些方法？

2. Use the two methods below to normalize the following group of data:

200; 300; 400; 600; 1000

(a) min-max normalization by setting min = 0 and max = 1 (b) z-score normalization

使用如下两种方法规范化如下数据组： 200，300，400，600，1000

(a) 令min=0,max=1,min-max规范化 (b) z-score规范化

第四次：列举并描述说明数据挖掘任务的五种原语。解答：用于指定数据挖掘任务的五种原语是：

1.任务相关数据；2.挖掘的数据类型；3.背景知识；4.模式兴趣度度量；5.发现模式的可视化