好文档 - 专业文书写作范文服务资料分享网站

数据仓库与数据挖掘 - DBMS题库考试大纲和答案

天下 分享 时间: 加入收藏 我要投稿 点赞

一、填空题:

1.数据仓库的四个基本特征是指数据仓库中的数据是 面向主题的 、集成的 、不可更新的和随时间不断变化的。

2.OLAP的实现方式有以下两种:基于关系数据库系统的实现和基于多维数据组织的实现。 3.数据从操作型环境到数据仓库过程中,通常需要进行的处理操作有数据抽取(extraction)、转换(transformation)、装载(Load)和清洗(cleaning)。

4.数据仓库中数据的分割是指将数据分散到各自的物理单元中去以便能分别独立处理。数据分割后的数据单元称为分片,数据分片的类型有 水平分片、垂直分片 、混合分片和导出分片等。

5.数据仓库系统是多种技术的综合体,它是由 数据仓库的前台后台工具、数据仓库服务器和 OLAP服务器三部分组成。

6.聚集函数分为三种类型,分别是分布型聚集函数、 代数型聚集函数 、 和 整体型聚集函数 。

7.粒度是数据仓库的重要概念,粒度越小,数据的细节程度越 高 ,可以回答查询的种类就越 多 ,但是查询效率将会很低;提高粒度将会提高查询效率,在数据仓库中通常采用多重粒度。

OLAP展现在用户面前的是一幅幅多维视图。 联机分析处理 维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。 维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。 维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)。 度量(Measure):多维数组的取值。(2000年1月,上海,笔记本电脑,0000)。 OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。 钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。

切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。

旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

二、名次解释:

1.数据集市:数据集市包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定的主题。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。

2.数据仓库的元数据:关于数据的数据.第一种:从操作型环境向数据仓库环境转换而建立的元数据。包含:所有源数据项名、属性及其在数据仓库中的转换.第二种:与终端用户的多维商业模型/前端工具之间建立映射的DSS元数据

3.粒度:对数据仓库中的数据的综合程度高低的一个度量,粒度越小,细节程度越高,综合程度越低,粒度大小影响数据仓库效率、能回答询问的种类,数据仓库是多粒度的,不同的粒度回答不同的查询

4.分割:指将数据分散到各自的物理单元中去以便能分别独立处理。

5.聚类分析:根据数据的特征找出数据间的相似性,将相似的数据分成一个类。又称无指导的学习,客观根据被处理对象的特征分类,将相同特征的对象归为一类。

6.数据仓库的主题:主题是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。逻辑意义:对应企业中某一宏观分析领域所涉及的分析对象。

7.分类:分类就是按照分析对象的属性分门别类,加以定义建立类组,分类的关键是按照什么样的标准和规律进行分类,所以分类需要先确定规则,再进行分类。 ★分类聚类区别:分类规则需要预先定义类别和训练样本,而聚类分析直接面向数据源数据,没有预先定义类别和训练样本,所有记录都根据彼此相似程序加以归类。

★ 预测:利用历史数据建立模型,再运用新数据作为输入值,获得未来变化趋势,或评估给定样本可能具有的属性范围。

8.序列模式分析:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。 9.广义索引:预先计算出来的,用来记录具有某些特殊性质数据的索引。比如最小值,top-k值等。特点:非常小, 大大提高查询效率。

最流行的数据仓库数据模型是多维数据模型。这种模型可以以星形模式、雪花模式、或事实星座模式形式存在。

10.星型模型:最常见的模型范例星形模式;其中数据仓库包括(1)一个大的、包含大批数据、不含冗余的中心表(事实表);(2)一组小的附属表(维表),每维一个。这种模式图很象星星爆发,维表围绕中心表显示在射线上。

11.OLAP中的维和维层次:观察数据的角度、程度不同分层。

12.雪片模型:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。结果,模式图形成类似于雪花的形状。雪花模式和星形模式的主要不同在于,雪花模式的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。

13.关联分析:关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。

三、问答题:

1. 操作型数据和分析型数据的主要区别是什么? 答:OLTP和OLAP的主要区别如下:

用户和系统的面向性,OLTP是面向顾客的,用于办事员、客户和信息技术人员到额事务和查询处理,而OLAP是面向市场的,用于知识工人的数据分析。 从数据内容上区别,OLTP是当前数据,,通常这种数据太琐碎,难以方面地用于决策,OLAP系统管理大量的历史数据,提供汇总和汇聚机制,并在不同的粒度级别上存储和管理信息。 这些特点使得历史数据容易用于见多识广的决策。

从数据库设计上,通常OLTP采用实体-联系模型和面向应用的数据库设计。而OLAP系统通常采用星型或者雪花模型和面向主题的数据库设计。

从视图上区别:OLTP系统主要关注一个企业或者部门内部的当前数据,而不涉及历史数据或不听组织的数据,相比之下,由于组织的变化,OLAP系统常常跨越数据库模式的多个版本,OLAP系统也出来来自不同组织的信息,由多个数据存储集成的信息,由于数据量巨大,OLAP数据页存放在多个存储介质上。 访问模式:OLTP系统的访问主要由短的原子事务组成,这种系统需要并行控制和恢复机制,然而对OLAP系统的访问大部分是只读操作,尽管许多查询是复杂的查询。

2. 你是如何理解数据仓库的数据是不可更新的,数据仓库的数据又是随时间不断变化的。

数据仓库中的数据不可更新是针对应用而言的,用户进行分析处理时是不进行数据更新操作的.数据仓库的数据是随时间的变化不断变化的,随时间变化不断增加新的数据内容,随时间变化不断删去旧的数据内容。数据仓库中包含有大量的跟时间有关的综合数据,经常按照时间段进行综合,随着时间的变化不断地进行重新综合。 3. 举例说明数据仓库有哪三类聚集函数。

(1)分布的:一个聚集函数是分布的,如果它能以如下分布方式进行计算:设数据被划分为n 个集合,函数在每一部分上的计算得到一个聚集值。如果将函数用于n 个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。例如,count()可以这样计算:首先将数据方分割成子方的集合,对每个子方计算count(),然后对这些子方得到的计数求和。因此,count()是分布聚集函数。同理,sum(), min()和max()是分布聚集函数。一个度量是分布的,如果它可以用分布聚集函数得到。

(2)代数的:一个聚集函数是代数的,如果它能够由一个具有M(其中,M 是一个整数界)个参数的代数函数计算,而每个参数都可以用一个分布聚集函数求得。例如,avg()可以由sum()/count()计算,其中sum()和count()是分布聚集函数。类似地,可以表明min_N(), max_N()和standard_deviation()是代数聚集函数。一个度量是代数的,如果它可以用代数聚集函数得到。

(3)整体的:一个聚集函数是整体的,如果描述它的子聚集所需的存储没有一个常数界。即,不存在一个具有M 个(其中,M 是常数)参数的代数函数进行这一计算。整体函数的常见例子包括median(),mode()(即,最常出现的项),和rank()。一个度量是整体的,如果它可以用整体聚集函数得到。大部分数据方应用需要有效地计算分布的和代数的度量。对于这些,存在许多有效的技术。相比之下,有效地计算整体度量是很困难的。然而,对于有些整体函数的近似计算,有效的技术是存在的。 4.为什么说naive Bayesian分类法是 na?ve的?

朴素贝叶斯分类假定一个属性值对给定类的影响独立于其它属性的值。该假定称作类条件独立。做此假定是为了简化所需计算,并在此意义下称为“朴素的”。

5.请简述数据仓库的体系结构。 a) 数据仓库的后台工具 b) 数据仓库服务器 c) OLAP服务器 d) 前台工具

6.举例说明多维分析操作(drill-down,roll-up)的含义是什么?

一个通常用于数据仓库多维数据方,(a) 展示AllElectronics 的汇总数据 (b) 展示数据方(a) 上的下钻与上卷结果。

数据仓库与数据挖掘 - DBMS题库考试大纲和答案

一、填空题:1.数据仓库的四个基本特征是指数据仓库中的数据是面向主题的、集成的、不可更新的和随时间不断变化的。2.OLAP的实现方式有以下两种:基于关系数据库系统的实现和基于多维数据组织的实现。3.数据从操作型环境到数据仓库过程中,通常需要进行的处理操作有数据抽取(extraction)、转换(transformation)、装载(Lo
推荐度:
点击下载文档文档为doc格式
6e2gx6jngh8xzko02xoc4ddq3430ci00y6f
领取福利

微信扫码领取福利

微信扫码分享