好文档 - 专业文书写作范文服务资料分享网站

数据仓库与数据挖掘 - DBMS题库考试大纲和答案

天下 分享 时间: 加入收藏 我要投稿 点赞

7.举例说明数据仓库有哪三类聚集函数(同3) 8.试述常用的数值属性离散化方法 等宽:每个bin的距离间隔一样。 等深:每个bin所具有的元组的数目相等。 等质:bin的大小决定后,每一个bin中的元组是统一分布的

9.向数据仓库追加数据时,捕捉数据变化常用的途径有哪些?

数据追加:数据仓库的数据初装完成后, 再向数据仓输入数据的过程 追加内容:上次数据追加后在OLTP数据库中变化了的数据 变化数据的捕捉途径:

1)时标方法 (如果数据含有时标,对新插入或更新的数据记录,加更新时的时标) 2)DELTA文件 (由应用生成DELTA文件,记录应用所改变的所有内容)

3)前后映象文件(抽取数据到数据仓库之后, 本次将抽取数据之前,对数据库分别作一次快照,比较两幅快照的不同,确定追加的数据)

4)日志文件(利用DB的固有机制,数据只限于日志文件,不用扫描整个数据库)

10.试述数据仓库的设计中提高数据仓库性能的方法和技术? 由于数据仓库的数据极少甚至不再更新,可采取如下技术 来提高数据仓库的性能: 1)合并表

2)建立数据序列 3)引入冗余

4)进一步细分数据 5)生成导出数据 6)建立广义索引 7)粒度划分 8)分割

11.简要说明事务处理环境不适宜DSS应用的原因? 操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。 分析型处理则用于管理人员的决策分析。例如:DSS(决策支持系统), EIS(主管信息系统)和多维分析等,经常要访问大量的历史数据。 事务处理环境不适宜DSS应用的原因:

(1) 事务处理和分析处理的性能特性不同(在事务处理环境中,数据的存取操作频率高而每次操作处理的时间短, 在分析处理环境中,DSS应用需要运行时间长,消耗系统资源多.) (2) 数据集成问题(DSS需要的数据:全面、集成、相关数据收集得越完整 结果就越可靠) (3) 数据动态集成问题(事务处理的数据:与本部门业务有关当前数据,对整个企业范围内的集成应用考虑少,当前企业内数据的状况[a.分散而非集成——这是事务处理环境所固有的 b.事务处理应用产生的细节数据不能成为统一的整体 c.DSS应用必须在应用程序中进行数据集成)

(4) 历史数据问题(事务处理系统中的数据:当前数据及短期数据;决策分析的数据:必须要历史数据)

(5) 数据的综合问题(DSS系统的分析对象:一般不对细节数据进行分析,分析前需要对细节数据进行不同程度的综合.

事务处理系统的对象:只关心细节数据,不具备综合能力,综合是一种数据冗余,需要加以限制)

12.数据仓库的设计方法与操作型环境中系统设计采用的系统生命周期法有什么不同? SDLC-操作型环境中,业务过程和规则比较规范和固定。系统设计人员能够清晰地了解应用的需求和数据流程,系统的设计一般采取系统生命周期法 (Systems Development Life Cycle) CLDS-分析型环境中,DSS分析对决策分析的需求不能预先作出规范说明,只能给设计人员一个抽象模糊的描述。设计人员必须在与用户不断的交流中,将系统需求逐步明确与完善。为了强调这种开发的不确定型,将此设计方法定名为CLDS方法(与SDLC相反)

13.举例说明多维分析操作(切片、切块、旋转)的含义是什么?

切片和切块:切片操作在给定的数据方的一个维上进行选择,导致一个子方。图2.10 图示了一个对维time 的切片操作,它对中心数据方使用条件time = ”Q1” 选择销售数据。切块操作通过对两个或多个维执行选择,定义子方。图2.10 图示了一个切块操作,它涉及三个维,根据如下条件对中心表切块:(location = ”Montreal” or ’Vancouver”) and (time = ”Q1” or ”Q2”) and (item = ”homeentertainment” or ”computer”)。 转轴:转轴(又称旋转)是一种目视操作,它转动数据的视角,提供数据的替代表示。图2.10 给出一个转轴操作,这里item 和location 在一个2-D 切片上转动。其它例子包括转动3-D 数据方 ,或将一个3-D 立方转换成2-D 平面序列。

14.数据挖掘的步骤是什么?

数据挖掘作为KDD(知识发现)的一个步骤。

KDD 是一个以知识使用者为中心,人机交互的探索过程,包括了在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤。

15.简要说明数据仓库环境中元数据的内容。

元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。对 于给定数据仓库的数据名和定义,创建元数据。其它元数据包括对提取数据添加的时间标签、提取数据的源、被数据清理或集成处理添加的字段等。

16.企业的数据库体系化环境的四个层次是什么?它们之间的关系是什么?

层次的体系化环境四个层次分别为:操作型环境、全局级数据仓库、部门级的局部仓库、个人级数据仓库。

操作型环境存放:细节的操作型数据,服务于高性能事务处理 全局级数据仓库:存放细节数据、导出数据 部门级局部仓库:一般存放导出数据

个人级数据仓库:数据一般是暂时存放,用于启发式分析。

17.简要说明数据仓库设计的步骤。

数据仓库的设计方法:CLDS方法(与SDLC相反) 参考12题 18.简要说明异常点挖掘有哪些方法?

19.什么是元数据?简要说明数据仓库环境中元数据的内容。(参考15)

20.你是如何理解数据仓库的数据是不可更新的,数据仓库的数据又是随时间不断变化的。 答:数据仓库存放的数据都是历史数据,基本操作都是查询操作,一般情况下并不进行修改操作,数据一旦超过存储期限是可以删除的。数据仓库随时间变化不断增加新的数据内容,并且存在大量和时间有关的综合数据,数据仓库数据的码键都包含时间项,以标明数据的历史时期。

21.什么是数据驱动的系统设计方法?(参考12) 22.试简述数据仓库的体系结构(参考4) 23.简述采用决策树方法进行分类的过程。 1)基本算法 (贪婪算法)

由上到下,分而治之,递归构造树

开始时,所有的训练样本都在树根

属性都是可分类的属性(如果是连续值的话,首先要对其进行离散化) 根据选择的属性,对样本递归地进行划分

在启发式或统计度量(如 information gain)的基础上选择测试属性 2)停止划分的条件

某个节点上的所有样本都属于相同的类

所有的属性都用到了– 这时采用多数有效的方法对叶子节点进行分类 没有样本了

24.请简述采用神经元网络进行分类的过程。

在开始训练之前,用户必须说明输入层的单元数、隐藏层数(如果多于一层)、每一隐藏层的单元数和输出层的单元数,以确定网络拓扑。 定义网络拓扑

向传播算法学习过程:

迭代地处理一组训练样本,将每个样本的网络预测与实际的类标号比较。 每次迭代后,修改权值,使得网络预测和实际类之间的均方差最小

25.举一个实例说明如何确定数据仓库的主题,如何确定主题所应包含的数据内容? 数据仓库中的数据是面向主题进行组织的

主题是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象 逻辑意义:对应企业中某一宏观分析领域所涉及的分析对象

面向主题的数据组织步骤

1、 抽取主题: 按照分析的要求来确定 2、 确定每个主题所应包含的数据内容 例如:商场商品采购

1)在OLTP数据库中, “订单”“订单细则” “供应商” 三个数据库模式清晰完整地描述了一笔采购业务所涉及的数据内容, 这是面向应用来进行数据组织的方式;

2)在数据仓库中,主要是进行数据分析处理, 商品采购时的分析活动主要是要了解各供应商的情况, “供应商”是采购分析时的分析对象。所以不需要组织象“订单”和“订单细则”这样的数据库模式,因为它们包含的是纯操作型的数据;但是仅仅只用OLTP数据库的“供应商”中的数据又是不够的, 因而要重新组织“供应商”这么一个主题。 26.举例说明数据仓库的多粒度。

粒度对数据仓库中的数据的综合程度高低的一个度量 粒度越小,细节程度越高,综合程度越低,粒度大小影响数据仓库效率、能回答询问的种类,数据仓库是多粒度的,不同的粒度回答不同的查询

实际:两种形式的粒度都存在 例:“商品”主题表的划分:

销售综合表和采购综合表是属于第一种形式的粒度(时间段上信息的综合) 库存信息的不同表:则属于第二种形式粒度划分(不同时点上的粒度) 27.举例说明什么是“星星模式”。(名词解10) 28.常用的聚类方法有哪些? (1)划分方法 (2)层次方法

(3)基于密度的方法 (4)基于网格的方法

(5)基于模型的方法

四、计算题:

1.现有如下事务数据库,设min sup = 60%,min conf = 80%. 请用Apriori算法找出所有的频繁项目集。

2.请根据能找出的cluster的形状、预先指定的参数、所存在的缺陷这三个方面对如下聚类方法进行评价: 1.K-Means

K-Mean 分群法是一种分割式分群方法,其主要目标是要在大量高纬的资料点中找出 具有代表性的资料点;这些资料点可以称为群中心,代表点;然后再根据这些 群中心,进行后续的处理,这些处理可以包含

1 )资料压缩:以少数的资料点来代表大量的资料,达到资料压缩的功能;

数据仓库与数据挖掘 - DBMS题库考试大纲和答案

7.举例说明数据仓库有哪三类聚集函数(同3)8.试述常用的数值属性离散化方法等宽:每个bin的距离间隔一样。等深:每个bin所具有的元组的数目相等。等质:bin的大小决定后,每一个bin中的元组是统一分布的9.向数据仓库追加数据时,捕捉数据变化常用的途径有哪些?数据追加:数据仓库的数据初装完成后,再向数据仓输入数据的过程追加内容:上次数据
推荐度:
点击下载文档文档为doc格式
6e2gx6jngh8xzko02xoc4ddq3430ci00y6f
领取福利

微信扫码领取福利

微信扫码分享