好文档 - 专业文书写作范文服务资料分享网站

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

天下 分享 时间: 加入收藏 我要投稿 点赞

第二章作业

1. 画出数据仓库的结构图,说明各部分内容。P18

当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分数据量大。随着时间的推移,有数据仓库的时间控制机制转为历史数据,轻度综合数据是从当前基本数据中提取出来的,最高一层是高度综合数据层,这一

层的数据十分精炼,是一种准决策数据。

2. 说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用。这些数据为什么不是临时计算出来的。P18-19

数据仓库除了存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为了适应决策需求而增加的。在数据库中需要得到综合数据时,采用数据立方体的方法对详细数据进行综合。在数据仓库中并不采取临时计算的方式得到综合数据,而在用户提出需要综合数据之前,就预先将可能的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层在用户查询时,能迅速提供给用户。

3. 说明数据集市与数据仓库的区别和联系。P20

联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。 区别:(1)数据仓库是基于整个企业的数据模型建立的, 它面向企业范围内的主题。而数据集市是按照某一 特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联, 也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。 4.

1、规模是小的 2、特定的应用 3、面向部门

4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收

9、更详细的、预先存在的数据仓库的摘要子集

10、可升级到完整的数据仓库 5.

独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。 6.

原因:

仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。

访问工具:为用户访问数据仓库提供手段

7. 仓库管理包括数据建模;数据抽取、转换、装载;元数据;系统管理四部分。

8. 分析工具包含的内容:查询工具、多维数据分析工具、数据挖掘工具、客户/服务器。

9. 二层C/S结构

数据仓库服客户端 结构 三层C/S务器 数据仓库服OLAP服务器 客户端 务器 OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了数据仓库服务器的部分工作,即OLAP服务器从数据仓库服务器中抽取数据,在OLAP服务器中转换成客户端要求的多维视图,并进行多维数据分析,将分析结果传送给客户端,这种结构形式工作效率更高。

10.数据仓库的逻辑模型有哪些?

答:星型模型、雪花模型、星网模型、第三范式。

11.数据模型与数学模型有什么区别?

答:数据模型是数据特征的抽象,数据管理教学的形式框架,数据库系统中用以提高信息表示和操作手段的形势构架。数据模型包括数据库的数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。 数学模型是根据对研究对象所观察到的现象及实践经验,归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法。用以描述和研究客观现象的运动规律。

12、说明星型模型有什么好处。

答:星型模型使非规范化的,用增加存储空间的代价来提高数据查询速度,且数据的冗余保持在最少,并减少当数据改变时系统必须执行的动作。

13、说明数据仓库的数据模型为什么含时间维数据。

答:因为数据仓库不仅存储当前的最新数据,它还存储过去的所有数据,即随着时间的推移,所有的当前数据都会变成历史数据。有时间维数据不仅方便查询某一时间的数据,还有助于得到一时期的数据变化规律。

14、说明雪花模型与星网模型的不同点。

答:雪花模型使对星型模型的扩展,是对星型模型的维表进一步层次化,原来的维表被扩展为小的事实表。星网模型是多个相关的星型模型通过相同的维表连接起来形成的网状结构,即事实表之间有共享的维表。 15

第三范式不同于星型模型之处在于,把事实表和维表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,每个表按第三范式组织数据。它减少了为表中的键和不必要的属性。 16

星型模型优点:星型模型是非规范化的,以增加存储空间代价,提高了多维数据的查询速度。

星型模型缺点:当业务问题发生变化时,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有的维表的主键组成,因此这种维的变化带来数据变化将是非常复杂、非常耗时的。

第三范式优点:解决数据冗余,善于处理海量数据且需要处理大量的动态业务。

第三范式缺点:使用第三范式会形成比较复杂的关系表。 17

ETL过程的主要步骤概括为:(1)决定数据仓库中需要的所有的目标数据(2)决定所有的数据源,包括内部和外部的数据源(3)准备从源数据到目标数据的数据映射关系(4)建立全面的数据抽取规则(5)决定数据转换和清洗规则(6)为综合表制定计划(7)组织数据缓冲区域和检测工具(8)为所有的数据装载编写规程(9)维度表的抽取、转换和装载(10)事实表的抽取、转换和装载

18、说明数据抽取工作的内容。 数据抽取工作包括以下两点。 1.确认数据源

对数据源的确认不仅是对数据源的简单确认,还包括检查和确定数据源是否可以提供

数据仓库需要的数据。该项工作包括:

(1)列出对事实表的每一个数据项和事实; (2)列出每一个维度属性;

(3)对于每个目标数据项,找出源数据项;

(4)数据仓库中一个数据元素有多个来源,学则最好的来源; (5)确认一个目标字段的多个源字段,建立合并规则; (6)确认多个目标字段的一个源字段,建立分离规则; (7)确定默认值;

(8)检查缺失值的源数据。 2.数据抽取技术

数据抽取时要考虑两种情况: ’

(1)当前值。源系统中存储的数据都代表了当前时刻的值,当商业交易时,这些数据是

会发生变化的。

(2)周期性的状态。这类数据存储的是每次发生变化时的状态。例如,对于每一保险

索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑时间说明。

在建立数据仓库时,从某一特定时间开始的最初数据必须迁移到数据仓库中,以使数据仓库开始运转,这是初始装载。在初始装载之后,数据仓库必须保持更新,使变化的历史和状态可以在数据仓库中反映出来。

数据抽取完成两类数据的抽取:

(1)静态数据的抽取。一般在数据仓库的初始装载时抽取的是静态数据,它代表了某个时刻的快照。

(2)修正数据的抽取。它也称为追加的数据抽取。修正数据的抽取过程包括特定时刻抽取的数据值,分为立即型数据抽取(实时的数据抽取)和延缓型的数据抽取。

立即型数据抽取的典型方法是通过读取交易日志抽取所有相关交易记录。一般利用复制技术从交易日志中捕获交易日志中的变化数据,从日志传输到目标文件中,并检验数据变化的传输情况,确保复制的成功。

延缓型数据抽取的典型方法是,通过读取源记录中包括日期和时间的标记,抽取更新源记录的数据。如果没有时间标记的旧数据源,就要通过“快照对比技术”,即通过比较源数据的两个快照来抽取变化的数据。

19、说明数据转换的基本功能。 数据转换的基本功能:

(1)选择。从源系统中选择整个记录或者部分记录。

(2)分离/合并。对源系统中记录中的数据进行分离操作或者对很多源系统中选择的部分数据进行合并操作。

(3)转化。对字段的转化包括对源系统进行标准化和使字段对用户来说是可用和可理解的。

(4)汇总。数据仓库中需要保存很多汇总数据。这需要将最低粒度数据进行汇总。

(5)清晰化。对单个字段数据进行重新分配和化简的过程,使数据仓库更便利使用。

20、数据转换有哪些类型。

(1)格式修正。包括数据类型和单个字段长度的变化,例如在源系统中,产

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

第二章作业1.画出数据仓库的结构图,说明各部分内容。P18当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分数据量大。随着时间的推移,有数据仓库的时间控制机制转为历史数据,轻度综合数据是从当前基本数据中提取出来的,最高一层是高度综合数据层,这一层的数据十分精炼,是一种准决策数据。2.说明数据仓库结
推荐度:
点击下载文档文档为doc格式
5bba93b8yg5v45r563n3
领取福利

微信扫码领取福利

微信扫码分享