数据挖掘_概念与技术(第三版)部分习题答案

由天下分享时间：2024/11/13 19:27:05 加入收藏我要投稿点赞

.. . . ..

4.4 假定 BigUniversity 的数据仓库包含如下 4 个维：student(student_name,

area_id , major, status, university) ， course(course_name, department) ， semester(semester, year) 和 instructor(dept, rank)；2 个度量：count 和 avg_grade。在最低概念层，度量 avg_grade 存放学生的实际课程成绩。在较高概念层， avg_grade 存放给定组合的平均成绩。

(a) 为该数据仓库画出雪花形模式图。

(b) 由基本方体 [student, course, semester, instructor] 开始，

为列出 BigUniversity 每个学生的 CS 课程的平均成绩，应当使用哪些特殊的 OLAP 操作。 (c)

如

果

每

维

有

层（

包括 all

），

如

“student

a) 为该数据仓库画出雪花形模式图。雪花模式如图所示。

b) 由基本方体 [student, course, semester, instructor] 开始，为

列出 BigUniversity 每个学生的 CS 课程的平均成绩，应当使用哪些特殊的 OLAP 操作。

这些特殊的联机分析处理（OLAP ）操作有：

沿课程（course）维从 course_id “上卷”到 department。

. 学习参考 .

.. . . ..

ii. iii.

沿学生（student）维从 student_id “上卷”到 university 。取 department= “CS ”和 university= “Big University ”，沿课程（course）维和学生（student）维切片。

iv. c)

沿学生（student）维从 university 下钻到 student_name。

如果每维有 5

层（包括 all），如

“student

. 学习参

考 .

.. . . ..

4.5 假定数据仓库包含4维：date, spectator, location, 和game，和两个度量：count和charge;其中，charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人，每类观众有不同的收费标准。

(a)画出该数据仓库的星形模式图。答：星形模式图如下：

b. 由基本方体[date，spectator，location，game]开始，为列出2004年学生观众在GM_Place的总付费，应执行的OLAP操作：

? 沿时间（date）维从date_id “上卷”到 year。 ? 沿时间（game）维从 game_id “上卷”到全部。

? 沿时间（location）维从location_id “上卷”到 location_name 。 ? 沿时间（spectator）维从spectator_id “上卷”到 status 。

? 以 status=\, location name=\ and year=2004 作转轴操作

4.6 数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点，然后分析它们的相对做优、缺点。哪种模式更实用，给出你观点并陈述你的理由。

答：星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于，雪花模式的维表可能是规范化形式，以便减少了冗余，这种表易于维护并节省存储空间。然而，与巨大的事实表相比，这种空间的节省可以忽略。此外，由于执行查询需要更多的连接操作，雪花形结构可能降低浏览的性能，这样，系统的性能可能相对的受到影响。星型模式的优点是简单、这使得它更有效，但它需要更多的空间。因此，只要空间的要求不是太大时，星形模式比雪花模式更好，因为通常效率比空间具有更高的优先级。在工业上，有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度，另一种选择是保持雪花模式的维表，然后相同数据的当前用户折叠为星形。

. 学习参考 .

.. . . ..

4.9

. 学习参考 .

.. . . ..

4.11

. 学习参考 .