第 3 章 数据仓库与 OLAP 技术概述
每个区间的宽度是:(215-5)/3=70
bin1 5,10,11,13,15,35,50,55,72 bin1 bin1 (c) 聚类。
我们可以使用一种简单的聚类技术:用 2 个最大的间隙将数据分成 3 个箱。
91 204,215
bin1 5,10,11,13,15 bin1 35,50,55,72,91 bin1
3.11 使用习题 2.4 给出的 age 数据, (a) 画出一个等宽为 10 的等宽直方图; b )
(
解答:(a) 画出一个等宽为 10 的等宽直方图;
204,215 8 7 6 5 4 3 2 1 0
为如
下
每
种抽样
技
术
勾(画b例)子
15 25 35 45 55 65 元组:
T 1 13 T 10 22 T 19 35 T 2 15 T 11 25 T 20 35 T 3 16 T 12 25 T 21 35 T 4 16 T 13 25 T 22 36 T 5 19 T 14 25 T 23 40 T 6 20 T 15 30 T 24 45
:
S为R如SW下O每R种
,抽T 7 20 T 16 33 T 25 46 S样T 8 21 T 17 33 T 26 52 R技ST 9 22 T 18 35 T 27 70 术WSRSWOR 和 SRSWR:不是同次的随机抽样结果可以不同,但前者因无放回 R勾
所以不能有相同的元组。 画
第 3 章 数据仓库与 OLAP 技术概述
SRSWOR (n=5) SRSWR (n=5) T 4 T 6 T 10 T11 T 26 16 20 22 25 52 T 7 T 7 T 20 T 21 T 25 20 20 35 35 46 聚类抽样:设起始聚类共有 6 类,可抽其中的 m 类。
Sample1 T 1 T 2 T 3 T 4 T 5 13 15 16 16 19 Sample2 T6 T7 T8 T9 T 10 20 20 21 22 22 Sample3 T 11 T 12 T 13 T 14 T 15 25 25 25 25 30 Sample4 T 16 T 17 T 18 T 19 T 20 33 33 35 35 35 Sample5 T 21 T 22 T 23 T 24 T 25 35 36 40 45 46 Sample6 T 26 T 27 52 70
Sample2
Sample5 T21 T22 T23 T24 T25 35 36 40 45 46 T 19 35 middle age T 20 35 middle age T 21 35 middle age T 22 36 middle age T 23 40 middle age T 6 T 7 T 8 T 9 T 10
20 20 21 22 22 T1 13 young T 10 22 T2 15 young T 11 25 T3 16 young T 12 25 T4 16 young T 13 25 T5 19 young T 14 25 young young young young young T6 20 young T 15 30 middle age T 24 45 middle age T7 20 young T 16 33 middle age T 25 46 middle age T8 21 young T 17 33 middle age T 26 52 middle age T9 22 young T 18 35 middle age T 27 70
senior
T4 16 T 12 25 young young T 17 33 middle age T 25 46 middle age
第 3 章 数据仓库与 OLAP 技术概述 T 27 70 Senio r
4.3 假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。
(a)列举三种流行的数据仓库建模模式
答:三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。 (b)使用(a)列举的模式之一,画出上面的数据仓库的模式图
数据仓库的星形模型
(C)由基本方体[day,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作?沿课程(course)维从course_id“上卷”到department。 ? 沿时间(time)维从 day “上卷”到 year。 ? 取 time=2004,对维 time作“切片” 操作
? 沿病人(patient)维从 个别病人 “上卷”到 全部病人。
(d)为得到同样结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为
fee(day,month,year,doctor,hospital,patient,count,charge)。
答:SQL查询语句如下:
select doctor, SUM(charge) from fee
where year=2004 group by doctor
4
.area_id , major, status, university) , course(course_name, 4
department) , semester(semester, year) 和 instructor(dept, rank);2 个度量:count 和 avg_grade。 在最低概念层, 度量 avg_grade 存放学生的实际 课程成绩。假
在较高概念层, avg_grade 存放给定组合的平均成绩。 定 (a) 为该数据仓库画出雪花形模式图。 B(b) 由 基 本 方 体 [student, course, semester, instructor] 开 始 , 为 列 i
出 BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特
g
殊 的 OLAP 操作。 U
(niv
c 解答:)
第 3 章 数据仓库与 OLAP 技术概述
a) 为该数据仓库画出雪花形模式图。雪花模式如图所示。
b) 由 基 本 方 体 [student, course, semester, instructor] 开 始 , 为 列 出
BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊的 OLAP 操作。
这些特殊的联机分析处理(OLAP )操作有:
i. ii. iii. iv. c
)这个立方体将包含 54=625 个方体。
如果每维有 5 层(
沿课程(course)维从 course_id “上卷”到 department。 沿学生(student)维从 student_id “上卷”到 university 。 取 department= “CS ”和 university= “Big University ”,沿课程 (course)维和学生(student)维切片。
沿学生(student)维从 university 下钻到 student_name。
4.5 假定数据仓库包含4维:date, spectator, location, 和game,和两个度量:count和charge;其中,charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。
(a)画出该数据仓库的星形模式图。 答: 星形模式图如下:
b. 由基本方体[date,spectator,location,game]开始,为列出2004年学生观众在GM_Place的总付费,应执行的OLAP操作:
? 沿时间(date)维从date_id “上卷”到 year。 ? 沿时间(game)维从 game_id “上卷”到全部。
? 沿时间(location)维从location_id “上卷”到 location_name 。 ? 沿时间(spectator)维从spectator_id “上卷”到 status 。
? 以 status=\, location name=\ and year=2004 作转轴操作
4.6 数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相对做优、缺点。哪种模式更实用,给出你观点并陈述你的理由。
答:星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于,雪花模式的维表可能是规范化形式,以便减少了冗余,这种表易于维护并节省存储空间。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这样,系统的性能可能相对的受到影响。星型模式的优点是简单、这使得它更有效,但它需要更多的空间。因此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。在工业上,有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的维表,然后相同数据的当前用户折叠为星形。