? ?? 167 .4986 , s 2 ? sA ??12.9421
A
v=35
v ? σ '
v ? A σ A 35 ? 29.963 ?5.037
? 0.3966 ? 0.400 ? ?
12.7002 12.7002
v ? A 35 ? 29.963 ?5.037
? 0.3892 ? 0.39 或 v ? ? ?s '
sA 12.9421 12.9421 ?
(c) 使用小数定标规范化变换 age 值 35。
?
v
35 由于最大的绝对值为 70,所以 j=2 。 v' ??? 0.35 ? 10 j 10 2
(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。
略。
2.6 2.14 假设 12 个销售价格记录组已经排序如下:5,10,11,13,15,35, 50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。
(a) 等频(等深)划分。 (b) 等宽划分。 (c) 聚类。 解答:
(a) 等频(等深)划分。
bin1 bin1
(b) 等宽划分。 bin1 72,91,204,215
每个区间的宽度是:(215-5)/3=70
5,10,11,13 15,35,50,55 bin1 5,10,11,13,15,35,50,55,72 bin1 bin1 (c) 聚类。
我们可以使用一种简单的聚类技术:用 2 个最大的间隙将数据分成 3 个箱。
91 204,215 bin1 5,10,11,13,15 bin1 35,50,55,72,91 bin1
204,215
2.7 2.15 使用习题 2.4 给出的 age 数据, (a) 画出一个等宽为 10 的等宽直方图;
(b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。
解答:(a) 画出一个等宽为 10 的等宽直方图;
8
7 6 5 4
3 2 1 0
15 25 35 45 55 65
(b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。
元组:
T 1 13 T 10 22 T 19 35 T 2 15 T 11 25 T 20 35 T 3 16 T 12 25 T 21 35 T 4 16 T 13 25 T 22 36 T 5 19 T 14 25 T 23 40 T 6 20 T 15 30 T 24 45 T 7 20 T 16 33 T 25 46 T 8 21 T 17 33 T 26 52 T 9 22 T 18 35 T 27 70 SRSWOR 和 SRSWR:不是同次的随机抽样结果可以不同,但前者因无放回 所以不能有相同的元组。
SRSWOR (n=5) SRSWR (n=5) T 4 T 6 T 10 T11 T 26
16 20 22 25 52 T 7 T 7 T 20 T 21 T 25 20 20 35 35 46 聚类抽样:设起始聚类共有 6 类,可抽其中的 m 类。 Sample1 T 1 T 2 T 3 T 4 T 5 13 15 16 16 19 Sample2 T6 T7 T8 T9 T 10 20 20 21 22 22 Sample3 T 11 T 12 T 13 T 14 T 15 25 25 25 25 30 Sample4 T 16 T 17 T 18 T 19 T 20 33 33 35 35 35 Sample5 T 21 T 22 T 23 T 24 T 25 35 36 40 45 46 Sample6 T 26 T 27 52 70
Sample2
Sample5 T21 T22 T23 T24 T25 35 36 40 45 46 T 6 T 7 T 8 T 9 T 10
20 20 21 22 22 分层抽样:按照年龄分层抽样时,不同的随机试验结果不同。
T1 13 young T 10 22 T2 15 young T 11 25 T3 16 young T 12 25 T4 16 young T 13 25 T5 19 young T 14 25 young young young young young T 19 35 middle age T 20 35 middle age T 21 35 middle age T 22 36 middle age T 23 40 middle age T6 20 young T 15 30 middle age T 24 45 middle age T7 20 young T 16 33 middle age T 25 46 middle age T8 21 young T 17 33 middle age T 26 52 middle age T9 22 young T 18 35 middle age T 27 70
senior
T4 16 T 12 25 young young T 17 33 middle age T 25 46 middle age T 27 70
Senio r
2.8 55555555555555555555555555
第 3 章 数据仓库与 OLAP 技术概述
3.1 3.4 假定 BigUniversity 的数据仓库包含如下 4 个维:student(student_name, area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 instructor(dept, rank);2 个度量:count 和 avg_grade。 在最低概念层, 度量 avg_grade 存放学生的实际 课程成绩。在较高概念层, avg_grade 存放给定组合的平均成绩。
(a) 为该数据仓库画出雪花形模式图。
(b) 由 基 本 方 体 [student, course, semester, instructor] 开 始 , 为 列 出 BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊 的 OLAP 操作。
(c) 如果每维有 5 层(包括 all),如“student a) 为该数据仓库画出雪花形模式图。雪花模式如图所示。 b) 由 基 本 方 体 [student, course, semester, instructor] 开 始 , 为 列 出 BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊的 OLAP 操作。 这些特殊的联机分析处理(OLAP )操作有: i. ii. iii. iv. 沿课程(course)维从 course_id “上卷”到 department。 沿学生(student)维从 student_id “上卷”到 university 。 取 department= “CS ”和 university= “Big University ”,沿课程 (course)维和学生(student)维切片。 沿学生(student)维从 university 下钻到 student_name。 c) 如果每维有 5 层(包括 all),如“student 这个立方体将包含 54=625 个方体。 course 维表 course_id course_name univ 事实表 student_id course_id semester_id instructor_id student 维表 student_id student name area_id major status university department semester 维表 semester_id semester year count avg_grade area 维表 area_id city instructor 维表 Instructor_id dept province country rank 题 3.4 图 题 3.4 中数据仓库的雪花形模式 第四章 4.1 2008-11-29 4.2 有几种典型的立方体计算方法, 4.3 题 4.12 考虑下面的多特征立方体查询:按{item ,regio n,month} 的所有 子集分组,对每组找出 2004 年的最小货架寿命,并对价格低于 100 美元、货架 寿命在最小货架寿命的 1.25~1.5 倍之间的元组找出总销售额部分。 d) 画出该查询的多特征立方体图。 e) 用扩充的 SQL 表示该查询。 f) 这是一个分布式多特征立方体吗?为什么? 解答: (a) 画出该查询的多特征立方体图。 R 0→R1(≥1.25*min(shelf)and≤1.5*min(shelf)) (b) 用扩充的 SQL 表示该查询。 select item, region, month, Min(shelf), SUM(R1) from e where 04 cube by item, year=20Purchas region, month: R1 such that R1.shelf≥1.25*MIN(Shelf) and (R1.Shelf≤1.5*MIN(Shelf) and R1.Price<100