4.1 2008-11-29
4.2 有几种典型的立方体计算方法,
4.3 题 4.12 考虑下面的多特征立方体查询:按{item ,regio n,month} 的所有 子集分组,对每组找出 2004 年的最小货架寿命,并对价格低于 100 美元、货架 寿命在最小货架寿命的 1.25~1.5 倍之间的元组找出总销售额部分。
d) 画出该查询的多特征立方体图。 e) 用扩充的 SQL 表示该查询。
f) 这是一个分布式多特征立方体吗?为什么? 解答:
(a) 画出该查询的多特征立方体图。 R 0→R1(≥1.25*min(shelf)and≤1.5*min(shelf)) (b) 用扩充的 SQL 表示该查询。
select from where
item, region, month, Min(shelf), SUM(R1) Purchase year=2004
item, region, month: R1
R1.shelf≥1.25*MIN(Shelf) and (R1.Shelf≤1.5*MIN(Shelf) and
cube by such that R1.Price<100
(c) 这是一个分布式多特征立方体吗?为什么? 这不是一个分布多特征立方体,因为在“such that”语句中采用了“≤”条 件。
4.4 2008-11-29 4.5 2008-11-29
5.1 Aprio ri 算法使用子集支持度性质的先验知识。
5
.
■2 5
5.3 数据库有 5 个事物。设 min_sup=60%,min_conf=80 。
TID T100 T200 T300 T400 T500
购买的商品 {M, O, N, K, E, Y} {D, O, N, K, E, Y} {M, A, K, E} {M, U, C, K, Y} {C, O, O, K, I, E}
.2.
2 节介绍了由频
g) 分别使用 Aprio ri 和 FP 增长算法找出所有的频繁项集。比较两种挖
掘过程的效率。
h) 列举所有与下面的的元规则匹配的强关联规则(给出支持度 s 和置
信度 c),其中,X 是代表顾客的变量,item 是表示项的变量(如“A”、 “B ”等):
?x?transaction, buys(X, item 1)∧buys(X, item 2)?buys(X, item 3) [s, c] 解答:
繁(a) 分别使用 Aprio ri 和 FP 增长算法找出所有的频繁项集。比较两种挖掘过 项
程的效率。
集Aprio ri 算法:由于只有 5 次购买事件,所以绝对支持度是 5×min_sup=3。 产生关联规则的方法。提出了一个更
?M ? O ? ? N ? ? K ? E ? C1 ? ? Y
? D ? ? A ?U ?? ? C ?? ? I
3????3 ??2????5 ??4????3??1????1?? 1????2????1 ??
?
?????M ? O ? L1 ? ? K
? ? E Y
3????3 ??5????4 ??3
?
?MO 1 ????MK 3 ?????????ME 2 ???
?MK ? ??
MY 2 ? OK ???
???OK 3 ??
C2 ? ? ??L2 ? ? OE
OE 3 ? ? ??
??KE ? OY 2 ??
????KY ? KE 4 ??? KY 3 ??????
2 ??EY???
?
3??
???3 ?? 3???OKE 3??C3 ? ???KEY 2 ??????4 ??3
?
?????
L 3 ? ?OKE 3??
FP-growth:数据库的第一次扫描与 Aprio ri 算法相同,得到 L 1。再按支持度 计数的递减序排序,得到:L={(K:5), (E:4), (M:3), (O:3), (Y:3)}。扫描没个事 务,按以上 L 的排序,从根节点开始,得到 FP-树。
Root K:5
E:4
M:1
O:2
Y:1
Y:1
O:1
Y:1
M:2
题 5.3 图 FP 增长算法
项 条件模式基 {{K,E,M,O:1} ,{K,E,O:1},{K,M:1}} 条件 FP 树 产生的频繁模式 {K,Y:3} {K,O:3},{E,O:3} ,{K,E,O:3} Y O {{K,E,M:1} ,{K,E:2}} K:3 K:3 ,E:3 M E {{K,E:2} ,{K:1}} {{K:4}} K:3 K:4 {K,M:3} {K,E:4} 效率比较:Aprio ri 算法的计算过程必须对数据库作多次扫描,而 FP-增长算 法在构造过程中只需扫描一次数据库,再加上初始时为确定支持度递减排序 的一次扫描,共计只需两次扫描。由于在 Aprio ri 算法中的自身连接过程产 生候选项集,候选项集产生的计算代价非常高,而 FP-增长算法不需产生任 何候选项。
(b) 列举所有与下面的的元规则匹配的强关联规则(给出支持度 s 和置信度
c),其中,X 是代表顾客的变量,item 是表示项的变量(如“A”、“B ” 等):
?x?transaction, buys(X, “K”) ∧buys(X, “O”)?buys(X, “E ”) [s=0.6, c=1] ?x?transaction, buys(X, “E ”)∧buys(X, “E”) ?buys(X, “K”) [s=0.6, c=1] 或也可表示为
K,O→E[s(support)=0.6 或 60%,c(confid ence)=1 或 100%] E,O→K[s(support)=0.6 或 60%,c(confid ence)=1 或 100%] ■
5.4 (实现项目)使用你熟悉的程序设计语言(如 C++或 Java),实现本章介 绍的三种频繁项集挖掘算法:
5.5 2008-12-01 5.6 2009-01-09
第 6 章 分类和预测
6.1 简述决策树分类的主要步骤。
6.2 6.11 下表由雇员数据库的训练数据组成。数据已泛化。例如,age “31… 35”表示年龄在 31~35 之间。对于给定的行,count 表示 department,status,ag e 和 salary 在该行具有给定值的元组数。
department sales sales sales systems systems systems systems marketing marketing secretary secretary
status senior junior junior junior senio r junior senio r senior junior senior junior
age 31…35 26…30 31…35 21…25 31…35 26…30 41…45 36…40 31…35 46…50 26…30
salary 46K…50K 26K…30K 31K…35K 46K…50K 66K…70K 46K…50K 66K…70K 46K…50K 41K…45K 36K…40K 26K…30K
count 30 40 40 20 5 3 3 10 4 4 6
i) 如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)
的 count?
j) 使用修改过的算法,构造给定数据的决策树。
k) 给定一个数据元组,它的属性 department,age 和 salary 的值分别为
“systems”,“26…30”,和“46K…50K”。该元组 status 的朴素贝叶 斯分类是什么?
l) 为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。 m) 使用上面得到的多层前馈神经网络,给定训练实例(sales,senior ,
31…35,46K…50K),给出后向传播算法一次迭代后的权重值。指出