异度。
表2
测试项目 test-test-test-test-test-test-对 象 1 2 3 4 5 6 OBJ1 Y N P N N N OBJ2 OBJ3 … Y N … N Y … P N … N Y … P N … N N … 解:Jaccard系数公式可描述为
非对称二元相异度=取值不同的同位属性数/(单个元素的属性位数-同取0的位数)。
d(i,j)?r?s,其中r表示对象i取值为1,对象j取值为0;s表示对象i取0值,
q?r?s对象j取1值,q表示对象i和j同取1值。
3.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示 (a)计算两个对象之间的欧几里德的距离; (b)计算两个对象之间的曼哈坦距离; (c)计算两个对象间的明考斯基距离,q=3。
解:
(a)欧几里德距离:
d(i,j)?(20?22)2?(0?1)2?(36?42)2?(8?10)2?5;
(b)曼哈坦距离:
d(i,j)?20?22?0?1?36?42?8?10?11;
(c)明考斯基距离,q=3。
d(i,j)?320?22?0?1?36?42?8?103333?4.327。
五、分析题
1. 已知某事务数据库如表3所示,请采用FP-Growth算法绘制出FP-tree,要求画出绘制过程。
TID T1 T2 T3 T4 T5 T6 T7 表3:事务数据库 项目列表 I1,I2,I5 I2,I3 I2,I4 I1,I2,I4 I1,I4,I5 I2,I3 I3,I4 T8 T9 I1,I2,I3,I5 I1,I2,I3 解:
图:FP-tree
2.给定表4所示的训练数据,数据样本属性age,income,student和credit_rating描述。类标号属性buys_computer具有两个不同值(即{Yes,No})。给定一个没有类标号的数据样本X=(age=”<=30”,income=”medium”,student=”yes”,
credit_rating=”fair”),使用朴素贝叶斯分类预测这个数据样本的类标号。(10分)
表4 数据库训练数据元组 RID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 age <=30 <=30 31…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40 income high high high medium low low low medium low medium medium medium high medium student Credit_rating no fair no excellent no fair no fair yes fair yes excellent yes excellent no fair yes fair yes fair yes excellent no excellent yes fair no excellent Class:buys_computer No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No 解:
(1)每个类的先验概率
P(buys_computer=”Yes”)=9/14 P(buys_computer =”No”)=5/14
(2)为计算P(X/Ci),i=1,2,计算下面的条件概率: P(age<=”30”| buys_computer =”Yes”)=2/9 P(age<=”30”| buys_computer =”No”)=3/5 P(income=”medium”| buys_computer =”Yes”)=4/9 P(income=”medium”| buys_computer =”No”)=2/5 P(student=”yes”| buys_computer =”Yes”)=6/9
P(student=”yes”| buys_computer =”No”)=1/5 P(credit_rating=”fair”| buys_computer =”Yes”)=6/9 P(credit_rating=”fair”| buys_computer =”No”)=2/5 (3)总结:使用以上概率,可以得到:
P(X| buys_computer =”yes”)=(2/9)*(4/9)*(6/9)*(6/9)=0.044 P(X| buys_computer =”No”)=(3/5)*(2/5)*(1/5)*(2/5)=0.019
P(X| buys_computer =”yes”)P(buys_computer =”yes”)=0.044*(9/14)=0.028 P(X| buys_computer =”No”) P(buys_computer =”No”)=0.019*(5/14)=0.007 因此,对于样本X,朴素贝叶斯分类预测buys_computer =”Yes”。