好文档 - 专业文书写作范文服务资料分享网站

数据仓库与数据挖掘技术复习

天下 分享 时间: 加入收藏 我要投稿 点赞

异度。

表2

测试项目 test-test-test-test-test-test-对 象 1 2 3 4 5 6 OBJ1 Y N P N N N OBJ2 OBJ3 … Y N … N Y … P N … N Y … P N … N N … 解:Jaccard系数公式可描述为

非对称二元相异度=取值不同的同位属性数/(单个元素的属性位数-同取0的位数)。

d(i,j)?r?s,其中r表示对象i取值为1,对象j取值为0;s表示对象i取0值,

q?r?s对象j取1值,q表示对象i和j同取1值。

3.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示 (a)计算两个对象之间的欧几里德的距离; (b)计算两个对象之间的曼哈坦距离; (c)计算两个对象间的明考斯基距离,q=3。

解:

(a)欧几里德距离:

d(i,j)?(20?22)2?(0?1)2?(36?42)2?(8?10)2?5;

(b)曼哈坦距离:

d(i,j)?20?22?0?1?36?42?8?10?11;

(c)明考斯基距离,q=3。

d(i,j)?320?22?0?1?36?42?8?103333?4.327。

五、分析题

1. 已知某事务数据库如表3所示,请采用FP-Growth算法绘制出FP-tree,要求画出绘制过程。

TID T1 T2 T3 T4 T5 T6 T7 表3:事务数据库 项目列表 I1,I2,I5 I2,I3 I2,I4 I1,I2,I4 I1,I4,I5 I2,I3 I3,I4 T8 T9 I1,I2,I3,I5 I1,I2,I3 解:

图:FP-tree

2.给定表4所示的训练数据,数据样本属性age,income,student和credit_rating描述。类标号属性buys_computer具有两个不同值(即{Yes,No})。给定一个没有类标号的数据样本X=(age=”<=30”,income=”medium”,student=”yes”,

credit_rating=”fair”),使用朴素贝叶斯分类预测这个数据样本的类标号。(10分)

表4 数据库训练数据元组 RID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 age <=30 <=30 31…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40 income high high high medium low low low medium low medium medium medium high medium student Credit_rating no fair no excellent no fair no fair yes fair yes excellent yes excellent no fair yes fair yes fair yes excellent no excellent yes fair no excellent Class:buys_computer No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No 解:

(1)每个类的先验概率

P(buys_computer=”Yes”)=9/14 P(buys_computer =”No”)=5/14

(2)为计算P(X/Ci),i=1,2,计算下面的条件概率: P(age<=”30”| buys_computer =”Yes”)=2/9 P(age<=”30”| buys_computer =”No”)=3/5 P(income=”medium”| buys_computer =”Yes”)=4/9 P(income=”medium”| buys_computer =”No”)=2/5 P(student=”yes”| buys_computer =”Yes”)=6/9

P(student=”yes”| buys_computer =”No”)=1/5 P(credit_rating=”fair”| buys_computer =”Yes”)=6/9 P(credit_rating=”fair”| buys_computer =”No”)=2/5 (3)总结:使用以上概率,可以得到:

P(X| buys_computer =”yes”)=(2/9)*(4/9)*(6/9)*(6/9)=0.044 P(X| buys_computer =”No”)=(3/5)*(2/5)*(1/5)*(2/5)=0.019

P(X| buys_computer =”yes”)P(buys_computer =”yes”)=0.044*(9/14)=0.028 P(X| buys_computer =”No”) P(buys_computer =”No”)=0.019*(5/14)=0.007 因此,对于样本X,朴素贝叶斯分类预测buys_computer =”Yes”。

数据仓库与数据挖掘技术复习

异度。表2测试项目test-test-test-test-test-test-对象123456OBJ1YNPNNNOBJ2OBJ3…YN…NY…PN…NY…PN…NN…解:Jaccard系数公式可描述为非对称二元相异度=取值不同的同位属性数/(单个元素的属性位数-同取0的
推荐度:
点击下载文档文档为doc格式
8m7cc2zk5i670et7c26i4qfr01784a016n9
领取福利

微信扫码领取福利

微信扫码分享