好文档 - 专业文书写作范文服务资料分享网站

《数据仓库与数据挖掘技术》-贝叶斯与数据挖掘概念

天下 分享 时间: 加入收藏 我要投稿 点赞

《数据仓库与数据挖掘技术》

实验报告

贝叶斯与数据挖掘概念

计算机与数据科学学院 《#################》实验报告

一、 实验目的

1.掌握数据挖掘十大经典算法-贝叶斯。 2.数据挖掘的概念介绍。

二、 实验环境

计算机window7

三、 实验内容与实验过程及分析 (写出详细的实验步骤,并分析实验结果)

实验内容:

1. 贝叶斯算法的原理以及公式推导

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素是因为其思想基础的简单性:就文本分类而言,它认为词袋中的两两词之间的关系是相互独立的,即一个对象 的特征向量中每个维度都是相互独立的。例如,黄色是苹果和梨共有的属性,但苹果 和梨是相互独立的。这是朴素贝叶斯理论的思想基础。现在我们将它扩展到多维的情况:

朴素贝叶斯分类的正式定义如下:

1.设 x={a1,a2,…,am}为一个待分类项,而每个 a 为 x 的一个特征属性。 2.有类别集合 C={y1,y2,…,yn}。

3.计算 P( y1|x) ,P( y2|x),…, P( yn|x)。

4.如果 P( yk|x) =max{P( y1|x),P( y2|x),…, P( yn|x)},则 x∈yk。 那么现在的关键就是如何计算第 3 步中的各个条件概率。我们可以这么做: (1) 找到一个已知分类的待分类项集合,也就是训练集。 (2) 统计得到在各类别下各个特征属性的条件概率估计。即:

P(a1|y1) , P(a2|y1),…, P(am|y1); P(a1|y2) , P(a2|y2),…, P(am|y2); P(am|yn) , P(am|yn),…, P(am|yn)。

(3) 如果各个特征属性是条件独立的(或者我们假设它们之间是相互独立的),则根 据贝叶斯定理有如下推导:

因为分母对于所有类别为常数,只要将分子最大化皆可。又因为各特征属性是条 件独立的,所以有:

根据上述分析,朴素贝叶斯分类的流程可以表示如下: 第一阶段:训练数据生成训练样本集:TF-IDF

计算机与数据科学学院 《#################》实验报告

第二阶段:对每个类别计算 P(yi)

第三阶段:对每个特征属性计算所有划分的条件概率 第四阶段:对每个类别计算 P( x | yi ) P( yi ) 第四阶段:以 P( x | yi ) P( yi ) 的最大项作为 x 的所属类别

2. 贝叶斯计算:

1981年3月30日,一个大学退学学生Hinckley企图对里根总统行刺。他打伤了里根、里

根的新闻秘书以及两个保安人员。在1982年审判他时,Hinckley以精神病为理由作为其无罪的辩护。在18个医师中作证的医师是Daniel R.Weinberger,他告诉法院当给被诊断为精神分裂症的人以CAT扫描(计算机辅助层析扫描)时,扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描时,只有2%的扫描显示脑萎缩。Hinckley的辩护律师试图拿Hinckley的CAT扫描结果为证据,争辩说因为Hinckley的扫描展示了脑萎缩,他极有可能患有精神病,从而免于受到法院的起诉。让我们尝试用贝叶斯方法对Hinckley是否患有精神病作出判断。一般地,在美国精神分裂症的发病率大约为1.5%。

计算Hinckley患有精神病和是正常人的概率

设事件B为一个人CAT扫描显示脑萎缩,事件A为做扫描的人患有精神病,则A为做扫描的人没有患精神病。

根据上文可知,P(A)=0.015,P(B|A)=0.3,P(B|A)=0.02 所以P(A)=1- P(A)=1-0.015=0.985 由贝叶斯公式可得P(A|B)=

==0.186

所以即使扫描显示了脑萎缩,他只有18.6%的概率患有将精神病,所以不能作为他无罪

的证据。

3. 数据挖掘的流程

数据集选取 数据预处理 (1)数据清理 (2)数据集成 (3)数据归约

(4)数据变换和数据离散化 数据分析算法 分析总结改进

4.结合WEKA GUI ,完成贝叶斯算法的使用过程

数据集:采用iris.arff 描述该数据集

《数据仓库与数据挖掘技术》-贝叶斯与数据挖掘概念

《数据仓库与数据挖掘技术》实验报告贝叶斯与数据挖掘概念计算机与数据科学学院《#################》实验报告一、
推荐度:
点击下载文档文档为doc格式
3h4qz8fepu6ksx797jw59jajr88ky400wsr
领取福利

微信扫码领取福利

微信扫码分享