好文档 - 专业文书写作范文服务资料分享网站

知识发现与数据挖掘分析.

天下 分享 时间: 加入收藏 我要投稿 点赞

收稿日期:2010-03-30

作者简介:邱晓辉(1960—,男,本科,副研究馆员,已发表论文11篇。 1

知识发现的过程

知识发现(KDD 是从数据中发现有用知识的整个过程;数据挖掘(DM 是KDD 过程中的一个特定步骤,它用专门算法从数据中抽取模式。1996年,国外一些专家学者将KDD 过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。

KDD 过程是多个步骤相互连接、反复进行人机交互的过程。具体包括: (1学习某个应用领域,包括应用中的预先知识和目标。

(2建立目标数据集。选择一个数据集或在多数据集的子集上聚焦。

(3数据预处理。去除噪声或无关数据,去除空白数据域,考虑时间顺序和数据变化等。

(4数据转换。找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式。

(5选定数据挖掘功能,决定数据挖掘的目的。(6选定数据挖掘算法。用KDD 过程中的准则,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等作为搜索数据的模式。

(7数据挖掘。搜索或产生一个特定的感兴趣的模式或一个特定的数据集。 (8解释。解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式,以使用户明白[1]。

(9发现知识。把知识结合到运行系统中,用预先、可信的知识检查和解决所获知识中可能存在的问题。

2知识发现的核心———

数据挖掘所谓数据挖掘,就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。数据挖掘是KDD 最核心的部分。与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。

数据挖掘算法的好坏将直接影响到所发现知识的价值。目前大多数的研究都集中在数据挖掘算法

和应用上。需要说明的是,有的学者认为,数据开采和知识发现含义相同,表示成KDD/DM 。它是一个反复的过程,通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。现实中,人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为KDD ,而在工程领域则称为数据挖掘。3数据挖掘常用技术

目前数据挖掘应用方面有着种类繁多的商品工具和软件,大致可以归纳为下列主要类型:

(1传统主观导向系统。这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析,采用的方法有简单的走向分析也有基于高深数学基础的分形理论和谱分析。这种技术需要有经验模型为前提。

(2传统统计分析。这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。属于这类商品有美国的SAS 、SPSS 和Star -graphis 等。由于近年来更先进的DM 方法的出现和使用,使这些厂商在原有系统中综合一些DM 部件,以获得更完善的功能。以上2种技术主要基于传统的数理统计等数学基础上,一般早已开始用于数据分析方面。

(3神经元网络(NN 技术。神经元网络技术是属于软计算领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM (KDD 的应用方面,利用神经网络技术特别有效。经过训练后的NN 可以想像具有某种专门知识的“专家”,因此可以像人一样从经验中学习。NN 有多种结构,但最常用的是多层BP (BackproPagation 模型。它已广泛地应用于各种DM (KDD 工具和软件中。其缺点是用它来分析复杂的系统如金融市场,NN 就需要复杂的结构为数众多

知识发现与数据挖掘分析 邱晓辉 (济宁市图书馆 山东272037 摘

要:介绍了知识发现过程和数据挖掘的常用技术,并对数据挖掘技术应用进行了探讨。

关键词:知识发现

数据挖掘数字图书馆中图分类号:TP311.13文献标识码:A doi :10.3969/j.issn.1005-8095.2011.01.034 99

神经元以及连接数,从而使现有的事例数(不同的纪录数无法满足训练的需要。另外由受训后的NN所代表的预测模型的非透明性也是其缺点,尽管如此,它还是广泛而成功地为各种金融应用分析系统所采用。

(4决策树。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解。这种方法一般限于分类任务[2]。

(5进化式程序设计。这种方法的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的假设,并形成以内部编程语言表示的程序。内部程序(假设的产生过程是进化式的,类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序。如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式、预测表等。由于采用通用编程语言,这种方法在原则上能保证任何一种依赖关系和算法都能用这种语言来描述。

(6基于事例的推理方法(CBR。这种方法的思路非常简单,当预测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解决方案。这种方法能用于很多问题求解,并获得好的结果。其缺点是系统不能生成汇总过去经验的模块或规则。采用这种方法的系统有美国的Pat-ternRecognitionWorkbench和法国的KATEtools。

(7遗传算法(GA。严格说来,数模转换(DA不是GA应用的主要领域,它是解决各种组合或优化问题的强有力的手段,但它在现代标准仪器表中也用来完成DA任务。这种方法的不足之处是:只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。在系统中包含遗传算法的有美国的GeneHunter。

(8非线性回归方法。这种方法的基础是,在预定的函数的基础上,寻找目标度量对其它多种变量的依赖关系。这种方法在金融市场或医疗诊断的应用场合,比较好的提供可信赖的结果。

以上所列DM技术不可能是详尽的囊括,因为多年来数理统计分析以及AI与KE的研究提供了种类繁多特点各异的手段,DM开发人员完全可以根据不同任务加

以选择使用。另外近年来在软计算和不确定信息处理方法的研究,促使DM(KDD技术向更深层次发展。

需要说明的是,DM中的数据是指数据库中表格形式中的记录和条目,这种数据称作结构型数据。在一个企业中,还有一类像文本和网页形式的数据,称作非结构型数据。它来自不同的信息源,如文本图像影视和音响等。随着Internet的扩展和大量在线文本的出现,将标志这巨大的非结构型数据海洋中蕴藏着极其丰富的有用信息即知识。开发一种工具能协助用户从非结构数据中抽取关键概念以及快速而有效地检索到关心的信息,这将是一个非常引人入胜的研究领域。目前,基于图书索引检索以及超文本技术的各类搜索引擎,能协助用户寻找所需信息,但要深入发掘这类数据中的有用信息,尚需要更高层次的技术支持,人工智能领域有关知识表示及获取的方法(如语义网络概念映射等和自然语言理解的研究成果,可望被采用。还可能要涉及到语言学心理学等领域。

4数据挖掘技术的应用

Web挖掘是一个前景非常看好的工具。我们知道,传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠性验证。用户能够快速方便地从Web中检索出相关的可靠的信息是一个系统的最基本的要求。Web挖掘不仅能够从WWW的大量的数据中发现信息,而且它监视和预测用户的访问习惯。这样给设计人员在设计Web站点时有更多的可靠的信息。Web挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。Web挖掘技术为图书馆员进行信息服务提供了先进的工具。有了这个工具,图书馆员能够按照各个用户的要求或习惯,为用户组织更多、更好的高质量信息。

(1网站的数据挖掘。随着Web技术的发展,各类电子商务网站风起云涌。建立一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需要点击几下鼠标即可。网站的内容和层次、用词、标题、奖

知识发现与数据挖掘分析.

收稿日期:2010-03-30作者简介:邱晓辉(1960—,男,本科,副研究馆员,已发表论文11篇。1知识发现的过程知识发现(KDD是从数据中发现有用知识的整个过程;数据挖掘(DM是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。1996年,国外一些专家学者将KDD过程定义为:从数据中鉴别出有效模式的非平凡过
推荐度:
点击下载文档文档为doc格式
6emfu1jorb58u602x74s2b61z97l7x017gl
领取福利

微信扫码领取福利

微信扫码分享