数据挖掘技术研究
摘要:当今世界,数据每天都在迅猛增长。人们保存如此大量的数据,一是因为计算机技术的发展使之变得方便可行。二是因为这些数据有巨大的潜在作用。由此而产生的数据挖掘概念引起了广泛地重视,出现了许多与之相关的技术和产品。本文对数据挖掘的基本概念、基本方法和基本技术及应用研究做了较系统的综述性回顾。 关键词:数据挖掘;数据库;应用研究 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;所以对企业来说,这些堆积如山的数据无异于一个巨大的宝库。除此之外,互联网的发展更是为我们带来了海量的数据和信息。在缺乏强有力的工具的情况下,这些海量的数据已经远远的超出了人的理解和概括的能力。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识。在市场需求和技术基础这两个因素都具备的环境下,数据挖掘(Data Mining)的概念与技术就应运而生了。 1 数据挖掘技术简介 数据挖掘(Data Mining:DM)是从存放在数据库、数据仓库、或其它信息库中的大量数据中挖掘有趣知识的过程。数据挖掘有时也称作
KDD(Knowledge Discovery in Databases:知识发现),即基于数据库的知识发现,指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的、易被理解的信息。典型的数据挖掘系统具有以下主要成分: 1) 数据库、数据仓库:数据库、数据仓库或者是其他一些信息存储媒介为数据挖掘的工作对象; 2) 数据库、数据仓库服务器:主要是响应数据挖掘引擎的请求,提取相应的数据; 3) 领域知识库:主要用来指导挖掘的过程,以及用来评价挖掘出来的候选模式; 4) 数据挖掘引擎:是整个系统的核心部分,可以由以下模块组成:分类模块、关联规则模块、聚类分析模块、时序模块和异常分析模块等; 5) 模式评价模块:主要是根据一定的度量标准来与数据挖掘模块交互,以使得数据挖掘向着我们感兴趣的方向进行,往往越是高效的数据挖掘系统这种交互影响的程度越高; 6) 图形用户界面:主要是为方便用户与数据挖掘系统的交互,由用户提出挖掘任务、指定重要的挖掘参数 及由当前返回的结果指导进行更进一步的挖掘工作。 2 数据挖掘技术的基本方法 作为一门交叉学科,数据挖掘融合了包括数据库、人工智能、统计学等在内的多个领域的理论和技术。 而数据库、人工智能和数理统计是数据挖掘技术的三根强大的技术支柱。数据挖掘的主要任务是借助关联规则,决策树、聚类和基于样例的学习。贝叶斯学习、粗糙集、神经网络、遗传算法、统计分析等技术.采用数据取样(选取数据样本)、 数据探索(可视化数据探索与聚类分析和因子分选、数据调整(数据重组细分与添加 和拆分记录)、模式化(人工神经网络。决策树模型,数理统计分析和时问序列分析)和评价(结论综合和评价、是否修改数据、有新问题产生)等五个基本流程。这一过程可能要反复进行,不断地得到趋近事物的本质,不断地优化问题的解决方案,通过关联分析、分类、聚类、预测和偏差检测等发现数据间的关系以及数据间的模式 。目前,最常见的数据挖掘技术有:模糊逻辑和粗糙集方法、遗传算法、临近搜索算法等。从功能上讲说,可以将数据挖掘的分析方法划分为四种:关联分析、序列
模式分析、分类分析和聚类分析。 3 数据挖掘技术的主要应用领域
3.1 电子商务中的web中的数据挖掘应用 目前,通过Web进行商务活动带来的便利和它所产生的交易速度已成为电子商务迅猛发展的关键推动力。另一方面,涉及客户端的电子商务活动也正在进行着巨大的革新。如果能够跟踪客户在Web上的浏览行为并进行模式分析,这样将会缩短销售商与客户之间的距离,让销售商更了解自己客户的需求,有针对性的开展电子商务活动。在Internet上的客户都意识到,只要他们连接到一个在线市场的服务器上,就已经在这个服务器上留下了一个“脚印”,这就是服务器的日志文件。我们就可以对客户访问留下的这些日志文件进行Web的数据挖掘,提取关于客户的知识,对客户的访问行为、频度、内容等的分析,可以得到关于群体客户行为和方式的普遍知识,用以改进Web服务方的设计。通过Web数据挖掘,就可以根据客户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,给客户个性化的界面,开展有针对性的电子商务以更好的满足访问者的需求。 电子商务中进行Web数据挖掘的数据源主要集中在服务器数据日志文件和查询数据、客户自主登记信息。主要采用的技术包括路径分析(判定在一个Web站点中最频繁访问的路径及还有一些其他的有关路径的信息)、关联规则的发现(在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系)、序列模式的发现(序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式)、分类规则的发现(分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项)以及聚类分析(聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户)。 3.2 数据挖掘在商业银行中的应用 随着经济全球化步伐的加速和中国金融业面向外资银行的开放.我国银行业面临着巨大的压力和挑战。在激烈的市场竞争中, 如何充分运用商业银行在发展过程中积累的大量的经营数据和客户数据,发掘有价值的信息, 己成为当今国内银行业普遍关心的问题:可以说,新一轮银行的竞争将在客户资源的基础之上展开为了实现经营理念从“ 赞金为中心”向“以服务为 ”转变,商业银行必须树立客户至上的思想,通过向每一位客户“在正确的时间、正确的地点提供正确的服务”来赢得顾客的“心”。数据挖掘技术作为一门新兴技术,它的应用,已成为商业银行实现上述“正确”的关键。 利用分类法可以有效识别优质客户。对于商业银行来说,分类是最常见的操作。目前,商业银行经常试图在众多的客户中识别出优质客户.但却一直无法确定优质客户的标准、这里可首先假设类标号属性为“是否为优质客户”,然后采用分类法,通过在一定的客户群上进行学习,最后确定出优质客户的评估准则。利用分类法还有利于商业银行培养和选择忠诚客户,使之与银行保持长期关系。客户忠诚是基于对银行的信任度、往来频率、服务效果、满意程度以及继续接受同一银行服务的可能性的综合评估值。商业银行为了留住老顾客,防止客户流失,就必须了解顾客的需求。首先设立类标号属性是“顾客是否流失”,再利用数据挖掘工具对大量的客户资料进行分析,建立数据模型,以确定客户的购买习惯、购买数量和购买频率,分析客户对某个产品的忠诚程度、持久性等,以确定忠诚客户,并为他们提供个性化定制服务。 在信用风险管理中的应用。信贷业务是商业银行的核心业务之一,而这些业务所带来的信用风险及其控制一直是商业银行最为关注和棘手的问题。为了保证最大的利润和最小的风险,既鼓励和方便客户贷款与透支,又避免坏账的上升,商业银行在放贷之前,应根据客户历史信贷资料,分析客户的信誉度和偿还债务能力。长期以来,各商业银行一直都在试图寻找好的技术来代替传统的人工对客户信誉度的估算但始终未果,数据挖掘技术的出现,
由于其可为银行进行个人信用风险控制提供客观、准确的评估和控制机制,因此已成为各商业银行风险管理中的“宠儿”。利用数据挖掘技术,各商业银行的信誉管理模式由定性化逐步走向定量化, 通过科学地强化对信贷客户的信用评
估、风险度测量、信贷风险权重的管理,有效地防范和控制贷款风险。 4 数据挖掘技术发展前景及预测 随着数据库技术的向前发展,数据库系统中不断引入新的数据模型,如扩充关系模型、面向对象模型、对象关系模型和演绎模型;根据数据的特性又分为空间的、时间的、多媒体的、主动的和科学的数据库。相应的,这些对数据挖掘技术也提出了新的要求,给出了新的发展方向。 数据挖掘技术未来的发展方向和研究焦点是对各种非结构化数据的挖掘,如对文本数据、空间数据、图形数据、视频图像数据进行挖掘,处理的数据
会涉及到更多的数据类型,它们更复杂,结构更独特。 5 结束语 数据挖掘是个年轻而富有前景的研究领域,其应用正日益扩展,是一个极具吸引力和挑战性的研究领域。随着信息量的增加及软硬件技术的发展,数据挖掘和知识发现将有更广泛的应用前景,会使各种利用空间数据的系统具有强大的知识发现功能,更有效地发挥其已有或潜在的价值。 参考文献: [1] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2004. [2] 张凯,曹加恒,舒风笛,等.数据开采中基于用户需求的关联模型[J].武汉大学学报,2006(10). [3] 何俊.数据挖掘及其在银行业的应用[J].华南金融电脑,2005(6). 参考文献: [1] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2004. [2] 张凯,曹加恒,舒风笛,等.数据开采中基于用户需求的关联模型[J].武汉大学学报,2006(10). [3] 何俊.数据挖掘及其在银行业的应用[J].华南金融电脑,2005(6). 参考文献: [1] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2004. [2] 张凯,曹加恒,舒风笛,等.数据开采中基于用户需求的关联模型[J].武汉大学学报,2006(10). [3] 何俊.数据挖掘及其在银行业的应用[J].华南金融电脑,2005(6). 参考文献: [1] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2004. [2] 张凯,曹加恒,舒风笛,等.数据开采中基于用户需求的关联模型[J].武汉大学学报,2006(10). [3] 何俊.数据挖掘及其在银行业的应用[J].华南金融电脑,2005(6). 参考文献: [1] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2004. [2] 张凯,曹加恒,舒风笛,等.数据开采中基于用户需求的关联模型[J].武汉大学学报,2006(10). [3] 何俊.数据挖掘及其在银行业的应用[J].华南金融电脑,2005(6).