数据挖掘读书笔记
导语:数据挖掘是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。以下本人为大家介绍数据挖掘读书笔记文章,欢迎大家阅读参考!
数据挖掘读书笔记1 1、数据挖掘要解决的问题 可伸缩 高维性
异种数据和复杂数据 数据的所有权与分布 非传统的分析 2、数据挖掘任务 1)预测任务 2)描述任务
A预测建模:分类-预测离散的目标变量和回归-预测连续的目标变量 B关联分析 C聚类分析 D异常检测 3、属性的四种类型 1)标称
2)序数 3)区间 4)比率
数据挖掘读书笔记2 1. 确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的. 2. 数据准备 1)数据清理
消除噪声或不一致数据。 2)数据集成
多种数据源可以组合在一起 3)数据选择
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据. 4)数据变换
将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键. 3. 数据挖掘
对所得到的经过转换的数据进行挖掘.除了完善从选择
合适的挖掘算法外,其余一切工作都能自动地完成. 4. 结果分析
解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术. 5. 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去.
3、 数据挖掘热点 电子商务网站的数据挖掘
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。 生物基因的数据挖掘
生物基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在还远没有达到成熟的地步。 文本的数据挖掘
在现实世界中,可获取的大部分信息是存储在文本数据库中的,由来自各种数据源的大量文档组成。由于电子形式的信息量的飞速增长,文本数据库得到飞速的发展。文档数据库中存储最多的数据是所谓的半结构化数据(semistructure data),它既不是完全无结构的,也不是完全结构化的。在最近数据库领域研究中已由大量有关半结构化数据的建模和实现方面的研究。而且,信息检索技术已经被用来处理费结构化文档。传统的信息检索已经不适应日益增长的大量文本数据处理的需要。因此,文档挖掘就成为数据挖掘中一个日益流行而重要的流行课题。 数据挖掘
Web上有海量的数据信息,怎样对这些数据进行复杂的
应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。因为它面临如下诸多挑战:
1、 对于有效的数据仓库和数据挖掘而言,Web的存储量实在是太庞大了。
2、 Web页面的复杂性远比任何传统的文本文档复杂得多。
3、 Web是一个动态性极强得信息源。
4、 Web面对的是一个广泛形形色色的用户群体。 5、 Web上的信息只有很小的一部分是相关的或有用的。 一般的,Web数据挖掘可分为三类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining),Web使用纪律挖掘(Web usage mining)。
面向Web的数据挖掘是一项复杂的技术,由于上述种种挑战的存在,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活