数据挖掘
引言
数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。
所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。
目录
引言 ...................................................................................................................................... 1 第一章 绪论 ......................................................................................................................... 3
1.1 数据挖掘技术的任务 ........................................................................................................ 3 1.2 数据挖掘技术的研究现状及发展方向 ............................................................................ 3 第二章 数据挖掘理论与相关技术 ........................................................................................ 5
2.1数据挖掘的基本流程 ......................................................................................................... 5
2.2.1 关联规则挖掘 ......................................................................................................... 6 2.2.2 .Apriori算法:使用候选项集找频繁项集 ............................................................ 7 2.2.3 .FP-树频集算法 ...................................................................................................... 7 2.2.4.基于划分的算法 ..................................................................................................... 7 2.3 聚类分析............................................................................................................................ 7
2.3.1 聚类算法的任务 ..................................................................................................... 7 2.3.3 COBWEB算法 .......................................................................................................... 9 2.3.4模糊聚类算法 .......................................................................................................... 9 2.3.5 聚类分析的应用 ................................................................................................... 10
第三章 数据分析 ................................................................................................................ 11
第四章 结论与心得 .......................................................................................................... 14
4.1 结果分析.......................................................................................................................... 14 4.2 问题分析.......................................................................................................................... 14
4.2.1数据挖掘面临的问题 ............................................................................................ 14 4.2.2 实验心得及实验过程中遇到的问题分析 ........................................................... 14
参考文献 ............................................................................................................................. 14
第一章 绪论
1.1 数据挖掘技术的任务
数据挖掘技术并不是仅仅面向特定数据库的简单检索查询,而是对大量的数据从宏观、微观的角度进行统计、分析、综合和推理,进而来指导现实生活中实际问题的解决,有时还要根据已有的数据展开推理预测。数据挖掘的主要任务是分类、聚类、关联、序列等。
分类就是在数据中找出一个类别的概念描述,这个概念代表了这类数据的基本信息,即该类概念的内涵描述,然后根据这种描述建立模型。常用的分类构造方法主要有统计方法、机器学习方法、神经网络方法等。其中统计方法包括贝叶斯法和非参数法,机器学习方法包括决策树法和规则归纳法,神经网络法主要是以BP算法为主。
聚类就是把具有相似性的数据归纳成若干类别,同一类别的数据相似,不同类别的数据相异,聚类分析可以在分类的基础上进一步建立宏观的概念,进而发现数据的分布模式。
当两个或者两个以上变量的取值直接存在某种规律性时,我们就可以称之为关联。
序列和关联类似,只是把关联中一起发生的项目间关系扩展成一段时间的项目集间的关系,因此,序列常常被看作由时间变量连起来的关联。序列的主要作用是分析长时间的相关记录,进而发现经常发生的模式。
1.2 数据挖掘技术的研究现状及发展方向
近年来,随着计算机科学领域的快速发展,数据挖掘技术作为一种新兴的学科,其研究热度正在逐渐升温,研究的水平也在逐步提高,同时由于国家政府的政策支持与资金支持,越来越多的数据专业研究者被吸引加入其中。在数据挖掘技术未来的研究过程中,其主要方向应包括以下几点:(1)参照于 SQL 语言的标准化的研究成果,对数据挖掘技术进行形式化的描述,即发现数据语言。(2)为实现关于数据额挖掘技术人机交互工作的顺利开展,应满足用户对知识发现过程的可视化进程。(3)研究在计算机领域的数据挖掘技术的发展,可以通过数据