基于大数据的数据挖掘技术和应用分析
徐 伟
【摘 要】[摘要]现代信息技术的高速发展带来了数据的爆炸式增长,从海量混杂的数据中挖掘具有价值的信息成为各界关注的焦点。本文介绍了数据挖掘的基本概念和理论,梳理了数据挖掘的常用算法,并以电力行业为例,探索基于大数据的数据挖掘技术的应用。 【期刊名称】《安阳师范学院学报》 【年(卷),期】2019(000)005 【总页数】4
【关键词】[关键词]数据挖掘;影响模型;预测;智能电网 【文献来源】
https://www.zhangqiaokeyan.com/academic-journal-cn_journal-anyang-normal-
university_thesis/0201273447208.html
[基金项目]安徽省2017年高等学校省级质量工程教学研究项目“‘证赛岗’三轮驱动下的模块化专业人才培养体系构建——以桐城师范高等专科学校高职专业为例”(2017jyxm0999)。
大数据技术发展带来的巨大信息风暴正在改变人们的生活、工作和思维方式,也是开启重大时代转型的钥匙。全球各国普遍认识到数据作为战略性资源对发展和竞争带来的关键作用,诸多国家开始制定以大数据为核心的战略或发展计划,借此实现业务创新和新兴产业发展。大数据技术能够挖掘海量数据的内在规律,打开全新思维和认知视角,在“互联网+”的时代背景下,为各行各业的发展保驾护航[1]。本文讨论基于大数据的数据挖掘关键技术,理清思路,突出数据挖掘价值,并以电力行业为例,分析大数据挖掘技术在企业生产经营中
的应用场景和应用价值。
1 数据挖掘技术
数据挖掘技术是利用算法搜索,从海量数据中提取重要信息和有趣模式的过程[2]。图1所示为数据挖掘的数据模型建立过程。
第一个阶段是数据的预处理,将采集到的原始数据转化为符合项目需求的有效数据。数据预处理是为了有效弥补原始数据缺陷,保证数据的可靠、完整。数据抽取就是要在海量数据中快速获取与项目有关的数据。
第二个阶段是数据挖掘。根据数据仓库中数据的普遍特征,选择合适的算法和工具,采用案例推理、规则推理、模糊集、遗传算法、神经网络、统计学等方法处理信息。数据挖掘的关键在于明确挖掘任务,并找到合适的挖掘算法。 第三个阶段是知识表示和模式评估。模式主要用于准确表达出数据的挖掘成果,最终构建出有识别能力的完整的表达模式。
2 数据挖掘常见算法
数据挖掘是集统计学、软件开发、机器学习、数据库等技术的综合多学科先进技术,经过大量数据的分析处理,挖掘隐含的高价值信息,为决策提供技术支持。狭义算法是指一些统计算法、分类算法、规则提取算法等。常见的狭义数据挖掘算法包括K-means聚类算法、Apriori布尔型关联规则算法、最大期望算法、K最近邻分类算法等。广义算法泛指一切数据处理、规则提取的方法来发现数据中的信息,能够转化为数据信息进行关键知识提取的方法都可以被看作是数据挖掘,例如图像处理也可以是一种数据挖掘算法[3,4]。下面将着重介绍几种常见数据挖掘算法。 2.1 决策树分类算法
决策树分类算法是一种应用非常广泛的数据挖掘分类算法,包括C4.5和ID3算法。决策树算法是针对给定数据集快速生成分类的有效方法。决策树算法关键是从无次序、无规则的数据集中推理出数据分类的规则,采用决策树方式将分类结果表现出来。决策树分类算法的核心思想是自上而下在树结点利用递归的方式比较数据属性值,不同的属性值决定了树的走向,结论表现在叶子结点处。
决策树分类算法的第一步是按照给定数据集创建决策树,核心是对元数据源的机器学习;第二步是根据第一步建立的决策树进行分类学习。构造决策树是决策树算法的关键步骤,属性和判断逻辑的选择直接决定了决策树的结构和处理效果。一般来说,决策树算法利用剪枝方法处理过分适应的问题,利用统计度量消除这种情况,快速实现数据集分类,提升数据分类效果和速度。 2.2 关联规则
关联规则是非常活跃的一种数据挖掘算法,可以在庞大、无规律、杂乱的数据中建立数据之间的关联关系,对未来可能发生的情况进行预测。关联规则常用置信度、支持度两个指标表示结论的正确性和显著性。
置信度用于衡量A发生的前提下,结论B发生的概率,即P(A|B),表示这一规则在数据中所占比率。置信度是衡量关联规则可信度的指标,一般将设置最小值不小于0.5,以此过滤正确率低的规则。
支持度用于衡量已知A和B均发生的概率,即P(A∩B)。假设最小支持度的目标是过滤数据比率低的关联项,提升关联规则的代表性。 Support(A?B)=P(A∩B) 2.3 神经网络和遗传算法