数据挖掘是一种决策支持的分析过程,是“从大量数据中提取正确的、非平凡的、未知的、有潜在应用价值并最终可为用户理解的模式”。数据挖掘主要基于人工智能(AI)、机器学习、统计学等技术,高度自动化地分析企业原有的数据,并进行归纳推理,从中挖掘出潜在的模式,并预测趋势,帮助企业高层决策者做出正确的决策。 数据挖掘的过程是一个高级的处理过程,它首先根据分析的目标,收集需要的数据,从数据仓库或数据集市抽取需要的数据,可以以视图的形式存在,也可以用物理数据集存储;根据实际的经验,为数据挖掘提供的数据最好是预先实例化的,以便提高分析速度。而后,采用数据挖掘的处理流程进行挖掘,对挖掘所得到的模式进行评估、解释。最后应用被认为是符合实际和有价值的模式即知识到生产实践中,辅助企业的生产经营决策。 1 矿业中常用的数据挖掘模型
矿业中常用的数据挖掘模型有5类,即神经网络模型、模糊聚类模型、回归分析模型、时间序列与周期分析模型、灰色模型。这些模型各有自己的特点。神经网络模型主要用于分析和预测,具体说就是根据输入数据进行隐含计算后输出预测数据;模糊聚类模型是对批量数据进行归类分析,主要进行模式分析;回归分析提供建立不同变量之间相关关系的数学表达式(通常为经验公式),并且通过检验计算对所简历的经验公式进行有效性分析,使之能够应用于预测和控制;时间序列与周期分析模型主要通过时间周期分析方法来实现预测、分析的目的;灰色模型主要在原始信息很少的情况下建立模型以进行预测。 1.1 人工神经网络模型
人工神经网络(ANN)是一种基于连接机制的人工智能技术。它试图从微观上解决人类认知功能,以探索认知过程的微观结构,并在网络层次上模拟人类的思维方式和组织形式,她通过合理的样本训练、学习专家的经验、模拟专家的行为,并通过引入非线性转换函数来求解问题、处理数据时存在决策界面统计不出或不准确的现象。由于ANN具有学习、联想、自组织、记忆和容错等功能,不仅可避免建立复杂的数学模型和进行繁琐的数学推理,而且,对信息不完全的数据(资料)进行ANN模型训练和处理,较之采用常规方法往往能获得较好的结果。ANN在非线性建模和非线性问题求解反而有着广阔的前景。
在常见的神经网络模型中,各种变量之间的数学关系不能显式地给出,而只能通过对样本的训练来得到。而且,他只能给出样本范围内的数据之间的依赖关系。神经网络的训练是通过样本的输入与期望输出来进行的。每个隐含层和输出层的神经元通过对其输入加权求和,在经过一个转换函数(又称传递函数、能量函数)而得到结果。转换函数通常是一个非线性函数。常见的转换函数有阈值型、分段线性型和S型函数。当众多的神经元连成一个网络并动态运行时,就构成一个非线性动力学系统,具有非动力学系统的一切特征,如不可预测、不可逆性、多吸引子,会出现混沌现象等,同时具有联想、记忆、容错、高维等并行分布式处理能力。
目前神经网络模型主要包括误差逆传播神经网络(BP)模型、自组织竞争型(如Kohonen)模型和联想记忆型(如Hopfield)模型等。这些神经网络模型在数据挖掘与知识发现算法研究和应用中发挥重要作用。其中BP模型是一种发展较成熟,应用较多,在矿山中应用也较广泛的模型。该模型通过简单的非线性处理单元的复合映射(Mapping)可获得复杂的非线性处理能力,具有很强的自学习能力。
1.2 模糊聚类模型
模糊现象是指事物类属标准不明确,不能确切归类的现象。“模糊聚类模型”是应用模糊数学的方法将不同的对象根据不同的评判标准进行聚类。
评判不同的对象,可以利用一组评判标准,但是这些评判标准有主次之分,有一定的模糊度,处理在模型的实现过程中对管理人员的主观性采用“白化”的方法处理,即事先将评判标准进行数字形式的量化。聚类的思维就是对取得的原始信息进行加工,最后做出类的归
属,然后可以根据分类做出进一步的决策。
矿山生产中安全状况、企业竞争力就具有模糊性的特点。通常把安全状况分为很安全、较安全、一般和不安全4个等级,把企业竞争力分为很强、强、一般和差四个等级,但很难界定各等级的标准。由于分类本身就具有模糊性,而且模糊聚类分析可以解决聚类分析中的精确性与模糊性的矛盾,所以采用模糊聚类法综合评价矿山生产的安全状况、企业竞争力等是自然的选择。
1.3 多元回归分析模型
“回归分析模型”是利用回归技术对一组数据进行分析,建立相应回归模型、进行参数估计、利用模型对所研究的问题进行预测、计算与分析的一个模型。在实际生产中,一个变量往往受到多个应变量的影响,表现在线性回归模型中为解释变量有多个。为了完整和准确地表达经济预测对象与相关因素的关系,有效地进行预测,需要建立多个自变量的回归预测模型。
在矿山,回归分析方法日益受到重视,很多经验公式和半经验公式的建立就应用了该方法。这些公式的正确性与适用性也可以通过回归方法来检验,一些公式中的参数也可通过回归方法来确定。回归分析的整个过程充分利用了统计理论的方法与概念,从数学计算的角度可以简单分为线性回归和非线性回归两大类。通常,回归分析在矿山中主要解决以下问题:
(1)分析一组相关数据(如原矿入磨粒度、磨矿细度与回收率和精矿品味)。根据分析确定变量之间的数学关系;
(2)对变量关系式中的参数进行估计和检验,分析各影响因素与预测对象之间的关系强弱程度,并进行逻辑与理论上的分析;
(3)根据求得的回归模型数学式和自变量的值,求应变量值,并且分析和研究所得结果的误差;
(4)对预测结果进行理论上的分析与解释。 1.4 时间序列与周期分析模型
用来分析各种相依有序的离散数据集合的整个方法称时间序列分析。时间序列分析不仅可以从数量上揭示某一现象的发展规律或从动态的角度刻画某一现象与与其它现象之间的内在数量关系及其变化规律性,达到认识客观系统之目的,而且应用时序模型还可以预测和控制现象的未来行为、修正或重新设计系统,达到利用和改造客观现象之目的。
含有明显周期性或季节性的数据是矿山管理和分析人员经常面对的。例如,矿产品市场需求波动,分析的目的就在于找出市场需求波动的规律,而后根据这种规律进行预测,根据预测结果采取有效措施,实现前馈(事先)控制。建立矿产品市场需求量波动的随机时间序列模型,就是从单变量时间序列的角度,研究矿产品市场需求量各观测值之间的依赖关系或相关性,揭示矿产品市场需求量波动的本质规律。一旦找出这种规律,就可根据矿产品市场需求数据序列现在和过去的值预测矿产品市场需求量波动的未来发展趋势。
1.5 灰色模型
灰色理论把完全已知的称为“白色”,完全未知的称为“黑色”,把介于两者之间的称为“灰色”。灰色理论是应用灰数建立微分方程,这种微分方程模型称为GM模型(Grey Model),GM(1,N)表示N个变量的一阶微分方程,然后进行预测分析,严格意义上说,任何系统都可以算是灰色的,所以,可以将灰色理论用于预测分析,尤其是当一个经济系统处于上升发展的趋势时,而且其经济数据序列较短时,用灰色理论预测精确度较高。
矿山,尤其是中小型矿山在建立时,经常无法获得足够的数据。例如,原矿品味是矿山进行选矿流程设计和进行成本分析的重要依据,但进行原矿品味预测往往需要非常细致的地质数据和勘探数据以及空间动力数据等等,这些数据对于小型矿山往往是非常缺乏的,甚至大型矿山也往往不是很齐备。而灰色GM(1,1)模型可用少量数据进行微分建模,且使用简
便,可用于生产成本、原(精)矿品味、利润或利税、产品需求等方面的预测,也可用于生产过程的预测控制。
2 数据挖掘应用实例
选矿过程是一个复杂的过程,它受很多因素的影响和制约,如矿石性质和选矿工艺参数就是其中最重要的的影响因素之一,一旦矿石性质发生变化,就必须寻求新的工艺、新的参数以抗衡因这种变化带来的选矿指标的恶化。选矿效果指标与选矿因素之间存在复杂的线性、非线性关系和交互作用,自变量和因变量是纯粹的离散数据,无法用数学公式表示。而人工神经网络模型正可较好地反映这种关系。
充分利用选矿厂在长期生产过程中积累的反映选别过程指标的大量历史数据,并结合人工神经网络建模,可揭示选别过程中原矿性质、选矿工艺流程与选矿效果指标之间的动态关系,为实现矿山企业的产品计划提供一种有效的途径。
2.1 模型建立
本研究采用BP模型。以某矿业公司选厂选铜车间1998~2004年共7年的生产月报数据作为训练样本,选取入选矿石品味和选矿工艺流程参数(钢球单耗、黄药单耗、2#油单耗)为输入样本,而与其对应的精矿品味、回收率为输出样本,建立选厂选矿效果指标预报模型。数据预处理采用对数线性插值法。
应用动量———自适应学习率调整算法训练网络。网络的隐居均为1层,隐节点数用试错法按从少到多的顺序选定。网络总误差≤0.005,根据网络的收敛情况反复调整隐含层的节点数及网络学习速率。隐节点数分别为9,12,15,18时网络训练误差分别为0.8442,0.8493,0.7527,0.6876,网络测试误差如图1所示。最后确定网络隐节点数为15进行网络训练与测试,通过5478次迭代,系统达到要求,并计算出实际品味输出和实际回收率输出的相关指数分别为0.953和0.924。
2.2 效果检验
对学习后建立好的模型,需要进行新样本测试,以考察模型的可行性。选取该选厂2005年的部分实际生产数据输入该模型,并对比其输出的精矿品味、回收率与实际生产指标之间的差异,见图2和图3。