基于大数据环境下工业增加值的预测与分析
国家统计局天津调查总队 纪晓俊、祁一夫、樊佩雄
摘 要
2008年全球经济危机爆发,欧洲主权债危机随之发酵,我国经济作为全球经济的重要组成部分也遭受到了巨大冲击。加之国内产能过剩,结构性矛盾突出和生态环境恶化等问题,迫使我国加快产业结构的调整和过剩产能的淘汰。本文在常规统计数据的基础上,探索“大数据”的应用,尝试拓宽数据来源渠道,利用搜集的月度数据,重点使用决策树模型和随机森林模型对工业增加值进行预测,并与多元线性回归模型、bagging模型、最近邻近法模型、支持向量机模型等其它四种方法进行对比。结果显示,决策树模型和随机森林模型相对其他四种建模方法预测误差较小,体现其预测能力和抗干扰能力更强,而其中随机森林模型效果最佳。根据模型结果,PMI、PPI和汇率在工业增加值预测中作用最明显,应作为判断我国工业增加值增长的重要依据。
关键词:工业增加值、机器学习、随机森林、决策树
一、问题的提出及研究背景
(一)问题的提出
工业是以自然资源、农业原料、工业原材料、信息作为劳动对象,通过各种劳动手段,由劳动者进行加工和再加工的社会物质生产部门。它向国民经济提供能源、原材料和其他生产资料,并不断提供新能源、新材料和新装备,生产出满足人们日益增长的物质文化生活需要的各类消费品。现代工业是国民经济的主导,它的发展推动着农业、建筑业、交通运输业,以及其他产业的发展,决定了整个国民经济和国防、科技现代化的水平和发展速度,促进市场经济的发展和高度化。自18世纪60年代工业革命爆发,人类社会进入现代工业社会以来,从世界强国英国、美国、苏联,到我们的近邻日本、韩国,世界各国经济的腾飞无一不依赖工业的长足发展。而在全球经济深陷危机泥潭的大背景下,在我国淘汰过
剩产能和调整产业结构的大形势下,我国月度工业增加值同比增长率近两年来(自2012年4月开始)始终在10%上下徘徊。未来我国工业发展如何走势已成为社会各界和政府关注的焦点,也成为国内外学者研究的课题。
(二)研究现状
工业增加值是指工业企业在报告期内以货币形式表现的工业生产的最终结果,是工业企业全部生产活动的总成果扣除在生产过程中消耗或转移的物质产品和劳务价值后所新增加的价值,是反映一个国家或地区在一定时期内工业企业所生产和提供的全部最终产品和服务的市场价值总和的重要指标。在预测工业增加值的问题上,学者们做了多方面的研究。徐智勇、孙林岩、郭雪松(2008)利用支持向量机和微分进化算法(differential evolution,DE)相结合的方法对中国工业增加值数据进行预测,发现该模型比核主成分分析的最小二乘支持向量机(KPCA-LS-SVM)以及岭回归(ridge regression, RR)具有更高的预测精度。刘静思、何跃(2008)运用相似复合体模型进行建模,然后运用具有最优停止法则的GMDH自回归方法和非线性的SPSS曲线估计方法建立单一模型;最后,用基于误差平方和最小的多元线性回归模型方法对各种单一模型的预测值进行组合,得到最优模型。并通过实证研究,在中长期的工业增加值预测中取得了较为满意的效果。贾明辉(2009)以2000-2005年间我国工业增加值的数据为主要对象,应用灰色预测理论,建立灰色系统的预测GM(1,1)预测了2006-2010年我国工业增加值(1978年为基期),从定量分析角度分析了我国工业增加值较快速增长的良好趋势。梁忠东(2010)选取发电量和工业增加值同比增速月度数据,分析两者相关性、平稳性以及脉冲响应,发现工业增加值增速与发电量增速相关度高,两者具有相同的随机性趋势并存在相似的长期趋势;工业增长值增速冲击导致发电量增速下降1.5,发电量冲击导致工业增长值增速上升0.36;工业增长值增速对发电量增速贡献度20%,工业增长值增速对发电量增速贡献度80%。吕一清、何跃(2011)以各个季度数据作为时间序列,建立四个灰色Elman预测模型进行预测,并同灰色GM(1,1)模型经行比较,认为前者可避免季节性波动对预测的影响,而且缩短了预测步长,提高了预测精度和预测的稳定性。赵松、贠晓哲(2012)通过ADL模型和ECM模型的综合应用研究,推导建构了关于经理采购人指数与工业增加值之间的关系模型,并进行实证分析和检验,证明ADL模型对于预
1
测工业增加值具有良好的预测作用。龙蓉蓉(2013)利用2009年中国分省区工业经济增长的数据,基于柯布-道格拉斯生产函数对工业增长的动力源进行判断,认为中国经济增长主要依靠固定资本和劳动的投入,二者对经济增长的解释度为98%,说明中国工业增长具有规模报酬递增的性质。
综上所述,学者们在工业增加值的预测方面做了许多研究和尝试。但是这些研究一般是以统计报表数据为基础展开的,在数据来源上存在一定的局限性。随着科学技术的进步和生产力水平的提升,在世界范围内,大规模生产、分享和应用数据的“大数据”时代正在到来。为此,本文尝试拓宽数据来源,利用大数据探讨我国工业增加值的预测问题。
二、数据的选取
由于工业生产涉及的范围较广,是产业链条和全球经济的重要组成分,因此能够影响工业发展,对工业增加值产生作用的因素很多。为了探索大数据在工业增加值预测中的应用,本文的数据除来自于国家统计局数据库外,还通过网络或其他媒介收集了部分数据。受模型复杂程度和数据可取得性的限制,在本文中,我们选择了以下几个指标。
(1)汇率:自改革开放以来,特别是加入世界贸易组织之后,我国经济的外向性特征越来越明显,国内外经济的关系更加紧密。2005年,我国开始建立健全以市场供求为基础的,有管理的浮动汇率制,美元对人民币汇率逐渐下跌。人民币升值是一把双刃剑,一方面提高了企业运营成本,削减了利润空间,同时出口产品将失去价格优势,国际市场份额下降,对工业发展产生不利;但另一方面又可以降低我国战略资源进口成本,形成有利因素。汇率的变动,对于我国工业发展起着重要作用。在本文中,我们选取各月末一美元兑换人民币的金额数据来代表汇率,数据取自新浪财经。
(2)黄金价格:最近二三十年来,国际金融市场出现了巨大的变化,各国汇率的波动大幅度提高,从而使部分长期投资人将一定比例的资金投入到黄金中。同时,我国电子产业发展迅速,使得高科技企业对黄金的需求有所上升。黄金价格的波动影响着金融市场,也影响了企业的成本,因此我们选取日度黄金价格作为数据之一。数据来自伦敦黄金定价公司(The London Gold Market Fixing
2
Limited)。
(3)利率:长期以来,我国的企业多以贷款融资为主。近几年来,尽管企业融资渠道有所拓宽,但向银行借款为主的融资大格局并没有得到根本转变,贷款占国内非金融部门资金来源的60%以上。利率的调整将会直接影响企业融资成本,进而影响企业发展。因此,我们选取中长期贷款(五年以上)利率来反应企业融资成本,数据取自新浪财经。
(4)制造业采购经理指数(PMI):一个综合的指数体系,涵盖了经济活动的多个方面,其综合指数反映了经济总体情况和总的变化趋势,而各项指标又反映了企业供应与采购活动的各个侧面。它是一个先行的指标,与GDP具有高度相关性,且其转折点往往领先于GDP几个月。可以用于分析产业信息,也可帮助企业及时判断行业供应及整体走势,从而更好的进行决策。在本文中,我们使用的是月度新订单指数数据。
(5)工业品出厂价格指数(PPI):是衡量工业企业产品出厂价格变动趋势和变动程度的指数,是反映某一时期生产领域价格变动情况的重要经济指标,也是制定有关经济政策和国民经济核算的重要依据。一般情况下PPI小幅度上涨,有利于生产的发展,有利于工业增加值的增长;反之PPI下降将影响企业生产信心,不利于工业增加值的增长。本文中选取工业品出厂价格月度非累计指数。
(6)石油价格:石油作为重要的生产资料,成本变化带来的相对价格变化,通过改变短期要素投入,从而造成产出和一般物价水平的变动,产生对宏观经济的直接影响;另一方面,又会促使货币政策的改变,引起产出和价格水平的第二轮变化,从而形成间接影响。本文中,我们使用的是美国能源信息署公布的西德克萨斯轻质原油现货价格日度数据(WTI Spot Price FOB)。
(7)原煤价格:相对缺油、少气、富煤的资源结构决定了煤炭是我国最主要的能源来源。2013年我国煤炭消费量占能源消费总量的66%。作为主要消费能源,煤炭价格的波动也会对工业生产一定影响。煤炭价格数据取自WIND资讯。
三、建立机器学习模型
传统的预测方法多是用线性回归分析、时间序列、常规趋势法等进行预测,
3
但由于影响工业增加值的外生变量受到各种因素的影响,并且可能出现共线性的问题,这些预测方法都不能够得出准确的结果。近年来也有学者利用神经网络模型、最近邻近法和模糊数学等方法对工业增加值进行预测,这类方法充分考虑了外生变量的影响,能以任意精度逼近任何非线性连续函数,可以利用历史数据得出精确的未来数据,但其缺点在于对训练样本的依赖程度较大,由训练数据得出的预测模型对检验数据的稳健性不足,而且有可能因为过度训练造成过度拟合。为此,引入机器学习方法对工业增加值进行预测研究。
(一)预测建模 1、模型变量
为了确定工业增加值预测模型,将上一章介绍的7个解释变量作为模型的输入变量,这7个指标为如表1所示:
表1:指标变量
指标 汇率 金价 利率 PMI PPI 石油 原煤 含义 一美元折合人民币(期末数)(元) 黄金价格环比值 中长期贷款(五年以上)利率 新订单指数 非累计价格指数 石油价格环比值 原煤价格同比值 符号 ER GV IR PMI PPI BG RC 上述7个影响因子为机器学习方法对工业增加值预测模型的输入,工业增加值(IDV)为模型的输出变量,即被解释变量。
2、数据处理
本文采用 2005年1月~2014年5月之间的月度数据,共计113个样本数据。将其中一半作为训练样本建立模型,剩下一半作为检验样本以衡量模型的预测能力。由于我们搜集的石油和黄金价格是日数据,在数据使用之前,我们首先使用EXCEL将全部日数据转化为月度数据。之后,使用EViews软件进行了消除季度影响的处理。首先我们对缺失数据利用线性插值法补齐。同时因为数据为时间序列数据,一个季度或月度的时间序列往往会受到年内季节变动的影响,这种季节
4
变动是由气候条件、生产周期、假期和销售等各种季节因素造成的。由于这些因素造成的影响有时大得足以遮盖时间序列短期的基本变动趋势,若要掌握经济运行的季度或月度变化,必须进行季节调整。通过自目前的变化中扣除过去数年的平均变动,可说明此上涨或下跌是否是不寻常的,或纯粹只是季节性现象。目前,已开发出X-11-ARIMA、X-12-ARIMA和TRAMO/SEATS这3种比较成熟的模型用于季节调整,并在国际上被普遍采用。由于X-12-ARIMA模型不仅包含了X-11-ARIMA模型的所有优点,同时改进了它在建模和诊断能力方面的缺陷,而且还具有通过ARIMA模型在季节调整前向前或向后扩展时间序列的能力,因此本文通过EViews软件拟采用X-12-ARIMA模型对原始数据进行季节调整。
为了更好的预测工业增加值(IDV),我们观察历史数据发现,2005年1月至今,工业增加值的增速基本维持在105.0~120.0之间,因此,我们根据工业增加值的增幅分段,如表2所示:
表2:工业增加值增幅分段表 IDV增速 105.0及以下 105.1-108.0 108.1-111.0 111.1-114.0 114.1-117.0 117.1-120.0 120.1及以上 值 0 1 2 3 4 5 6 将新的工业增加值替换原有数据进行预测,研究所得结果可以预测工业增加值将在哪个增长范围。
3、模型的性能评价标准
为了评价模型的拟合及预测能力,本研究根据相对误差平方和(NMSE)指标来做出评价。指标数字越小则说明模型的预测值与真实值之间的差异越小,模型的预测能力越强。
NMSE?(y?y)?2?(y?y)??(y?y)5
?22 (3.3.1)
4、建模工具
本研究用以实现的软件是R语言,其中rpart.plot、adabag、randomForest、kknn等软件包可以用来建立机器学习模型。
5、建模方法
在读入样本数据后,我们分别用决策树、bagging、随机森林、支持向量机等方法进行了计算。下面重点介绍预测效果较好的决策树方法和随机森林方法。
(二)决策树方法 1、理论方法 1.1、简介
机器学习中,决策树是一个预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。用图形表示决策过程如下:
决策树如果依靠数学的计算方法可以取得更加理想的效果。数据库如下所示:
(x,y)?(x1,x2,x3...,xn,y)
6
相关的变量Y表示我们尝试去理解,分类或者更一般化的结果。其他的变量x1,x2,x3等则是帮助我们达到目的的变量。
决策树算法具有如下优点: (1)分类精度高; (2)生成的模式简单;
(3)对噪声数据有很好的健壮性。
因此是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。
1.2、计算步骤
(1)绘制树状图,根据已知条件排列出各个方案和每一方案的各种自然状态。
(2)将各状态概率及损益值标于概率枝上。
(3)计算各个方案期望值并将其标于该方案对应的状态结点上。 (4)进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望值小的(即劣等方案剪掉)所剩的最后方案为最佳方案。
2、模型建立
首先输入以下命令建立决策树模型: z=read.csv(\gg=(IDV~.) a=rpart(gg,z[-m,]) 运行后得到以下结果: n= 113
node), split, n, deviance, yval * denotes terminal node
1) root 113 179.008800 3.132743
2) PPI< 101.8477 43 22.511630 2.186047 4) PMI< 51.9132 36 8.000000 2.000000 *
7
5) PMI>=51.9132 7 6.857143 3.142857 * 3) PPI>=101.8477 70 94.285710 3.714286 6) ER>=8.108164 7 14.857140 1.857143 * 7) ER< 8.108164 63 52.603170 3.920635 14) ER< 6.834049 26 16.038460 3.192308 28) GV< 98.80465 10 4.400000 2.600000 * 29) GV>=98.80465 16 5.937500 3.562500 * 15) ER>=6.834049 37 13.081080 4.432432 30) ER>=7.721996 20 7.750000 4.250000 60) ER< 8.040908 13 2.000000 4.000000 * 61) ER>=8.040908 7 3.428571 4.714286 * 31) ER< 7.721996 17 3.882353 4.647059 *
8
3.1n=113PPI < 102 >= 1022.2n=43PMI < 52 >= 522n=363.1n=71.9n=7ER < 6.8 >= 6.83.2n=26GV < 99 >= 992.6n=103.6n=164.2n=20ER < 8 >= 84n=134.7n=74.4n=37ER >= 7.7 < 7.74.6n=173.7n=70ER >= 8.1 < 8.13.9n=63
从上图可以看出,共得到8个叶节点,分别表示:当PPI<102.0且PMI<52.0时,工业增加值增速预测处于第2档;当PPI<102.0且PMI≥52.0时,工业增加值增速预测处于第3档;当PPI≥102.0且ER≥8.1时,工业增加值增速预测处于第2档;当PPI≥102.0且ER<6.8且GV<99.0时,工业增加值增速预测处于第3档;当PPI≥102.0且ER<6.8且GV≥99.0时,工业增加值增速预测处于第4档;当PPI≥102.0且7.7≤ER<8时,工业增加值增速预测处于第4档;当PPI≥102.0且8≤ER<8.1时,工业增加值增速预测处于第5档;当PPI≥102.0且6.8≤ER<7.7时,工业增加值增速预测处于第5档。
3、误差分析
为了评价模型的预测能力,根据(3.3.1)所述的指标,计算决策树模型的相对误差平方和,对应结果如下:
M1=mean((z$IDV[m]-mean(z$IDV[m]))^2)
9
NMSE=mean((z$IDV[m]-predict(a,z[m,]))^2)/M1 得出计算结果:NMSE=0.3265992
(三)随机森林方法 1、理论方法 1.1、简介
随机森林是传统决策树方法的扩展,它将多个决策树进行组合,来提高预测精度,属于集成学习算法的一种。集成学习是机器学习范式,它试图通过连续调用单个学习算法,获得不同的学习器,然后根据规格组合这些学习器来解决同一个问题,可以显著提高学习系统的泛华能力。组合多个学习器主要采用加权平均或投票的方法。常见的集成学习算法有袋装算法、提升算法及随机森林三种。集成学习可以改善单一方法的不足。因此,集成学习已成为国际机器学习界的研究热点。
bagging算法是利用自助法的思路,对训练样本进行有放回的抽样,以建立多个树模型、然后集成其预测结果提高预测效果。boosting算法与bagging算法相似,但区别在于集成预测会考虑不同子模型的权重,对表现优良的子模型会给予较大的权重。
随机森林方法与前两者相似处在于,它们都会对样本进行有放回的抽样和集成预测,但区别在于随机森林还对解释变量进行了随机抽样。随机森林不需要对模型进行剪枝,二十生成多个完整深度的树模型。在回归问题中,将多个树模型的预测值进行平均,以计算最终预测值。对于分类问题,则通过多数投票方式来产生最终预测。
1.2、计算步骤
(1)从原始训练样本中随机抽出M个样本。
(2)从解释变量中随机抽出N个样本,从抽中变量中选择最能有效分割数据的变量,使分割后的子集内部变异性最小。对于连续数据通常采用均方误作为判断指标,对于离散数据则采用基尼值。
(3)依据步骤二得到的变量将数据分割为两个纯度较高的子集。 (4)对子集重复步骤三直到分割停止。这就完成了单棵树的建模。
10
(5)重复步骤(1)到步骤(4)X次,就构建了有X棵树的随机森林模型。 2、模型建立
首先输入如下命令建立模型: z=read.csv(\set.seed(1000) n=nrow(w) m=sample(1:n,n/2)
a=randomForest(IDV~.,data=z[-m,],ntree=500,mtry=3,importance=T) 其中a表示输出变量,data表示数据集存放名,ntree表示模型中包括的单棵树数量,树太少对建模有一定影响,一般建议不要少于100,树太多不会对模型造成影响,mtry表示在分割数据时抽取多少个变量,这里通常的做法是选择解释变量数目的平方根,本文的输入变量有7个,所以这里的参数设置为3。建模结果存入a变量,之后再用predict命令得到工业增加值的预测值,表2将部分预测值与真实值进行了比较,可初步了解模型的预测能力。
表3:随机森林预测值与真实值对照
样本编号 1 7 13 19 71 103 3、模型检验
首先绘制模型的误差曲线图,如图1所示,其纵轴为模型的均方误差,横轴为随机森林中包括树的个数。从图1可以看出随着森林中树的数量增加,模型误差逐渐递减,在50的时候达到相对最小,之后有所回升,但总体来看数量越大模型误差越小。
图1:随机森林预测误差图 预测值 1.5 3.8 4.1 4.0 3.2 2.0 真实值 1 4 5 4 3 2 相对误差 0.5 0.2 0.9 0.0 0.2 0.0 11
aError0.801.01.21.41.61.82.0100200trees300400500 4、误差分析
为了评价模型的预测能力,根据(3.3.1)所述的指标,计算随机森林模型的相对误差平方和,对应结果如下:
M1=mean((z$IDV[m]-mean(z$IDV[m]))^2)
NMSE=mean((z$IDV[m]-predict(a,z[m,]))^2)/M1
得出计算结果:NMSE=0.3241043 5、重要性分析
根据随机森林模型对工业增加值(IDV)的预测结果,我们进行了因子的重要性分析,在R中输入a$importance,得出如下结论:
%IncMSE IncNodePurity ER 0.46948454 21.575197 GV 0.04708405 8.191976 IR 0.18059172 12.977337 PMI 0.56127550 25.217766 PPI 0.35342531 15.516136 BG 0.02161899 4.292439 RC -0.02494425 3.076701
由此我们可以看出,对工业增加值(IDV)影响较大的分别是PMI、汇率、
12
PPI和利率,其重要性值分别为0.349、0.292、0.220和0.112。其中影响最大的是PMI,充分显示出PMI对于预警工业运行情况的重要作用,特别是在当前的经济形势下,PMI更应成为关注的重点。其次是汇率(ER),说明近年来的汇率改革对我国工业产生了较大影响。再次是PPI,说明工业品出厂价格的波动对工业增加值增长的影响作用比较明显。之后是利率(IR),表明工业企业的发展中,融资成本是不可忽视的因素之一。而金价(GV)、石油(BG)、原煤(RC)对工业增加值的影响相对较小,这可能与我国对于黄金、石油、煤炭等战略资源的价格调控力度较大,定价机制并不完全由市场决定有关。
(四)其他方法预测比较
为了对比分析不同模型之间的预测能力,我们还利用相同的训练样本建立了多元线性回归模型、bagging模型、最近邻近法模型、支持向量机模型,其结果均在表4中列示,由表4可见,随机森林模型相对其他建模方法预测误差较小,体现其预测能力和抗干扰能力更强。其次是决策树模型也较好的给出了工业增加值(IDV)的预测结果。数据还表明线性回归等模型误差较大,不适宜用于工业增加值的预测。
表4:不同方法对工业增加值(IDV)预测误差表 预测方法 随机森林 决策树 支持向量机 bagging 多元线性回归 最近邻近法
四、模型结论及评价
(一)结论
本文重点介绍了机器学习模型中的决策树和随机森林方法,选取了理论上与工业增加值(IDV)相关的7个经济指标,运用机器学习方法进行了回归预测。根据计算结果,我们重点得出以下结论:
13
NMSE值 0.3241043 0.3265992 0.4211078 0.5424957 0.6069657 0.6278707 1、本文运用不同的回归模型对工业增加值进行了回归预测,对比诊断结果表明采用的随机森林模型和决策树模型预测精度较高,较为科学。
2、决策树模型预测结果表明:工业增加值主要受到了PPI的影响,其次是PMI和汇率。根据影响因子的值我们可以直接对工业增加值做出较为准确的预测。
3、随机森林模型预测结果表明:工业增加值主要受到了PMI的影响,其次是汇率,再次是PPI。且随机森林预测结果精度优于所有机器学习模型。
4、今后对于我国工业增加值的判断,我们可以重点关注PMI、PPI和汇率等指标,而PMI指标本身又具有先行性,因此,我们可以更为精准的预测工业增加值变化趋势。
(二)评价及改进方向
本文运用机器学习方法对我国工业增加值进行了回归预测,得出了较为理想的结果和精度。但是,本文中的模型仍存在一定的问题需要在今后改进。一是网络搜索数据平台并未完全开放,一些部门和行业的数据不公开,取得外来数据还有一定困难,使得我们的数据来源有限,数据量不足。想要真正实现基于大数据的统计建模,在数据来源上还需继续努力。二是为了简化模型,我们将工业增加值增速数据作了分段处理,导致模型只能预测出在一定经济条件下工业增加值的增速区间,无法得到更为精确的结果。另外,模型的结论,特别是数据来源扩展后的结论,还需要实践的进一步检验。
14
参考文献:
[1] 方匡南,吴见彬,朱建平、谢邦昌:随机森林方法研究综述[J];统计与信息论坛,第26卷第3期,2011(3)
[2] Brence J R, Brown D E:Improving the Robust Random Forest Regression Algorithm [R]. Systems and Information Engineering Technical Papers, Department of Systems and Information Engineering, University of Virginia,2006
[3] 方匡南,朱建平:基于随机森林方法的基金超额收益方向预测与交易 策略研究[J];经济经纬,2010(2)
[4] Yasushi U, Hiroyuki M:Credit Risk Evaluation of Power Market Players with Random Forest[J]. Transcations on Power and Energy, 2008, 128(1)
[5] 田苗苗;数据挖掘之决策树方法概述[J],长春大学学报,2004年06期 [6] 张华伟、王明文、甘丽新:基于随机森林的文本分类模型研究[J];山东大学学报(理学版),2006年03期
[7] 鲁为、王枞:决策树算法的优化与比较[J];计算机工程,2007年16期 [8] Jiawei Han, Micheline Kamber:数据挖掘概念与技术[M],范明,孟小峰译;北京:机械工业出版社,2008
[9] 方匡南:基于数据挖掘的分类和聚类算法研究及R语言实现[M];2007
15