宏观经济景气分析。是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法,经过十多年时间和不断完善,已形成制度,定期提供景气分析报告,对宏观经济运行状态起到晴雨表和报警器的作用,便于国务院和有关部门及时采取宏观调控措施。以经常性的小调整,防止经济的大起大落。企业景气调查分析。是全国的大中型各类企业中,采取抽样调查的方法,通过问卷的形式,让企业负责人回答有关情况判断和预期。内容分为两类:一是对宏观经济总体的判断和预期;一是对企业经营状况的判断和预期,如产品订单、原材料购进、价格、存货、就业、市场需求、固定资产投资等。八、预测分析
宏观经济决策和微观经济决策,不仅需要了解经济运行中已经发生了的实际情况,而且更需要预见未来将发生的情况。根据已知的过去和现在推测未来,就是预测分析。
统计预测属于定量预测,是以数据分析为主,在预测中结合定性分析。统计预测的方法大致可分为两类:一类是主要根据指标时间数列自身变化与时间的依存关系进行预测,属于时间数列分析;另一类是根据指标之间相互影响的因果关系进行预测,属于回归分析。 挖掘方法:
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则等。这些方法从不同的角度对数据进行挖掘。
(1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。
(2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。
(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。
(4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。
神经网络方法:
神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。 基于深度学习框架的方法:
深度学习是多学科领域的交叉,比如神经网络、人工智能、图建模、最优化理论、模式识别和信号处理。需要注意的是本文所描述的深度学习是在信号和信息处理内容中学习出一种深度结构。它不是对信号和信息处理知识的理解,尽管某些意义上说它俩相似,但深度学习重点在于学习出一种深度网络结构,是实实在在存在的一种计算机可存储结构,这种结构表示了信号的某种意义上的内涵。从06年开始,深度结构学习方法
(深度学习或者分层学习方法)作为机器学习领域的新的研究方向出现。由于三种主要领域的技术进步(比如芯片处理性能的巨大提升,数据爆炸性增长和机器学习与信信号处理研究的进步),在过去的短短几年时间,深度学习技术得到快速发展,已经深深的影响了学术领域,其研究涉及的应用领域包括计算机视觉、语音识别、对话语音识别、图像特征编码、语意表达分类、自然语言理解、手写识别、音频处理、信息检索、机器人学。
深度学习的具体模型有
自动编码器(稀疏自动编码器、降噪自动编码器)、深度置信网络以及卷积神经网络。
3、简述大数据分析流程和框架、大数据存储模式与服务机制、大数据建模分析方法和深度学习理论
大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。
可分为三个主要环节:数据抽取与集成、数据分析以及数据解释。
数据的处理与集:成主要是完成对于己经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。首先将这些结构复杂的数据转换为单一的或是便于处理的结构。还需对这些数据进行“去噪”和清洗,以保证数据的质量以及可靠性。现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎,基于联邦数据库或中间件方法的引擎,基于数据流方法的引擎,基于搜索引擎的方法。
数据分析:这是整个大数据处理流程的核心。因为在数据分析的过程中,会发现数据的价值所在。经过上一步骤数据的处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析.传统的数据处理分析方法有挖掘建模分析(数据挖掘方法),智能建模分析(机器学习方法),统计分析等。
数据解释:对于广大的数据信息用户来讲,最关心的并非是数据的分析处理过程,而是对大数据分析结果的解释与展示。数据解释常采用的方法有:可视化方式,人机交互方式,分析图表方式等,其中常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、向像素的技术和分布式技术等。
1.4.1 MapReduce
MapReduce系统主要由两个部分组成:Map和Reduce. MapReduce的核心思想在于“分而治之”,也就是说,首先将数据源分为若干部分,每个部分对应一个初始的键植( Key/ Value)对,并分别给不同的Map任务区处理,这时的Map对初始的键一值(Key/
Value)对进行处理,产生一系列中间结果Key/Value对,MapReduce的中间过程Shuffle将所有具有相同Key值的Value值组成一个集合传递给Reduce环节;Reduce接收这些中间结果,并将相同的Value值合并,形成最终的较小Value值的集合。
1.4.2分布式文件系统
分布式文件系统GFS。这个分布式文件系统是个基于分布式集群的大型分布式处理系统,作为上层应用的支撑,为MapReduce计算框架提供低层数据存储和数据可靠性的保障。GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储。
1.4.3分布式并行数据库(BigTable)
BigTable中的数据均以子表形式保存于子表服务器上,主服务器创建子表,最终将数据以UFS形式存储于GFS文件系统中;同时客户端直接和子表服务器通信,Chubby服务器用来对子表服务器进行状态监控;主服务器可以查看Chubby服务器以观测子表状态检查是否存在异常,若有异常则会终比故障的子服务器并将其任务转移至其余服务器.
1.4.4开源实现平台Hadoop
现在Hadoop己经发展为一个包括分布式文件系统(Hadoop Distributed File System, HDFS)、分布式数据库(HBase 、Cassandra)以及数据分析处理MapReduce等功能模块在内的完整生态系统(Ecosys-tem),现己经发展成为目前最流行的大数据处理平台。在这个系统中,以MapReduce算法为计算框架,HDFS是一种类似于GFS的分布式文件系统,可以为大规模的服务器集群提供高速度的文件读写访问。HBase是一种与BigTable类似的分布式并行数据库系统,可以提供海量数据的存储和读写,而且兼容各种结构化或非结构化的数据。
3.1大数据分析流程和框架
1)大数据的预处理阶段:大数据的预处理过程即一个数据的清洗过程,从字而上理解是将已存储好的数据进行一个去“脏”的过程。更确切的说法是将存储数据中可识别的错误去除。在数据仓库中和数据挖掘过程中,数据清洗是使得数据在一致
(Consisten-oy)、正确性(C orreotness}、完整性(Completeness)和最小性(M inimality)四个指标满足上达到最优。
2)大数据的输入接口:在大数据的预处理阶段完成后,对其满足输入规范的数据进行统一管理,并将输入数据进行一定的特征提取和数据的关联分析。在通过使用输入接口的同时,开放算法接口模块卡,接收来自不同的算法,而对数据集进行分析和整理。
3)分析沙箱:分析沙箱就研究而言,相当于一个资源组,在这个资源组里,分析专家们能够根据个人的意愿对数据进行各种探索。在分析的整个流程中,沙箱为使用分析平台的专家们提供更为专业的模块接口和参数选择,方便分析人员提取更为有效的数据参数,来更加精确地展示分析结果。
4)大数据的输出接口:作为大数据分析的出口,为大数据的输出提供了统一的规范和标准。作为大数据展示的最后一道工序,大数据的输出接口应具备如下特点: (1)规范性、(2) 可复用性及剩余资料保存性、(3)模型化、(4)查询共享性、(5)索引性。
5)大数据的展示:可视化工具发展得如此迅速,同时也被越来越多地应用在各个领域,在大数据的结果展示中,采用数据可视化技术将更加高效形象地展示大数据的价值和鲜明的对比性。
3.2大数据存储模式与服务机制
分布式系统包含多个自主的处理单元,通过计算机网络互联来写作完成分配的任务。分布式系统更能适应现在分布广泛的企业的组织结构,更加可靠,响应速度更快。
3.2.1大数据存储模式
分布式文件系统:大数据存储需要多种技术的协同工作,其中文件系统为其提供最底层的存储能力的支持。分布式文件系统是一个基于C/S的应用程序,允许来自不同终端用户访问和处理服务器上的文件。GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储。
分布式键值系统:分布式键值系统用于存储关系简单的半结构化数据,可以看作是分布式表格系统的一种特例,它只提供基于主键的CRUD功能,一般用作分布式缓存。
分布式表格系统:分布式表格系统对外提供表格模型,用于存储较为复杂的半结构化数据。与分布式键值系统相比,它不仅支持简单的CRUD操作,还支持扫描某个主键范围的操作。与分布式数据库相比,分布式表格系统主要是单表操作。
分布式数据库:分布式数据库指的是多个物理上分散的数据库单元通过计算机网络互连组成的一个逻辑上统一的数据库。它对用户透明,一般是单机关系型数据库扩展而来。