龙源期刊网 http://www.qikan.com.cn
Spark大数据处理平台的构建及应用
作者:蔡文涛
来源:《中国新通信》2016年第15期
【摘要】 本文简述了大数据产生的原因及背景,并对大数据的4个特点进行了说明:数据体量巨大,数据种类繁多,流动速度快,价值密度低。由此引出对大数据处理平台的需求,针对当前最为流行的Spark处理平台,介绍了环境平台的搭建过程及可能的相关分析应用,为相关人员开展大数据分析处理工作提供一定参考。 【关键字】 大数据分析 Hadoop Spark 内存计算 一、引言
近年来,大数据成为工业界与学术界关注的热点,因为随着存储设备容量的快速增长、CPU处理能力的大幅提升、网络带宽的不断增加,也为大数据时代提供了强有力的技术支撑。从web1.0到web2.0,每个用户都成为一个自媒体,一个互联网内容的提供者,这种数据产生方式的变革更是推动着大数据时代的到来。 二、相关研究
什么是大数据呢?大数据是由结构化与非结构化数据组成的,其中10%为结构化数据,存储于各类数据库中,90%为非结构化数据,非结构化数据如图片、视频、邮件、网页等,现如今,大数据应用以渗透到各行各业,数据驱动决策,信息社会智能化程度大幅提高。目前,国内相关技术主要集中在数据挖掘相关算法、实际应用及有关理论方面的研究,涉及行业比较广泛,包括零售业、制造业、金融业、电信业、网络相关专业、医疗保健及科学领域,单位集中在部分高等院校、研究所和公司,特别是在IT等新兴领域,阿里巴巴、腾讯、百度等巨头对技术发展推动作用巨大,而这些互联网巨头们在大数据处理中,又纷纷采用了Hadoop、Spark这一处理框架。
三、基于spark的大数据处理平台 3.1大数据平台搭建
环境说明:3台装有Ubuntu14.04操作系统的PC机,Hadoop 2.6.0,Spark1.6.0。 Hadoop环境的搭建首先从apache官网下载合适版本的Hadoop代码,本文中安装的Hadoop版本为Hadoop 2.6.0。首先需要在各台实验PC机之间设置SSH免密码登录,无密码登录的原理:用户在 master上生成一个密钥对,包括一个公钥和一个私钥,并将公钥复制到所有的 slave上。然后当 master 通过 SSH 连接 slave 时, slave 就会生成一个随机数并用 master 的公钥对随机数进行加密,并发送给 master ,master用自己的私钥进行解密得到解密数,并将解
龙源期刊网 http://www.qikan.com.cn
密数回传给slave,slave确认解密数无误之后就允许master不输入密码进行连接了,通过免密码登录主节点于从节点之间即可进行数据计算结果的快速交互。随后确认本机上是否安装了jdk,如未安装需要先安装Java的jdk,本环境中使用的是jdk1.8.0版本。
然后将下载的Hadoop文件解压到某个目录下,进行Hadoop的配置过程,涉及的配置文件有7个,分别为hadoop-env.sh,yarn-env.sh,slaves,core-site.xml,hdfs-site. xml,mapred-site.xml,yarn-site.xml,具体配置参数可查看相关教程。在主节点(master)配置完毕后,将整个Hadoop文件夹依次拷贝到各个slave节点。Hadoop安装完毕后,即可启动验证,首先格式化Hadoop节点,执行以下命令,只需格式一次: $hadoop namenode -format
进入Hadoop目录下的sbin文件夹,启动Hadoop, $./start-all.sh 检查Hadoop进程, $jps
master节点上有如下进程,如图1:
slave节点上有如下进程,如图2:
龙源期刊网 http://www.qikan.com.cn
表明Hadoop集群已配置完成。
安装完Hadoop后,即可进行Spark安装文件的配置,基本同Hadoop的配置相似,将Spark安装完毕后,可以启动spark-shell查看安装是否成功。 3.2大数据平台分析
spark集群处理环境搭建完毕后,我们可以使用其进行简单的数据分析,spark1.6.0中也为我们提供了示例代码,涵盖流计算、图计算、机器学习、sql查询处理等程序,用户可以方便的参考学习,从而进行自己的开发应用。 参 考 文 献
[1]王珊,王会举,覃雄派,周烜. 架构大数据:挑战、现状与展望[J]. 计算机学报. 2011(10)
[2]樊嘉麒. 基于大数据的数据挖掘引擎[D]. 北京邮电大学 2015