Hadoop平台在大数据处理中的应用研究
黄素萍;葛萌
【摘 要】介绍Hadoop平台的基本概念,着重分析其中的HDFS和MapReduce这两种核心技术。详细描述Hadoop集群环境的搭建过程,将Hadoop应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。实验结果表明,数据量越大,集群节点数越多,Hadoop集群处理数据的能力就越强。
【期刊名称】《现代计算机(普及版)》 【年(卷),期】2013(000)010 【总页数】4页(P12-15)
【关键词】Hadoop;HDFS;MapReduce;集群环境 【作 者】黄素萍;葛萌
【作者单位】咸阳师范学院信息工程学院,咸阳 712000;咸阳师范学院信息工程学院,咸阳 712000 【正文语种】中 文 【中图分类】工业技术
研 究 与 开 发现代计算机2013.10 中Hadoop 平台在大数据处理中的应用研究 *黄素萍, 葛 萌(咸阳师范学院信息工程学院, 咸阳 712000)关键词: Hadoop; HDFS; MapReduce; 集群环境*基金项目:咸阳师范学院专项科研计划项目(No.09XSYK211) 收稿日期:2013-08-30 修稿日期:2013-09-30 作者简介:黄
素萍(1977-),女,讲师,硕士,研究方向为网络应用和安全介绍 Hadoop 平台的基本概念,着重分析其中的 HDFS 和 MapReduce 这两种核心技术。 详 细描述 Hadoop 集群环境的搭建过程,将 Hadoop 应用到一个文件发布系统中,针对不同数 量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。 实验结果表明,数据量 越大,集群节点数越多,Hadoop 集群处理数据的能力就越强。摘 要:文章编号:1007-1423(2013)29-0012-04DOI:10.3969/j.issn.1007-1423.2013.29.0030 引 言随着网络信息的爆炸式增长, 仅靠升级计算机硬 件设备来提高数据处理能力的这种方式已经显得“力 不从心”。 为了适应信息高速增长和高效处理的需求, 由Google 公司提出的云计算技术—— —Hadoop,被视为 解决高性能处理大数据的有效方案, 目前已成为国内 外云计算的热门研究对象。 通过研究 Hadoop 的分布式 存储框架———HDFS (Hadoop Distributed File System)和MapReduce 分布式计算框架的原理, 在集群环境中将 Hadoop 应用到实际的大数据存储中, 通过实验验证 Hadoop 在大数据处理中的优越性。1Hadoop 基本原理Hadoop 是 Apache 基金会开发的一个分布式系统 基础架构,是一个处理大规模数据的软件平台。 它具有 海量存储(能够处理 PB 级别的数据)、成本低、高效率 和可靠性等特点[1]。 主要包括两个核心功能:HDFS 和 MapReduce。 HDFS 负责对大规模的数据进行分布式存 储,MapReduce 负责对大规模的数据进行分布式计算。 (1)HDFSHDFS 是一个运行在普通 PC 之上的分布式文件系统。它采用主/从(Master /Slave)结构来搭建集群系统, 通常由一个 Master 节点和多个 Slave 节点构成(考虑到 Master 节点失效的问题,Facebook 公司对此进行了修 正,采用两个节点充当 Master,一个是 Active,另一个是 Standby, 当 Active 节点失效后自动切换到 Standby 节 点)。 Master 节点称作名字节点(NameNode),通常由高性 能的服务器来充当,它主要负责元数据的管理工作,包 括文件系统的名字空间管理和客户机对文件的访问操 作等。
Slave 节点称作数据节点(DataNode) ,在集群环境 中通常由廉价 PC 构成,主要负责对节点上的数据进行 存储管理和响应客户端的读写请求。如图 1 所示,HDFS 中文件的目录结构独立存储在 NameNode 上,对于实际的每一个数据文件都被拆分成 若干个 Block (默认是 64M), 这些 Block 冗余存储在 DataNode 集合的数据里。NameNode 负责保存整个文件 系统的目录信息、文件信息以及相应的分块信息。 (2)Map/ReduceMap/Reduce 是 Hadoop 平台用来进行海量数据并 行运算的计算模型。 该模型对数据的处理过程主要分 成2个阶段:先进行 Map 的阶段和后进行 Reduce 的阶段。大概的计算过程就是:先将数据分成若干份,对每趤 趯,葛萌基金项目:咸阳师范学院专项科研计划项目
(No.09XSYK211)收稿日期:2013-08-30 修稿日期:2013-09-30作者简介:黄素萍(1977-),女,讲师,硕士,研究方向为网络应用和安全介绍 Hadoop 平台的基本概念,着重分析其中的 HDFS 和 MapReduce 这两种核心技术。 详细描述 Hadoop 集群环境的搭建过程,将 Hadoop 应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。 实验结果表明,数据量越大,集群节点数越多,Hadoop 集群处理数据的能力就越强。摘要:0引言随着网络信息的爆炸式增长, 仅靠升级计算机硬件设备来提高数据处理能力的这种方式已经显得“力不从心”。 为了适应信息高速增长和高效处理的需求,由Google 公司提出的云计算技术—— —Hadoop,被视为解决高性能处理大数据的有效方案, 目前已成为国内外云计算的热门研究对象。 通过研究 Hadoop 的分布式存储框架——MapReduce 分布式计算框架的原理, 在集群环境中将Hadoop 应用到实际的大数据存储中, 通过实验验证Hadoop 在大数据处理中的优越性。Hadoop 是 Apache 基金会开发的一个分布式系统基础架构,是一个处理大规模数据的软件平台。 它具有海量存储(能够处理 PB 级别的数据)、成本低、高效率和可靠性等特点[1]。 主要包括两个核心功能:HDFS 和