龙源期刊网 http://www.qikan.com.cn
Hadoop架构的关键技术的分析与研究
作者:王海波
来源:《科技风》2016年第22期
摘 要:随着信息时代的飞速发展。海量数据的应用处理已经成为大家重点关注的首要问题。论文首先对Hadoop技术的产生及特点进行介绍,然后重点分析了Hadoop的两大关键技术分布式文件系统(HDFS)和MapReduce编程模型,最后对Hadoop的关键技术进行总结并给出一些看法,并对未来发展方向进行了展望。 关键词:Hadoop;HDFS体系结构;MapReduce
随着信息时代的飞速发展,随着各种数据的迅猛增长。海量数据的应用处理已经成为大家重点关注的首要问题。在很多传统的行业里,大量数据的查询与存储主要还是依靠关系型数据库管理系统。而Hadoop平台的出现,提供了廉价的处理大数据的能力。完美的解决了在企业里海量数据处理和应用的要求,使得Hadoop成为现代企业处理海量数据的最好的选择。 论文首先对Hadoop技术的产生及特点进行介绍,然后重点分析了Hadoop的两大关键技术分布式文件系统(HDFS)和MapReduce编程模型,最后对Hadoop的关键技术进行总结并给出一些看法。
一、Hadoop技术介绍
Apache公司于2005年最先引入Hadoop,它源于google公司开发的MapReduce和Google File System(GFS)项目。Hadoop因为对并行分布处理“大数据”有利而得到特别重视,是新一代的架构和技术。Hadoop是一个分布式的计算平台,用户可以使用它开发并处理海量数据的各种应用软件。HDFS和MapReduce是Hadoop框架中最为核心的设计。HDFS主要负责海量数据的存储,MapReduce主要负责数据的计算。 二、Hadoop的关键技术之——HDFS体系结构
HDFS被称为分布式文件系统,是Hadoop的核心技术。HDFS的设计使得它适合运行在通用硬件上,可以部署在在廉价的机器上。HDFS的优势:HDFS可以处理超大文件,可以存储数GB级、数TB级、数PB级的超大文件;HDFS可以集群规模动态扩展,数百甚至数千个节点能够动态的加入到集群中;HDFS又具有主容错的优势,在集群中的节点挂点可以由其他的节点代替;HDFS一般不处理交互式处理,主要处理批处理,采用流式读写,可以“一次写入,多次读取”,当数据源生成一个数据集之后,这个数据集会被复制分发到不同的存储节点,可以响应各类数据分析任务的请求。
HDFS更加看重的是数据的吞量,不太看重数据的访问速度;由于HDFS 的安全、可靠及高可用性,Hadoop可以采用的硬件要求不高,可以使用廉价的商用机器集群。在分布式计算