随着越来越多的项目加入Hadoop大家庭并成为集群系统运作的一部分,大数据处理系统需要负责协调工作的的成员。随着计算节点的增多,集群成员需要彼此同步并了解去哪里访问服务和如何配置,ZooKeeper正是为此而生的。 而在Hadoop执行的任务有时候需要将多个Map/Reduce作业连接到一起,它们之间或许批次依赖。Oozie组件提供管理工作流程和依赖的功能,并无需开发人员编写定制的解决方案。
Ambari是最新加入Hadoop的项目,Ambari项目旨在将监控和管理等核心功能加入Hadoop项目。Ambari可帮助系统管理员部署和配置Hadoop,升级集群以及监控服务。还可通过API集成与其他的系统管理工具。
Apache Whirr是一套运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr现今相对中立,当前支持Amazon EC2和Rackspace服务。
机器学习:Mahout
各类组织需求的不同导致相关的数据形形色色,对这些数据的分析也需要多样化的方法。Mahout提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。
使用Hadoop
通常情况下,Hadoop应用于分布式环境。就像之前Linux的状况一样,厂商集成和测试Apache Hadoop生态系统的组件,并添加自己的工具和管理功能。 搭建环境
用于Hadoop的Spark运行环境(Centos 6.5 64位)
集成软件:Spark1.3.1、Hadoop2.6.0、Hue3.8.1、Spark-jobserver0.5.1、Spark-notebook0.6.0、Nginx1.9.1
¥0/月
立即购买
深入了解
阿里云上云培训-大数据专业认证(ACP)考试认证课程
通过原厂讲师的视频讲解,全面,系统的阐述所有阿里云大数据专业认证考试所需要的知识点
¥193/月
立即购买
一键运维
Hadoop Hbase Hive安装部署维保
1.分析客户需求 2.提供解决方案 3.安装部署 4.性能调优
¥7000/次
立即购买
解决方案
网聚宝全网作战大屏_可视化数据监控平台
企业级大数据分析中心,实时追踪店铺运营,让数据颠覆营销
¥200/月
本文地址:https://yq.aliyun.com/articles/72426#