先电大数据平台
用户手册
版本:先电
发布日期:2017年02月21日
南京第五十五所技术开发有限公司
版本修订说明
修订版本 修订时间 2015年10月28日 年1月19日 修订说明 先电大数据平台用户册 增加GRE、VLAN网络的部署方法 2016年4月12日 为防止与Java Web中MapReduce开发混淆。删除hadoop案例开发 2016年11月1日 更新基于Ambari版本 二次开发的hadoop平台 年12月30日 更新镜像中与perl版本不兼容问题的解决办法; 年01月10日 升级系统版本为centos7,升级HDP版本至。 年02月13日 年02月21日 更新软件包logo 更新软件包logo,修改文档“基于项目的协同过滤” 表格参数 2017年04月21日 更新用户手册
目 录
1 概述 ...................................................... 错误!未定义书签。
大数据简介 ........................................ 错误!未定义书签。 先电大数据平台简介 ................................ 错误!未定义书签。
2 基本环境配置 .............................................. 错误!未定义书签。
配置主机名 ........................................ 错误!未定义书签。 修改hosts文件 .................................... 错误!未定义书签。 修改yum源 ........................................ 错误!未定义书签。 配置ntp .......................................... 错误!未定义书签。 配置SSH .......................................... 错误!未定义书签。 禁用Transparent Huge Pages ........................ 错误!未定义书签。 安装配置JDK....................................... 错误!未定义书签。
3 配置ambari-server ........................................ 错误!未定义书签。
安装MariaDB数据库 ................................ 错误!未定义书签。 安装配置ambari-server ............................. 错误!未定义书签。
4 配置ambari-agent ......................................... 错误!未定义书签。 5 部署管理Hadoop集群 ....................................... 错误!未定义书签。
部署Hadoop集群 ................................... 错误!未定义书签。 HDFS运维管理...................................... 错误!未定义书签。 MapReduce ......................................... 错误!未定义书签。
6 部署Hive数据仓库 ......................................... 错误!未定义书签。
部署Hive ......................................... 错误!未定义书签。 Hive用户指南...................................... 错误!未定义书签。
7 部署Hbase分布式列数据库 .................................. 错误!未定义书签。
部署HBase ........................................ 错误!未定义书签。
测试验证 .......................................... 错误!未定义书签。 HBase用户指南..................................... 错误!未定义书签。
8 部署Mahout数据挖据工具 ................................... 错误!未定义书签。
部署Mahout........................................ 错误!未定义书签。 测试验证 .......................................... 错误!未定义书签。
9 部署Pig数据分析平台 ...................................... 错误!未定义书签。
部署Pig .......................................... 错误!未定义书签。 Pig简介 .......................................... 错误!未定义书签。 运行案例 .......................................... 错误!未定义书签。
1 概述
1.1 大数据简介
“大数据”是一个体量特别大,数据类别特别庞杂的数据集合,并且这样的数据集无法用传统数据库工具或常规软件工具抓取、管理和处理其内容。大数据技术是指从各种各样类型的庞杂数据中,快速的获取有价值的信息的能力。适用于大数据的技术包括大规模并行处理数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台和可扩展的存储系统。
Apache的Hadoop项目是可靠的、可扩展的、开源的、分布式计算软件。Apache的Hadoop软件库是允许通过相对简单的程序模型构建计算集群为庞大的数据集进行分布式计算的框架。
Hadoop的设计思想可以将计算模式从单节点服务器扩展为数以千计的计算集群,每一个单独的服务器都提供自主的本地计算及存储能力。
对于高可用指标而言,Hadoop软件库自身可以通过检测和故障调试从应用层来实现高可用而不需要关心硬件底层的高可用性。所以提供一个计算集群上层的高可用服务对于集群故障修复而言就显得至关重要。
1.2 先电大数据平台简介
先电大数据平台是基于Ambari进行二次开发的Hadoop分布式集群配置管理工具,该平台通过安装向导来进行集群的搭建,简化了集群供应。同时,他还有一个监控组件,叫做Ambari-Metrics,可以提前配置好关键的运维指标(metrics),然后收集集群的中服务、主机等运行状态等信息,通过WEB的方式显示出来。我们可以直接查看Hadoop Core(HDFS和MapReduce)及相关项目(如HBase、Hive和HCatalog)是否健康。它的用户界面非常直观,用户可以轻松有效地查看信息并控制集群。
先电大数据平台支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。通