运行pipes作业。
用法:hadoop pipes [-conf ] [-jobconf , , ...] [-input ] [-output ] [-jar ] [-inputformat ] [-map ] [-partitioner ] [-reduce ] [-writer ] [-program ] [-reduces ] 命令选项 -conf -jobconf , , ... -input -output -jar -inputformat -map -partitioner -reduce -writer -program -reduces 输入目录 输出目录 Jar文件名 InputFormat类 Java Map类 Java Partitioner Java Reduce类 Java RecordWriter 可执行程序的URI reduce个数 描述 作业的配置 增加/覆盖作业的配置项 version
打印版本信息。 用法:hadoop version
CLASSNAME
hadoop脚本可用于调调用任何类。 用法:hadoop CLASSNAME 运行名字为CLASSNAME的类。 5. 管理命令
hadoop集群管理员常用的命令。
balancer
运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。参考Rebalancer了解更多。
用法:hadoop balancer [-threshold ] 命令选项 -threshold 描述 磁盘容量的百分比。这会覆盖缺省的阀值。 daemonlog
获取或设置每个守护进程的日志级别。
用法:hadoop daemonlog -getlevel 用法:hadoop daemonlog -setlevel
命令选项 -getlevel datanode [-rollback] 命令选项 -report -safemode enter 描述 描述 打印运行在的守护进程的日志级别。这个命令内部会连接 设置运行在的守护进程的日志级别。这个命令内部会连接 报告文件系统的基本信息和统计信息。 | 安全模式维护命令。安全模式是Namenode的一个状态,这种状leave | get | wait 态下,Namenode 1. 不接受对名字空间的更改(只读) 2. 不复制或删除块 Namenode会在启动时自动进入安全模式,当配置的块最小百分比数满足最小的副本数条件时,会自动离开安全模式。安全模式可以手动进入,但是这样的话也必须手动关闭安全模式。 -refreshNodes 重新读取hosts和exclude文件,更新允许连到Namenode的或那些需要退出或入编的Datanode的集合。 -finalizeUpgrade 终结HDFS的升级操作。Datanode删除前一个版本的工作目录,之后Namenode也这样做。这个操作完结整个升级过程。 -upgradeProgress status | details | force -metasave filename 请求当前系统的升级状态,状态的细节,或者强制升级操作进行。 保存Namenode的主要数据结构到属性指定的目录下的文件。对于下面的每一项,中都会一行内容与之对应 1. Namenode收到的Datanode的心跳信号 2. 等待被复制的块 3. 正在被复制的块 4. 等待被删除的块 -setQuota 为每个目录 设定配额。目录配额是一个长整... 型整数,强制限定了目录树下的名字个数。 命令会在这个目录上工作良好,以下情况会报错: 1. N不是一个正整数,或者 2. 用户不是管理员,或者 3. 这个目录不存在或是文件,或者 4. 目录会马上超出新设定的配额。 -clrQuota 为每一个目录清除配额设定。 ... 命令会在这个目录上工作良好,以下情况会报错: 1. 这个目录不存在或是文件,或者 2. 用户不是管理员。 如果目录原来没有配额不会报错。 -help [cmd] 显示给定命令的帮助信息,如果没有给定命令,则显示所有命令的帮助信息。 secondarynamenode
运行HDFS的secondary namenode。
用法:hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]
命令选项 -checkpoint [force] 描述 如果EditLog的大小 >= ,启动Secondary namenode的检查点过程。 如果使用了-force,将不考虑EditLog的大小。 -geteditsize 打印EditLog大小。 5.2.2 进程管理
1. 查看当前系统中启动的进程
命令如下: # jps
执行结果如下:
2. 重启NameNode和DateNode进程
脚本是启动和停止hadoop后台程序,“—config”参数指定启动程序时用到的配置文件
目录。
命令如下:
# /usr/hdp/current/hadoop-client/sbin/ --config
/usr/hdp/current/hadoop-client/conf stop {namenode/datenode}
# /usr/hdp/current/hadoop-client/sbin/ --config
/usr/hdp/current/hadoop-client/conf start {namenode/datenode}
5.2.3 可靠性管理
Hadoop集群中的主机在某些情况下会出现宕机或者系统损坏的问题,一旦遇到这些问题,HDFS文件系统中的数据文件难免会产生损坏或者丢失,为了保证HDFS文件系统的可靠性,可以采取以下策略: 1. 冗余副本策略
更改集群冗余副本的复制因子为5,从而避免某台节点主机损坏导致数据丢失的情况,这里我们有两种方式来设置复制因子。
第一种是通过WEB界面,进入到HDFS配置中修改Block replication的参数值。
第二种方式是在Shell命令行模式下,修改配置文件,将“”的值设置为5,然后重启NameNode和DataNode进程。
# vi /etc/hadoop/ 5