Hadoop原理期末作业
一、搭建一个由三个节点构成的完全分布式非HA集群;
1、主机角色分配: 主机名称 主机IP 姓名简写+学号+Master 192.168.30.10 NameNode 角色 ResourceManager 2、搭建HDFS集群:
(1)core-site.xml配置文件代码及注释所编辑的代码行作用:(5分)
(2)hadoop-env.sh配置文件代码及注释所编辑的代码行作用:(5分)
(3)hdfs-site.xml配置文件代码及注释所编辑的代码行作用:(5分)
(4)slaves配置文件代码:(1分)
(5)将Hadoop配置到/etc/profile系统环境变量;(2分)
(6)批量启动HDFS集群,查看各个节点的进程,并截图,要求截图中必须含有用户及主机名;(5分)
2、搭建简单yarn集群:
(1)yarn-site.xml配置文件的内容及注释所编辑的代码行作用;(5分)
(2)批量启动Yarn集群,查看各个节点的进程,并截图,要求截图中每行必须含有用户及主机名;(5分)
二、使用MapReduce编写一个简单程序统计指定文件中英文单词出现的次数 : 1、数据目录:
(1)数据源目录:HDFS文件系统中/wordcount/input/:自定义一个文本文件;
NodeManager NodeManager 姓名简写+学号+Slave01 192.168.30.20 姓名简写+学号+Slave02 192.168.30.30 DataNode、SecondNameNode DataNode (2)目标输出目录:HDFS文件系统中/wordcount/output/
2、程序代码:(三个类)客户端生成工程Jar,且该工程Jar包在Hadoop的运行平台为本地模式:Local(10分)
3、查看HDFS中输出结果并截图 (1)运行工程jar的完整格式;(3分)
(2)使用hdfs文件系统命令查看:生成的统计文件内容,并截图。(2分) 注意:
1、必须以pdf格式提交:
(1)为文档添加水印:学生姓名+学号; (2)作业文件名:学生姓名+学号+Hadoop.pdf; 2、作业提交截止时间:2020-07-14 18:00。