2019年全国职业院校技能大赛

由天下分享时间：2025/3/16 19:39:09 加入收藏我要投稿点赞

引擎和ECharts组件提高开发效率并实现项目要求，由于本次为模拟任务，总数据量不会过大，项目组计划使用分布式节点Hadoop模式，本次项目环境搭建采用服务器集群方式，配置了小规模的技术演示环境，通过在招聘网站上爬取到的相关信息，使用requests模块、Hive、Python、JAVA等手段对数据进行爬取、清洗、整理、计算、表达、分析，力求实现对IT人才就业信息拥有更清晰的掌握。请按照下面步骤完成本次技术展示任务，并提交技术报告。任务一：Hadoop相关组件安装部署（15分）

当前环境中已安装Hadoop运行环境和MySQL数据库，相关安装信息如下表所示，请在此环境基础上按照相关操作步骤安装Hive组件。

编号名称 1 Hadoop 2 MySQL Hive安装3 包 Mysql JDBC 4 驱动考试环境信息表端口账号密码号路径 root passwd /usr/local/src/hadoop root passwd 3306 /usr/local/src/mysql /opt/software/ /opt/software/ 注意：以下操作必须使用绝对路径。环境变量只对当前root用户生效。

1. 将指定路径下的Hive安装包解压并更名； 2. 设置Hive环境变量； 3. 编辑Hive相关配置文件； 4. 初始化Hive元数据； 5. 启动并保存输出结果。

- 31 -

任务二：数据采集与数据预处理（20分）

1. 从指定招聘网站中抓取数据，提取有效数据项，并保存为json格式文件； 2. 设置post请求参数并将信息返回给变量response； 3. 将提取数据转化成json格式，并赋值变量；

4. 用with函数创建json文件，通过json方法，写入json数据； 5. 爬取的数据需要导入hadoop平台进行数据清洗与分析，在HDFS文件系统中创建文件夹，并将json文件上传到该文件夹下。任务三：数据清洗与分析（25分）

1. 为便于数据分析与可视化，需要对爬取出的数据进行清洗，使用Java语言编写数据清洗的MapReduce程序； 2. 将清洗程序上传至hadoop，并对HDFS的原始数据进行清洗； 3. 将清洗后的数据加载到Hive数据仓库中； 4. 通过运行HQL命令完成数据分析统计；

5. 在hive中执行sql脚本，并查看表中大数据核心技能的出现次数。任务四：数据可视化（20分）

为更好的将数据分析结果表达出来，需要对数据分析的结束进行可视化呈现，可视化呈现，本次数据可视化需要呈现三部分内容： 1. 按要求使用柱状图展示各城市招聘人数，并在前端显示。要求：主标题：各地域招聘人数副标题：（--招聘人数变化趋势）

- 32 -

横坐标：城市信息，纵坐标：招聘人数输出柱状图

2．按要求使用折线图展示“大数据”相关职位招聘数量差异，并在前端显示。要求：

主标题：大数据相关职位分析副标题：（--招聘数量变化趋势）横坐标：岗位名称，纵坐标：岗位数量输出折线图