好文档 - 专业文书写作范文服务资料分享网站

2019年全国职业院校技能大赛

天下 分享 时间: 加入收藏 我要投稿 点赞

引擎和ECharts组件提高开发效率并实现项目要求,由于本次为模拟任务,总数据量不会过大,项目组计划使用分布式节点Hadoop模式,本次项目环境搭建采用服务器集群方式,配置了小规模的技术演示环境,通过在招聘网站上爬取到的相关信息,使用requests模块、Hive、Python、JAVA等手段对数据进行爬取、清洗、整理、计算、表达、分析,力求实现对IT人才就业信息拥有更清晰的掌握。 请按照下面步骤完成本次技术展示任务,并提交技术报告。 任务一:Hadoop相关组件安装部署(15分)

当前环境中已安装Hadoop运行环境和MySQL数据库,相关安装信息如下表所示,请在此环境基础上按照相关操作步骤安装Hive组件。

编号 名称 1 Hadoop 2 MySQL Hive安装3 包 Mysql JDBC 4 驱动 考试环境信息表 端口账号 密码 号 路径 root passwd /usr/local/src/hadoop root passwd 3306 /usr/local/src/mysql /opt/software/ /opt/software/ 注意:以下操作必须使用绝对路径。环境变量只对当前root用户生效。

1. 将指定路径下的Hive安装包解压并更名; 2. 设置Hive环境变量; 3. 编辑Hive相关配置文件; 4. 初始化Hive元数据; 5. 启动并保存输出结果。

- 31 -

任务二:数据采集与数据预处理(20分)

1. 从指定招聘网站中抓取数据,提取有效数据项,并保存为json格式文件; 2. 设置post请求参数并将信息返回给变量response; 3. 将提取数据转化成json格式,并赋值变量;

4. 用with函数创建json文件,通过json方法,写入json数据; 5. 爬取的数据需要导入hadoop平台进行数据清洗与分析,在HDFS文件系统中创建文件夹,并将json文件上传到该文件夹下。 任务三:数据清洗与分析(25分)

1. 为便于数据分析与可视化,需要对爬取出的数据进行清洗,使用Java语言编写数据清洗的MapReduce程序; 2. 将清洗程序上传至hadoop,并对HDFS的原始数据进行清洗; 3. 将清洗后的数据加载到Hive数据仓库中; 4. 通过运行HQL命令完成数据分析统计;

5. 在hive中执行sql脚本,并查看表中大数据核心技能的出现次数。 任务四:数据可视化(20分)

为更好的将数据分析结果表达出来,需要对数据分析的结束进行可视化呈现,可视化呈现,本次数据可视化需要呈现三部分内容: 1. 按要求使用柱状图展示各城市招聘人数,并在前端显示。要求: 主标题:各地域招聘人数 副标题:(--招聘人数变化趋势)

- 32 -

横坐标:城市信息,纵坐标:招聘人数 输出柱状图

2.按要求使用折线图展示“大数据”相关职位招聘数量差异,并在前端显示。要求:

主标题:大数据相关职位分析 副标题:(--招聘数量变化趋势) 横坐标:岗位名称,纵坐标:岗位数量 输出折线图

3.通过雷达图展示各地平均薪资的情况。要求: 主标题:各地平均薪资 输出雷达图

任务五:完成分析报告(15分) 请结合数据分析结果回答以下问题:

1. 根据分析结果说明大数据岗位所需要的主要技能包含哪些,为什么(4分)

2. 根据分析结果说明各地大数据产业发展情况(4分)

3. 根据市场需求分析,大数据行业的人才培养方向有哪些,为什么(4分)

4. 请简述,今后大数据产业地域发展方向在哪里(3分) 六、 竞赛结果提交要求 (一)提交方式

- 33 -

任务成果需拷贝至提供的U盘中。在U盘中以XX赛位号建一个文件夹(例如01),将所有任务成果文档保存至该文件夹中。 (二)文档要求

竞赛提交的所有文档中不能出现参赛队信息和参赛选手信息,竞赛文档需要填写参赛队信息时以赛位号代替(XX代表赛位号)。

- 34 -

2019年全国职业院校技能大赛

引擎和ECharts组件提高开发效率并实现项目要求,由于本次为模拟任务,总数据量不会过大,项目组计划使用分布式节点Hadoop模式,本次项目环境搭建采用服务器集群方式,配置了小规模的技术演示环境,通过在招聘网站上爬取到的相关信息,使用requests模块、Hive、Python、JAVA等手段对数据进行爬取、清洗、整理、计算、表达、分析,力求实现对IT人才就业信息拥有更清晰的掌握。请按照下
推荐度:
点击下载文档文档为doc格式
92lmm5emvz507xn0uyq64mg6283nif00q0i
领取福利

微信扫码领取福利

微信扫码分享