首页 > 学生作文 > 读后感 > 读后感800字 >

2020年福建省高职院校技能大赛高职组

由天下分享时间：2025/2/1 21:33:59 加入收藏我要投稿点赞

2．赛场工作人员由赛项执委会统一聘用并进行工作分工，进入竞赛现场须佩戴赛项执委会统一提供的胸牌。

3．赛场工作人员需服从赛项执委会的管理，严格执行赛项各项比赛规则，执行各项工作安排，积极维护好赛场秩序，坚守岗位，为赛场提供有序的服务。

4．赛场工作人员进入现场，不得携带任何通讯工具或与竞赛无关的物品。

5．参赛队进入赛场，现场裁判应按规定审查参赛选手带入赛场的物品，如发现不允许带入赛场的物品，交由参赛队随行人员保管，赛场不提供保管服务。

6．赛场工作人员在竞赛过程中不回答选手提出的任何有关比赛技术问题，如遇争议问题，应及时报告裁判长。

- 21 -

附件一：大数据技术与应用赛项竞赛试题（样卷）

近年来随着IT产业的加速发展，全国各地对IT类的人才需求也越来越多“ABC公司”为了明确今后IT产业人才培养方向，在多地进行IT公司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务，通过在招聘网站进行招聘信息的爬取，获取到公司名称、工作地点、岗位名称、招聘要求、招聘人数等信息，并通过对数据的清洗和分析，得出各地域招聘人数，“大数据”相关职位招聘数量，以绘制雷达图展示各地平均薪资情况。

为完成该项任务，你所在的小组计划选用在业界广泛应用的“Python和JAVA”语言，作为整个项目的基础语言，并综合利用requests模块、MapReduce、MySQL、Flask开源框架、Jinja2模板引擎和ECharts组件提高开发效率并实现项目要求，由于本次为模拟任务，总数据量不会过大，项目组计划使用分布式节点Hadoop模式，本次项目环境搭建采用服务器集群方式，配置了小规模的技术演示环境，通过在招聘网站上爬取到的相关信息，使用requests模块、Hive、Python、JAVA等手段对数据进行爬取、清洗、整理、计算、表达、分析，力求实现对IT人才就业信息拥有更清晰的掌握。请按照下面步骤完成本次技术展示任务，并提交技术报告。

- 22 -

任务一：Hadoop相关组件安装部署（15分）

当前环境中已安装Hadoop运行环境和MySQL数据库，相关安装信息如下表所示，请在此环境基础上按照相关操作步骤安装Hive组件。

1. 将指定路径下的Hive安装包解压并更名； 2. 设置Hive环境变量； 3. 编辑Hive相关配置文件； 4. 初始化Hive元数据； 5. 启动并保存输出结果。

任务二：数据采集与数据预处理（20分）

1. 从指定招聘网站中抓取数据，提取有效数据项，并保存为json格式文件；

2. 设置post请求参数并将信息返回给变量response； 3. 将提取数据转化成json格式，并赋值变量；

4. 用with函数创建json文件，通过json方法，写入json数据； 5. 爬取的数据需要导入hadoop平台进行数据清洗与分析，在HDFS文件系统中创建文件夹，并将json文件上传到该文件夹下。任务三：数据清洗与分析（25分）

1. 为便于数据分析与可视化，需要对爬取出的数据进行清洗，使用Java语言编写数据清洗的MapReduce程序；

- 23 -

2. 将清洗程序上传至hadoop，并对HDFS的原始数据进行清洗； 3. 将清洗后的数据加载到Hive数据仓库中； 4. 通过运行HQL命令完成数据分析统计；

5. 在hive中执行sql脚本，并查看表中大数据核心技能的出现次数。任务四：数据可视化（20分）