好文档 - 专业文书写作范文服务资料分享网站

2017年全国职业院校技能大赛高职组大数据赛题

天下 分享 时间: 加入收藏 我要投稿 点赞

2017年度职业院校技能大赛 大数据技术与应用赛项 赛题

第一节 赛题

“四合影业”公司计划参与投拍一部电影,名为《青春的竞赛》。为提高票房收入,降低投资风险,需要了解电影市场的情况,包括何种类型的电影票房收入高,不同类型观众对电影的偏好等等。为此,四合影业公司计划聘请“TMS”大数据分析公司,收集并分析电影市场的相关信息,并最终给出分析报告。合作之前,“四合影业”需要“TMS”公司提出可行的技术解决方案。

为完成四合影业的项目,“TMS”公司选用了在业界广泛应用的“Python”语言,作为开发分析程序的基础语言,并综合利用numpy、pandas、matplotlib、scikit 模块和MapReduce技术提高开发效率,由于预计数据量会超过“T”级,“TMS”公司在技术方案中提出在一个高性能工作站集群上利用Hadoop平台提高数据处理能力,并利用Hive以及streaming技术提高效能和简化MapReduce过程。但此技术方案需要较高成本,为向“四合影业”展示该技术方案的合理性并达成与“四合影业”的合作,“TMS”公司先用廉价PC集群,配置了小规模的技术演示环境,并利用网络爬虫抓取了历年来影音娱乐行业的信息,数据量约为4G,随后开发了程序对数据进行清洗、整理、计算、表达、分析,力求展示 “TMS”技术方案的合理性和自身出色的技术能力。

作为“TMS”公司的技术人员,你们是这次技术方案展示的核心成员,请按照下面步骤完成本次技术展示任务,并提交技术报告。圆满完成展示并得到预期结果,“TMS”就能获得这个数百万元的项目合同,祝你们成功。

任务一、部署Hadoop平台,并根据计算对象调优Hadoop平台的性能(15分) 1、 按下面如下个步骤完成Hadoop环境的部署:

1) Hadoop系统存储于“/usr/local/hadoop” ,要求配置hadoop.tmp.dir目录存

放位置为“/usr/local/hadoop/tmp”

2) 配置hadoop的dfs.namenode.name.dir为/usr/local/hadoop/tmp/dfs/name 3) 配置hadoop的dfs.datanode.data.dir为/usr/local/hadoop/tmp/dfs/data 4) 格式化NameNode

5) 开启NameNode和DataNode守护进程

2、 按下面步骤建立用户目录,并导入存于竞赛平台arg目录中的数据文件dat0102.dat,并

完成Hadoop平台的性能测试:

1) 在hdfs中创建用户目录(如果系统用户为hadoop,请建立/user/hadoop) 2) 在hdfs中创建input目录,把数据文件上传至input目录

3) 运行hadoop-mapreduce-examples-2.7.3.jar查询特定字符串出现次数 4) 用hdfs命令查看输出结果。

本题要求将第4步运行结果的截屏保存于文件ans0102.jpg中。

3、 对Hadoop 平台进行性能调优,设置:

yarn.scheduler.maximum-allocation-mb-Xmx768m,设置

的值为系统内存减

的值为

1024MB,

mapreduce.map.memory.mb的值为1024MB,设置mapreduce.map.java.opts的值为

mapreduce.reduce.memory.mb

2048MB,设置

mapreduce.reduce.java.opts的值为 –Xmx1536m。重新启动hadoop。 本题要求提交修改后的配置文件,文件名为在原有文件名加前缀”ans0103_”。(5%)

任务二、数据抓取(30分)

1、 现在,网络爬虫抓取到约4G的数据,保存于arg目录的spider.log中,但其中既有电影

市场放映信息数据也有其他数据,通过分析数据样本,发现从网站“http://www.movie.com/ bor/”抓取的数据包含有效的电影市场数据,数据中有效数据项包括:电影名称、上映日期、上映场次数、院线城市、导演、演员、影片类型、票房收入,请从spider.log中筛选出一部分有效数据项,并以规定格式保存于ans0201.csv文件中。本题的赛前抽取参数是:数据文件spider.log、需要保存于ans0201.csv文件的有效数据项以及有效数据项的保存格式。

本题要求配置完成后在Hadoop平台上运行jps命令,要求jps运行结果的截屏保存于文件ans0101.jpg中

2、 网页 “http://movie.xtime.com/FilmId/ ”中包含观众对电影的评分信息,请编写程序

抓取网页(网页样本保存于task0202目录中)上电影的评分信息并计算其统计信息(统计方法指对某部电影的评分求极值或求平均值),本题的赛前抽取参数是统计方法以及网页样本,请参赛学生将本题的答案保存于ans0202.txt文件中,注意ans0202.txt文件中只能包含一个浮点型数字,保留4位小数,文件样例如下:

1.2345

3、 向Hadoop平台提交日志文件dat0203.log,并使用streaming和MapReduce机制编制程

序,统计日志文件dat0203.log的数据中一共包含多少部电影?本题的赛前抽取参数是dat0203.log文件,请参赛学生用hdfs命令查看输出的结果,截屏保存于图片ans0203.jpg,并用hdfs命令把输出文件传输到本地,修改文件名为ans0203.txt

4、 根据本题给定的数据文件dat0204.log编写Hive命令建立数据表,并将dat0204.log导入

所建立的数据表,然后编写Hive查询语句获取2014全年上映电影的数据记录,并将查询结果导入Hadoop平台的result目录。本题赛前抽取参数是dat0204.log文件,请参赛学生将完成本题要求的所有命令按步骤顺序以分行的形式保存于ans0204.txt中,ans0204.txt的文件样例如下:

statement 1 statement 2 statement 3 statement 4

任务三、本阶段的任务是:film_log3.csv中包含了不同地区、不同影院的电影票房信息,你的小组通过编程完成对文件film_log3.csv中电影信息数据的清洗和整理,并完成数据计算、分析和表达任务。(20分)

本竞赛任务的赛前抽取参数是:电影名称A、B、C 和地名M市、N市以及数据文件film_log3.csv,选手可在竞赛环境的arg0300.txt文件中获得A、B、C、M、N的值。本任务阶段,需要参赛学生提交每个小题涉及到的所有ansXXXX.jpg、ansXXXX.py、ansXXXX.dat文件(XXXX相关指数字)。

1、 编程统计并输出影片A的上映天数和日平均票房(文件中的所有涉及地区总平均),程序

源代码保存成ans0301.py,并将结果保存于ans0301.dat,要求ans0301.dat只包含1个long型数据和一个1个浮点型数据,浮点数据以万元为单位,保留6位小数,2个数以英文逗号分隔,不换行,文件样例如下:

123, 23.123456

2、 编程绘制一个直方图,在图中输出影片A、B、C的周平均票房(文件中的所有涉及地区

周票房总平均),Y轴表示票房收入,单位万元;X轴表示电影名称,电影名称的排列从左至右以A、B、C为准,要求将输出的直方图保存成图像文件ans0302.jpg,程序源代码保存成ans0302.py,另外,将三部电影各自的票房总收入按自高到低的顺序存入ans0302.dat文件中,要求ans0302.dat中只包含3个浮点型票房数据,以万元为单位,保留6位小数,数据以英文逗号分隔,不换行,文件样例如下:

23.123456,20.654321,18.123456

对本题周票房的说明如下:若某部电影从某月2日开始上映,则从当月2日到8日为其第1周票房,9日至15日为其第2周票房,不满1周按1周计算以此类推。

3、 编程,在一个折线图中,画出影片A、B、C各自的周票房(文件中的所有涉及地区总周

票房)收入变化,要求将输出的折线图保存成图像文件ans0303.jpg,程序源代码保存成ans0303.py,Y轴表示票房收入,单位为“万元”;X轴表示时间,以“0、1、2、3…n”的非负整数作为刻度值,单位为“周”,要求:

1) 折线图中含图例;

2) 三部电影用不同的颜色和线型表达;

3) 将电影A第一周的票房收入,电影B第二周的票房收入,电影C第三周的票房

收入顺序存入ans0304.dat文件中,注意ans0303.dat只包含3个浮点型票房数据,以万元为单位,保留6位小数,数据以英文逗号分隔,不换行,文件样例如下:

23.123456,20.654321,18.123456

4) 对本题周票房的说明如下:若某部电影从某月2日开始上映,则从当月2日到

8日为其第一周票房,9日至15日为其第2周票房,以此类推。

4、 编程,在一个子图系统中,用两个水平排列的折线型子图画出M市和N市2016年1至

3月的上映电影的票房总收入趋势,要求将输出的完整子图保存成图像文件ans0304.jpg;程序源代码保存成ans0304.py,要求:

1) 左子图为M市票房总收入趋势,右子图为N市票房总收入趋势,Y轴表示票房

收入,单位为“万元”,X轴表示时间,以“0、1、2、3”作为刻度值; 2) 两子图均有说明子图内容的标题(如:M 2016 1-3 BOR);

3) 将以下6个数据分2行按顺序存入ans0304.dat文件中,要求ans0305.dat只

包含浮点型数据,以万元为单位,保留6位小数,需要保存的票房数据是:第1行3个数据,按顺序分别是M市电影市场2016年1、2、3月票房总收入,第2行三个数据,按顺序分别是N市电影市场2016年1、2、3月票房总收入,同行数据以英文逗号分隔,文件样例如下:

2023.123456,2000.654321,1988.123456 2303.123456,2100.654321,17898.123456

任务四、根据现有数据,编写分析报告,分析电影市场情况并预测观众群对“四合影业”计划投拍的电影“青春的竞赛”的评分。(30分)

请从arg04子目录中选取需要的数据文件,依据观影俱乐部的观众评分(评分为10分制),利用统计图表分析说明影片类型、导演等因素对观众的影响,以及导演擅长的电影类型,最后预测某观影俱乐部中的5位会员对于《青春的竞赛》的评分范围,本赛题需要提交分析报告和相关程序,本题的赛前抽取参数是5个会员ID(保存于id04.txt文件中)和数据文件。

分析报告和所提交的程序的要求:

1、 利用WPS或WORD软件完成分析报告,文件名为anl0400.doc或anl0400.docx,报告中

需要明确描述分析方法,分析过程。

2、 分析报告中用明确的表格显示以下数据,评分最高值,评分最低值,评分中位数,评分

均值 。

3、 分析报告中至少包含三种图,分别能够表达“各种类型片票房收入比较”,“导演票房收

入比较”,“导演执导过的影片类型”的内容。

4、 提交支撑程序名为ans0400.py,要求程序运行后不可做任何人为操作,自动完成以下任

务:

1) 在一个子图系统中输出要求3中所提及的三种图,该子图水平排列,顺序以要

求3所列顺序为准,每个子图的具体形式不限。程序能够有提示地输出4个数据:评分最高值,评分最低值,评分中位数,评分均值。

2017年全国职业院校技能大赛高职组大数据赛题

2017年度职业院校技能大赛大数据技术与应用赛项赛题第一节赛题“四合影业”公司计划参与投拍一部电影,名为《青春的竞赛》。为提高票房收入,降低投资风险,需要了解电影市场的情况,包括何种类型的电影票房收入高,不同类型观众对电影的偏好等等。为此,四合影业公司计划聘请“TMS”大数据分析公司,收集并分析电影市场的相关信息,并最终给出分析报告。合
推荐度:
点击下载文档文档为doc格式
6a6pp4ufr33ef8l940oa3cwgi893aj006cx
领取福利

微信扫码领取福利

微信扫码分享