好文档 - 专业文书写作范文服务资料分享网站

大数据核心技术A卷

天下 分享 时间: 加入收藏 我要投稿 点赞

岭南师范学院2015 年- 2016 学年度第二学期

期末考试试题A卷

(考试时间: 120 分钟)

考试科目: 大数据核心技术 题 号 一 二 三 四 五 总 分 总评分人 复查人 分 值 30 16 20 24 10 得 分 得分 评卷人 一、单项选择题(每小题 2 分,共 30 分) 请把答案写在下表中,写在试题后无效。 题号 1 2 3 4 5 6 7 8 答案 题号 9 10 11 12 13 14 15 答案 1. 下面哪个程序负责 HDFS 数据存储。

(C )

A. NameNode B. Jobtracker C. Datanode D. secondaryNameNode

2. HDFS 中的 block 默认保存几个备份。 ( A )

A. 3 份 B. 2 份 C. 1 份 D. 不确定

3. 默认 Block Size大小是多少。 ( B )

A. 32MB B. 64MB C. 128MB D. 256MB

4. 下面哪个进程负责 MapReduce 任务调度。 ( B )

A. NameNode B. Jobtracker C. TaskTracker D. secondaryNameNode

5. 默认的调度器策略是哪个。 ( A )

A. 先进先出调度器 B. 计算能力调度器 C. 公平调度器 D. 优先级调度器

6. Client 端上传文件的时候下列哪项正确? ( B )

A. 数据经过 NameNode 传递给 DataNode

B. Client 端将文件切分为 Block,依次上传

C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作 D. 以上都不正确

7. 在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功? ( D )

A. Namenode, Datanode, TaskTracker B. Namenode, Datanode, secondaryNameNode C. Namenode, Datanode, HMaster

D. Namenode, JobTracker, secondaryNameNode

8. 若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。 ( D )

A. Max B. Min C. Count D. Average

9. MapReduce编程模型,键值对的key必须实现哪个接口? ( A ) A. WritableComparable B. Comparable C. Writable D. LongWritable 10. 以下哪一项属于非结构化数据。(C) A. 企业ERP数据 B. 财务系统数据 C. 视频监控数据 D. 日志数据

11. HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。 ( D ) A. –ROOT-表 B. .META.表 C. HFile index D. 普通的数据块

12. HBase是分布式列式存储系统,记录按什么集中存放。 ( A ) A. 列族 B. 列 C. 行 D. 不确定

13. HBase的Region组成中,必须要有以下哪一项。 ( B ) A. StoreFile B. MemStore C. HFile D. MetaStore

14. 客户端首次查询HBase数据库时,首先需要从哪个表开始查找。 ( B ) A. .META. B. –ROOT- C. 用户表 D. 信息表

15、设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进

行什么操作。 ( A )

A. 分桶 B. 分区

C. 索引 D. 分表

得分 评卷人 二、判断题(每题 2 分,共 16 分)

请在下表中填写√或者×,写在试题后无效。

题号 1 2 3 4 5 6 7 8 答案 1. Hadoop 支持数据的随机读写。 (hbase支持,hadoop不支持) ( 错 ) 2. NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取) ( 错 ) 3. MapReduce 的 input split 一定是一个 block。 (默认是) ( 错) 4. MapReduce适于PB级别以上的海量数据在线处理。 (离线) ( 错 ) 5. 链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。 ( 对 ) 6. MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理。( 对 ) 7. HBase对于空(NULL)的列,不需要占用存储空间。 (没有则空不存储)( 对 ) 8. HBase可以有列,可以没有列族(column family)。 (有列族) ( 错 )

得分 评卷人 三、简答题(每小题 5 分,共 20 分)

1. 简述大数据技术的特点。

答:Volume(大体量):即可从数百TB到数十数百PB、甚至EB规模。

Variety(多样性):即大数据包括各种格式和形态的数据。

Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。

Veracity(准确性):即处理的结果要保证一定的准确性。

Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业

价值。

2. 启动Hadoop系统,当使用bin/命令启动时,请给出集群各进程启动顺序。

答:启动顺序:

namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager

3. 简述HBase的主要技术特点。 答:(1)列式存储

(2)表数据是稀疏的多维映射表 (3)读写的严格一致性 (4)提供很高的数据读写速度 (5)良好的线性可扩展性 (6)提供海量数据 (7)数据会自动分片

(8)对于数据故障,hbase是有自动的失效检测和恢复能力。 (9)提供了方便的与HDFS和MAPREDUCE集成的能力。

4. Hive数据仓库中,创建了以下外部表,请给出对应的HQL查询语句

CREATE EXTERNAL TABLE sogou_ext (

ts STRING, uid STRING, keyword STRING, rank INT, order INT, url STRING,

year INT, month INT, day INT, hour INT )

COMMENT 'This is the sogou search data of extend data' ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\\t' STORED AS TEXTFILE

LOCATION '/sogou_ext/';

(1)给出独立uid总数的HQL语句

答:select count(distinct UID) from sogou_ext;

(2)对于keyword,给出其频度最高的20个词的HQL语句

答:select keyword from sogou_ext group by keyword order by order desc limit 20;

得分 评卷人 四、设计题(每小题 8 分,共 24 分)

1. 100万个字符串,其中有些是相同的(重复),需要把重复的全部去掉,保留没有重复的字符串。请结合MapReduce编程模型给出设计思路或核心代码。 P228 Public

static

class

ProjectionMap

extends

大数据核心技术A卷

岭南师范学院2015年-2016学年度第二学期期末考试试题A卷(考试时间:120分钟)考试科目:大数据核心技术题号一二三四五总分总评分人复查人分值3016202410得分得分评卷人一、单项选择题(每小题2分,共30分)请把答
推荐度:
点击下载文档文档为doc格式
61uyv5vcir1ujtp7zqyg25ui718xn3018x5
领取福利

微信扫码领取福利

微信扫码分享