大数据技术-0003
试卷总分:100
单选题(共10题共40分)
1.(4分)
当前社会中,最为突出的大数据环境是 ( )。 A、互联网 B、物联网 C、综合国力 D、自然资源 参考答案:A 2.(4分)
启动 hADoop所有进程的命令是( ) A、sTAr-DFs.sh B、STArT-hADoop.sh C、STArT-Alsh D、STArT-hDFs.sh 参考答案:C 3.(4分)
数据平滑法主要分为( )、指数平滑法和分箱平滑法。 A、统计法 B、最短距离法
C、移动平均法 D、聚类方法 参考答案:C 4.(4分)
将班级平均分成6组,然后随机挑选一组,对该组所有人的情况进行调查,上述情节属于哪种抽样方案( A、简单随机抽样 B、两段集群抽样 C、集群抽样 D、等距抽样 参考答案:C 5.(4分)
以下哪种聚类方法可以提供聚类树形图( A、层次聚类 B、K均值聚类 C、基于密度的聚类 D、基于网格的聚类 参考答案:A 6.(4分)
支撑大数据业务的基础是( )。 A、据科学 B、数据应用
)。 ) C、数据硬件 D、数据人才 参考答案:A 7. (4分)
以下名词解释不正确的是( )
A、HDFS:分布式文件系统,是 HADoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBASE:提供高可靠性、高性能、分布式的行式数据库,是谷歌 BigTABlE的开源实现
C、HvE:一个基于 HADoop的数据仓库工具,用于对 HADoop文件中的数据集进行数据整理、特殊查询和分析存储
D、ZookEEpEr:针对谷歌 ChuBBy的一个开源实现,是高效可靠的协同工作系统 参考答案:B 8.(4分)
数据获取与存储管理是大数据处理周期的第( ) A、1 B、2 C、3 D、5 参考答案:A 9.(4分)
数据清洗算法的衡量标准主要包含( )、错误返回率和精确度。A、冗余度 B、返回率 C、可用性 D、一致性 参考答案:B 10.(4分)
A、抽样误差和样本数的密切关系 B、样本量越大抽样误差就越大
C、在置信区间既定的情况下,样本量越大,抽样误差就越大 D、样本量越大,抽样误差不变 E、样本量越大,抽样误差就越小。 参考答案:D
判断题(共10题共30分) 11. (3分)
维数约简是使用编码机制来增大数据集的规模。 √ ×
参考答案:× 12、3分)
NOSQL是一种不同于关系数据库的数据库管理系统设计方式,是非关系型数据库的一类统称,它采用的数据模型并非传统关系数
据库的关系模型,而是类似键/值、列族、文档等非关系模型。 √ ×
参考答案:√ 13.(3分)
数据可视化是指将数据以图形图像形式表示,并利用数据分析和挖掘工具发现其中未知信息的处理过程。 √ ×
参考答案:√ 14(3分)
数据分析是从一个假设出发,需要自行选择方程或模型来与假设匹配,而数据挖掘不需要假设,可以自动建立模型。 √ ×
参考答案:√ 15. (3分)
MApREDuCE计算将数据存储到内存中,然后对存储在硬盘中的静态数据进行集中计算。 √ ×
参考答案:×