v1.0 可编辑可修改
6. Hadoop Common:
(1)降低了Hadoop设计的复杂性 (2)减少了其他模块之间的耦合性 (3)增强了Hadoop的健壮性 功能
(1)提供公用API和程序员编程接口 (2)本地Hadoop库 (3)超级用户superuser (4)服务级别认证 (5)HTTP认证 7. HDFS
(1)定位:提供高容错、高扩展、高可靠的分布式存储服务,并提供服务访问接口。 (2)体系架构
1) HDFS采用master/slave体系来构建分布式存储服务
提高了HDFS的可扩展性又简化了架构设计
2) HDFS里将文件分块存储
优化存储颗粒度
3) namenode统一管理所有slave机器datanode存储空间,datanode以块为单位存储
实际的数据
4)真正的文件I/O操作时客户端直接和datanode交互
(3)NameNode主控制服务器和DataNode
11
v1.0 可编辑可修改
(4)HDFS典型拓扑
1)一般拓扑:只有单个NameNode节点,使用SecondaryNameNode或BackupNode节点
实时获取NameNode元数据信息,备份元数据。
2)商用拓扑:有两个NameNode节点,并使用ZooKeeper实现NameNode节点间的热切
换。
(5)HDFS内部特性P186 (6)HDFS对外功能 P189 8.分布式操作系统Yarn 安全机制
第六章:Hadoop 大家族
1.组件分类
(1)HDFS:分布式存储(2)Yarn:分布式操作系统(3)MapReduce:分布式处理 (4)ZooKeeper:分布式锁(5)Hbase:分布式数据库(6)Oozie:工作流引擎 (7)Pig Hive:高层语言(8)Mahout:机器学习库 (9)Flume:数据传输工具 12
v1.0 可编辑可修改 2.部署步骤
(1)Apache社区版分布式组件部署步骤:
社区版部署须解决版本兼容与本地权限文件的问题,烦琐易错;
(2)商业版部署步骤
13
v1.0 可编辑可修改
:核心思想是数据流
14
v1.0 可编辑可修改 、
第七章:虚拟化技术
(1)虚拟化技术的核心思想是利用软件或固件管理程序构成虚拟化层,把物理资源映射为虚拟资源。在虚拟资源上可以安装和部署多个虚拟机,实现多用户共享物理资源。 (2)虚拟数据中心特点:高速、扁平、虚拟化
(3)数据中心的虚拟化是通过服务器虚拟化、存储虚拟化和网络虚拟化实现的。 (4)服务器虚拟化:将一个或多个物理服务器虚拟成多个逻辑上的服务器
根据实现方式服务器虚拟化分为:寄居虚拟化、裸机虚拟化
服务虚拟化的底层实现:CPU虚拟化、内存虚拟化、I/O设备虚拟化
CPU:
内存:
15
云计算复习资料



