云数据中心 IT运维管理解决方案
目录
1. 2.
运维平台技术架构 ................................................................................................................... 4 运维平台详细技术方案 ........................................................................................................... 5 2.1.
资源配置管理(CMDB) ........................................................................................... 5 2.1.1. 2.1.2. 2.1.3. 2.1.4. 2.2.
配置数据建模 ................................................................................................... 5 配置数据采集 ................................................................................................... 7 配置数据维护 ................................................................................................. 11 配置数据应用 ................................................................................................. 16
集中监控管理 ............................................................................................................. 20 2.2.1. 2.2.2. 2.2.3. 2.2.4.
基础资源监控 ................................................................................................. 20 应用性能监控 ................................................................................................. 26 用户体验监控 ................................................................................................. 42 统一告警管理 ................................................................................................. 51
2.3. 操作自动化 ................................................................................................................. 52 2.3.1. 2.3.2. 2.3.3.
自动化平台 ..................................................................................................... 53 运维自动化场景 ............................................................................................. 57 运维自动化整合 ............................................................................................. 59
2.4. 运维管理流程 ............................................................................................................. 59 2.4.1. 2.4.2. 2.4.3. 2.4.4. 2.4.5. 2.4.6.
服务台 ............................................................................................................. 60 服务目录 ......................................................................................................... 61 ITSM流程 ...................................................................................................... 63 巡检管理 ......................................................................................................... 65 知识库 ............................................................................................................. 66 业务流程引擎 ................................................................................................. 67
2.5. 运维分析与展示 ......................................................................................................... 68 2.5.1. 2.5.2.
运维可视化展示 ............................................................................................. 68 运维数据分析 ................................................................................................. 71
2.6. 运维管理门户 ............................................................................................................. 72 2.6.1. 2.6.2.
内部运维门户 ................................................................................................. 72 运维门户网站 ................................................................................................. 73
2.6.3. 移动运维应用 ................................................................................................. 73
1. 运维平台技术架构
根据云数据中心运维业务特点及技术要求,我方提供全方位的运维管理解决方案,实现数据中心运维管理所需的资源配置管理、监控、可视化展示、运维流程及对服务交付能力。
附图1. 平台架构设计
? 配置管理库(CMDB)
CMDB实现对数据中心所有IT资源的配置信息管理,保证数据中心中配置项的完整性和精准性,构建运维管理元数据,并为监控、运维流程提供资源数据。
? 集中监控管理
系统提供云数据中心基础资源、业务应用、用户体验全方位监控,同时提供集中的监控告警管理及监控性能数据展示。
? 运维自动化管理
系统提供面向于服务器运维自动化,提升运维操作效率、降低人工操作风险。 ? 运维管理流程
系统提供基于ITIL的规范化运维管理流程,建立基于服务目录的对外服务交付过程,同时支持面向于云资源自动化交付管理。
? 可视化展示与分析
系统提供美观形象的可视化展示平台,帮忙运维管理人员准确掌握IT运行态势与运维服务水平。
4
? 运维管理门户
提供了运维管理门户网站、个人工作台等形式的面向外部最终用户自服务及内部人员人性化的运维界面。
此外,平台还预留多种标准接口及开放的接口体系,实现和第三方系统的功能或数据集成对接,包括云管理平台、PKI认证、短信系统、邮件系统等。
2. 运维平台详细技术方案
2.1. 资源配置管理(CMDB) 2.1.1. 配置数据建模
内置基于业务视角的分层弹性模型,通过可视化建模,灵活动态扩展模型,满足用户的实际个性化管理需求。同时内置传统+互联网的弹性模型,符合最佳配置实践,在电信、金融、能源、政府、互联网、物联网等领域有广泛的应用。
系统提供动态的配置模型构建,基于面向对象技术,能够实现资产配置模型的灵活构建,满足不同用户的实际管理需求。数据建模能够实现资产配置模型的灵活构建,针对不同的用户环境和管理需求,灵活、快速、精准的搭建资产配置模型,管理人员可以依据自身管理需要快速构建资产、配置项以及关联关系。
可以通过人工自由拖拽创建属性,或套用不同配置模板来创建并约束属性,摆脱了死板的分类法,能够弹性快速适配各种应用场景:
系统提供文本、数值、日期、附件、图片等类型的数据类型,支持通过简单拖拽、勾选等方式进行模型与资源表单的设计。
5
附图2. CMDB数据建模
配置建模能力包括资产配置项建模、关系建模以及字典目录管理和配置表单管理。 字典管理是资产配置模型建立的基础,它定义了资产配置模型的基本组成属性,系统支持字典的定义功能,能够根据不同场景的管理需要,灵活定义、修改字典目录。
附图3. 配置项属性字典管理
系统还系统支持配置项关联关系的建立,并支持配置数据项类别及实例图标的自定义功能,使配置展现更图形化。
6
附图4. 配置关系展示
2.1.2. 配置数据采集
系统支持多种资产配置信息的发现和收集手段,包括:配置自动发现、人工录入、批量导入、第三方系统的集成接口等。
2.1.2.1. 配置发现
系统支持如各种网络设备、服务器、操作系统、数据库、中间件和业务应用系统等软硬件信息以及关联关系的自动发现采集外,系统还面向云计算,能够适应虚拟化环境,支持对云资源的发现和采集,以符合用户的管理需要和未来技术发展趋势。
在用户提供IT 基础架构帐户信息的情况下,可发现详细的配置属性,而如果未提供准确的帐户信息,也可发现基本的节点类型,便于进一步调整发现策略。
发现方式可采用但不限于如下方法: ? ? ? ? ?
可以启用定时发现,用于根据所设间隔时间周期性的进行自动发现; 可以使用多个SNMP参数、Telnet参数、SSH参数进行发现;
可以设置过滤条件用于在发现过程中屏蔽一些不想管理的设备和子网; 可以设置是否网段内逐个扫描,以全面发现设备(适用于路由和网段发现); 可以设置发现后的设备自动加入的设备分组。
? 配置发现
配置数据收集维护利用了多种技术手段来保证各个来源的数据准确性和完整性,系统支持向导式发现配置功能,支持ICMP、TCP、SNMP、WMI、Telnet、SSH、CCLI、Http、DNS、JDBC、JMX、VMWare、libvirt、XenAPI等多种协议来实现配置信息的自动发现,用户可以通过发现配置向导来实现发现范围、发现参数的设置,构建合理的配置发现策略,同时支持将发现结果导入到配置管理库中。
7
附图5. 自动发现配置
? 发现过程
系统提供简洁直观的发现进度,实时显示当前发现进度、发现状况概要,用户可以直接观察发现过程,在发现过程中提供实时的发现信息反馈,并支持停止操作。
在发现过程中,系统能够对当前发现的资源数量按照类别进行分享统计和展现,用户可以直观了解当前发现了多少类、多少个资源信息。
对于发现日志,系统支持日志的过滤展现,能够按照过滤规则向用户展现调试、信息、警告、错误4个级别的日志信息,便于后期对配置的发现情况进行回顾和分析。
? 发现结果
当发现完成或者用户终止发现时将进入浏览发现结果界面,浏览并分析发现结果,以决定后续动作,对于发现结果可以放弃并重新发现,也可以放入CMDB中进行管理。
系统支持以列表的形式来展现配置发现结果,包括IP、类型、名称等信息,并能够对发现结果进行过滤,提供配置项详情的查看(包括自身和子部件的配置信息)。
8
附图6. 配置发现结果
对于发现结果支持导出,能够通过EXECL导出并保存。下方是Linux服务器自动发现的配置属性。
附图7. 自动发现属性(Linux)
2.1.2.2. 配置项批量导入
为了方便使用和维护,系统支持配置项信息的EXECL格式导入和导出功能,可以根据
9
管理需要,选定所需的配置项进行导出;同时也可以将编辑好的EXECL文件直接导入到系统中,实现配置信息的批量导入。
附图8. 数据批量导入
2.1.2.3. 第三方数据集成
系统支持通过与第三方系统集成实现配置数据的导入。如与华为云平台进行集成获取云资源的配置信息。
附图9. 与第三方系统集成获取配置数据
2.1.2.4. 配置数据调和
从不同采集源获取到相同的资源数据时,系统能够识别并合并,并与配置库中标准数据进行比对,判断是否产生变化,如果产生变化则产生差异报告,并发出通知告知管理员进行
10
变更审核,避免出现重复或不一致的配置信息。
附图10. 配置调和
附图11. 配置调管理界面
2.1.3. 配置数据维护
数据维护主要针对采集入库的数据进行综合管理,包括数据调和、分区管理、审核管理以及权限管理。
2.1.3.1. 配置分区管理
系统支持数据分区管理,能够按照用户的地域、组织机构分布等因素对配置项进行分区,
11
建立不同的管理域,各机构分别管理自己管辖范围内的配置。
系统采用建立配置维护圈、社交协作化的思路,通过文化引导和规范约束结合的方法,促进配置维护圈的活跃、保证配置准确率,激发用户内在动力来做好配置维护。主要有圈子管理、人工配置维护、仓库数据的认领、配置评论、配置审核以及配置的动态展示等。
1、 支持按数据维护职责建立独立的数据维护工作区,各工作区对各自团队负责管理
的资源进行认领并负责对该数据的维护管理。
附图12. CMDB维护圈创建
附图13. 资源数据认领
12
附图14. 资源数据认领
2、 支持数据维护者根据自身维护需要创建过滤标签,快速查阅自身所关心的配置数据;
附图15. 数据过滤标签(视图)建立
3、 支持对配置数据开放式的评论、点赞,提升数据维护的积极性与团队协作。
13
附图16. 数据开放式的评论、点赞
2.1.3.2. 配置审核管理
配置数据的变更生效由工作区负责人审核决定,确保变更的快捷有效。变更审核时支持查看配置数据变化报告。
附图17. 配置数据变更审核
支持对工作区内所有资源的数据变化时,可实时通知数据的订阅者或第三方系统,并告知变化内容。
14
附图18. 数据变化通知
2.1.3.3. 配置变更跟踪
系统支持实时数据跟踪功能,能够跟踪配置和资产的当前状态信息,针对配置管理,系统能够支持配置项的版本跟踪和维护,当配置项产生新的版本时,系统能够自动跟踪、记录、更新并保存原始版本记录,对于存在多个版本的配置信息,系统还支持版本之间的比较。
附图19. 配置数据变更动态
15
针对资产管理,系统能够实时跟踪资产的当前生命状态,如库存、使用、报废等,还可以将配置项作为资产进行跟踪,以反映该配置项作为资产时的状态。
数据跟踪的设定,支持父子继承,即某一父类被设置为跟踪时,其下所有子项均被设置为跟踪,也可以人工调整为个别项不跟踪。
2.1.3.4. 配置权限管理
数据维护工作区拥有独立的团队成员管理权限,支持成员增加、删除;
附图20. 维护工作区团队成员管理
系统将权限分为功能权限和资源权限,实现对配置项更加细颗粒度的管控。 1、资源权限:
系统资源权限包括配置、资产以及工单、知识等,可以对应一组数据项集合。 2、功能权限:
资源操作权限针对资产和配置管理,分别进行授权管理,授权角色具备对资产或配置的操作和浏览权限。
2.1.4. 配置数据应用 2.1.4.1.
配置应用场景管理
支持按应用场景建立配置数据应用区,支持从统一配置库当中选择所需的配置数据,并
16
支持基于配置数据标签进行数据的批量导入。
附图21. 配置数据应用区创建
附图22. 基于数据标签和配置数据导入
数据应用区中,不仅能查看配置项数据,还能根据管理创建所需要的配置关系,同时也查看到其他团队所创建的配置关系。
17
附图23. 配置关系展示
数据应用区可以被监控系统、运维流程等模块进行调用,用于各类配置数据应用场景分析。
2.1.4.2. 配置数据查询
系统提供了全文检索的能力,能够对所有配置信息通过全文检索的方式进行数据查询。 全文检索支持对配置信息的附件信息进行检索,同时系统还提供了最近搜索记录功能,能将最近、常用的搜索的关键字进行记录,通过点击快速进行检索。
18
附图24. 数据全文检索能力
2.1.4.3. 配置与流程关系管理
系统支持和流程进行关联,一方面可以直接从配置项发起相关流程工单,如事件、变更等;另一方面由变更流程引起的配置项变化,再变更流程工单完成时自动进行变更审核;对于和配置项相关的工单,在浏览配置项时均可查看其所关联的工单信息,如该配置项发生过哪些事件工单、有哪些变更等。用户还可以通过在配置管理界面直接发起运维工单,就该配置项开启流程运转。
19
附图25. 配置项与工单关联
2.1.4.4. 配置关系管理
产品支持完善的配置关系管理,提供直观的关系列表和可视化视图,通过配置关系管理,可以帮助管理人员快速了解该配置项与其他配置项之间的关联关系,从而帮助管理人员快速评判该配置项的重要程度和依赖关系。
附图26. 配置关系展示
当该配置项出现故障能够快速评判其影响范围及影响程度。
2.2. 集中监控管理
要求能够实现对现有的网络设备、主机/虚拟机、数据库、中间件、存储、业务应用等各类云资源的监控管理,提供面向业务应用用户体验监测能力,并提供故障告警、性能数据、监控展示的集中化管理。
2.2.1. 基础资源监控
系统支持面向网络设备、服务器硬件、存储设备等物理资源的监控与预警。
针对应用的监控系统采用监控代理的方式实现监控,在云数据中心环境下,建议将监控采集代理内置至虚拟机模板当中,将可在虚拟化机被创建时,就可以实现该虚拟机上所
20
有基础应用资源的监控。
附图27. 分布式部署架构设计
2.2.1.1. 网络设备监控
系统支持对Cicso、H3C、华为等主流厂商的网络设备监控,实现对网络设备性能的监控与预警。
2.2.1.2. 服务器硬件监控
系统对IBM、DELL、HP、华为、浪潮、联想等国内外主流品牌的服务器硬件监控,支持通过IPMI协议实现监测,监控指标包括:服务器电流、传感器风扇、传感器状态、传感器温度、服务器电流、服务器电源功率等。
2.2.1.3. 存储监控监控
系统支持对主流存储设备的监控,包括:HP、IBM、EMC、华为、HDS、Netapp等,技术手段包括:SMI-S、SNMP。
? IBM存储监控指标包括:存储阵列、物理磁盘、存储池、控制器、存储卷、存储
卷组。
? EMC存储监控指标包括:存储池、物理磁盘、网络文件系统共享信息、网络文件
系统、CIFS共享信息、CIFS服务、文件系统。
21
? HP存储监控指标包括:磁盘阵列、控制器、物理磁盘、存储池、存储卷。 ? DELL存储监控指标包括:组基本信息(存储池、快照、卷)、成员信息(阵列设
备、控制器)、磁盘信息、控制器信息、通道卡信息、网络状态等。
? 华为存储监控指标包括:存储设备、物理磁盘、逻辑磁盘(即存储卷)、控制器、电
源、风扇、RAID、端口。
若设备支持,支持监控设备环境参数,如温度、风扇、电源电压等。并能支持基于SNMP Trap、Syslog方式接收存储设备主动告警。
2.2.1.4. 虚拟化监控
系统支持对VMWare、KVM、Xen等虚拟化平台的监控管理。
2.2.1.5. IaaS云管理平台监控
系统支持通过与IaaS云管理平台进行对接实现云资源监控,VMWare、Openstack(华为云、浪潮云、曙光云等)、阿里云等云平台监控。
2.2.1.6. Docker虚拟化监控
除虚拟化及IaaS云平台监控之外,同时支持对新兴的Docker监控。
附图28. Docker监控
22
2.2.1.7. 操作系统监控
可监测众多的服务器操作系统,包括:Windows、Debian、Ubuntu、CentOS、Redhat、Mac OSX、Fedora、CoreOS、AIX、HP-UNIX;
a) 可自动监测服务器的各类性能指标,包括:CPU、RAM、磁盘、负载、文件系统、
网络、监测、服务等指标;
附图29. 操作系统监测
b) 可自动监测服务器重要事件,包括:WindowsEvent、Syslog;
c) 可监测一些常见的系统服务,包括:HTTP、DNS、TCP、SSH、SNMP、WMI;
2.2.1.8. 中间件监控
系统支持对各类中间件进行监控:
a) Web服务中间件,包括:Apache、Tomcat、IIS、Nginx、JBoss、Lighttpd、Weblogic、
Websphere;
23
附图30. 中间件监测
b) 缓存中间件,包括:Redis、Memcached ;
c) 消息中间件,包括:ActiveMQ、RabbitMQ、Kafka;
d) 大数据中间件,包括: etcd、HAProxy、Elasticsearch、Hadoop(HDFS、MapReduce 、
Zookeeper);
2.2.1.9. 数据库监控
系统支持传统关系型数据库与NoSQL数据库的监控:
a) 可监测各类传统关系数据库,包括:MySQL、PostgreSQL、SQLServer、DB2、Oracle、
Sysbase、Informix
24
附图31. Mysql监测
b) 可监测各类NoSQL数据库,包括:Cassandra、MongoDB
附图32. Cassandra数据库监控
附图33. MongoDB数据库监控
2.2.1.10. 大数据(Hadoop)监控
当前云数据中心在大数据方面发展势头明显,大数据云成为云数据中心的主要研究方向之一,同时也是云数据中心与实战结合的关键点。在大数据云的建设方面Hadoop技术占据的重要角色,运维系统支持面向Hadoop核心组件(HDFS、MapReduce 、Yarn、Zookeeper)及内部消息中间件(RibbitMQ)的监控。
25
附图34. 大数据监控架构
2.2.2. 应用性能监控
APM采用最新流行的NOSQL架构,通过协议分析、指标运算和阈值处理三大引擎的处理,实时生成业务系统各环节的Apdex、吞吐量、平均响应时间、错误数、成功率五大指标。
在上层展现上,通过交易总览、业务运行视图、服务节点监控视图等多种方式,全方位可视化展现业务系统和关键交易性能。
附图35. APM产品架构
26
2.2.2.1. 应用拓扑发现
系统自动解析网络镜像数据,获取7层业务调用结构,通过内部自学习自动发现服务组件、服务组件之间的连接性和访问关系。
附图36.
基于自学习能力的应用拓扑自动发现
基于应用系统的监测分析需求,可以有选择性选取相应范围的应用服务对象生成自动
附图37.
反映真实的业务架构和服务性能
2.2.2.2. 应用监控中心
APM能够提供业务的真实服务路径,以业务应用拓扑为视角,以业务拓扑图、时序图的形式可视化展现各服务组件、环节的运行状态。这有助于运维人员准确掌控分布式业务架构。这是在IT基础架构之上观察业务系统运转的全新方法,非常直观,而且具有全局视角,
27
对故障域定位非常有益。
使用业务仪表板编辑功能,可以通过简单的拖拽功能将发现的服务节点快速定义到整体运行视图当中。借助业务仪表板的设计思路,用户可以将基于SOA架构的应用系统抽象成为具体的应用服务路径,并借此获得业务系统的端到端性能管理可视性。
借助拖拽式的时间轴回溯技术,在业务拓扑图基础上可视化展现近期业务的总体变化趋势和告警状态。
附图38. 业务应用拓扑
2.2.2.3. 业务交易监测
系统从5大关键指标,到交易渠道、类型、结果等维度,进行全样本实时分析,支持互联网和传统交易的混合场景,跟踪业务交易的运行态势,准确扑捉交易级隐患,并进一步进行单笔业务的端到端交易链跟踪。
2.2.2.3.1. 交易总览视图
交易总览视图以时序图形式,配合最直观的红黄绿三色,你能够实时发现核心系统的吞吐量和告警状态。
28
附图39. 交易总览视图
附图40. 全局业务运行态势大屏展现
2.2.2.3.2. 自定义关键业务交易
系统支持通过Lua代码实现对七层提取的业务数据,如URL路径、业务参数自定义关键交易。
关键业务交易定义完成后,系统即能支持Apdex、交易量、平均响应时间、成功率、错误数5大指标最近一小时指标项的实时汇总统计和趋势图。
29
附图41. 灵活的关键业务自定义能力
附图42. 关键业务一小时运行趋势
2.2.2.3.3. 错误交易监控
系统支持错误交易监控,能够完整记录交易发起时间、交易号、交易类型客户端IP、服务端IP、返回码、响应时间、交易结果。
30