好文档 - 专业文书写作范文服务资料分享网站

智能IT运维监控平台-技术白皮书V2

天下 分享 时间: 加入收藏 我要投稿 点赞

目录

一、背景与需求 ....................................................................................................................... 3 1、背景 ................................................................................................................................. 3 2、需求要点 ......................................................................................................................... 3 二、解决方案与系统构架 ....................................................................................................... 5 1、解决方案 ......................................................................................................................... 5 2、系统构架 ......................................................................................................................... 6 三、系统及运维监控功能与特点 ........................................................................................... 7 3.1 系统功能特点 ................................................................................................................ 7 3.1.1 IT资源集中监控管理 ........................................................................................... 7 3.1.2、IT资源运行状态统一展示 ................................................................................... 7 3.1.3、IT资源告警事件管理 ........................................................................................... 7 3.1.4、IT设备智能巡检 ................................................................................................... 8 3.1.5、业务维度监控 ....................................................................................................... 8 3.1.6、业务维度的拓扑展示 ........................................................................................... 9 3.1.7、应用性能分析 ..................................................................................................... 10 3.1.8、IT资源使用分析 ................................................................................................. 10 3.2 监控功能 ...................................................................................................................... 10 3.2.1、IT资源监控类型 ................................................................................................. 10 3.2.2、网络设备状态监控 ............................................................................................. 11 3.2.2、服务器状态监控 ................................................................................................. 12 3.2.3、数据库监控 ......................................................................................................... 13 3.2.4、Web中间件监控 ................................................................................................ 14 3.2.5、虚拟设备监控 ..................................................................................................... 17 四、部署与配置 ..................................................................................................................... 17

4.1、部门级部署 ............................................................................................................ 17 4.2、企业应用部署 ........................................................................................................ 18

4.3、集团应用部署 ........................................................................................................ 19 4.4、部署要求 ................................................................................................................ 20 4.5、运行环境 ................................................................................................................ 20 五、效益与价值 ..................................................................................................................... 20

5.1、产品价值 ................................................................................................................ 20 5.2、效益体现 ................................................................................................................ 21

一、背景与需求

1、背景

随着我国工业企业及组织机构信息化建设的快速发展,越来越多的企业核心业务及机构工作的开展已经高度依赖于信息系统的应用,随着信息化的不断深入,信息系统越来越多,各类系统越来越复杂,系统间的关联度也越来越高,使得企事业单位的IT运行环境日趋复杂,各类IT设备的运行监控难度加大,由于IT系统的运行环境更加复杂,造成了机房管理、系统监控和运行维护工作变的十分困难。

目前单个的IT设备初步具有自监控的手段和方法,但由于设备的种类数量众多且分属不同的平台和厂商,导致运维监控工作各自为政,运维监控缺乏一个集中、统一的运维监控平台,使得各类设备运行事件无法做到实时统一。由于缺少一个IT统一的监控运维平台,任何一个IT设备资源出现故障时都需要IT运维人员手工查找与排查故障产生原因和定位故障,使得运维人员对于日常的运维工作还是处于被动等待“救火式”状态之中,运维事件的发现收集操作为传统手工方式,往往是故障事件发生后,运维人员被动告知后去处理问题,严重制约IT运维的响应速度和执行效率,影响企事业单位的IT信息系统的顺利使用。

通过建立智能IT运维监控平台, 对网络、硬件、安全设备、操作系统、数据库、中间件、应用系统、机房空调、UPS等资源实时监控采集,能够自动地收集信息系统中各类IT资源设备运行状态、数据库状态、中间件运行状态和网络状态等,发现各类IT资源运行过程中的异常。依据业务视角和设备视角分析发现已发生和潜在的各类资源问题,及时通知相关责任人和启动相关运维流程。

2、需求要点

智能IT运维监控平台实现对网络、应用服务器、业务系统、各类主机资源和安全设备等运行状态的全面监控,建立对各类IT资源的各类运行状态参数的采集、分析,及时发现和定位IT设备故障,启动相关的故障解决流程。

智能IT运维监控平台可从IT视角完成对各类IT资源监控的同时,也提供从业务系统的视角对IT资源监控运维方法。

智能IT资源集中监控平台系统必须做到: ? 强化主动监控,实现集中管理。

以应用性能和应用系统为监控主线,集成各类监控工具,构建统一集中的IT系统资源监控平台, 能够主动及时发现问题,解决被动服务的局面。同时以自主运维为目的,主动监控,自动更新,自动实现IT运维监控管理。

? 帮助定位故障,快速恢复系统运行。

建立针对IT资源的集中告警分析机制和故障预警机制,提供自动化故障处理能力,当故障产生时,可以进行故障的快速定位,很快发现问题根源并找到相应的解决方案,从而缩短故障解决时间,减少维护成本。

? 提高运行效率,合理利用IT资源。

建立统一IT资源监控平台后,可以实时了解全部IT资源的使用和运行情况,根据IT业务需要从整体角度考虑资源的使用,甚至可以根据业务高峰期的不同来调剂业务系统对资源的使用。

? 提供统计分析和决策支持。

通过提供各类资源的性能分析报表、资源统计报表和运维分析报表,从各个侧面、各个角度反映系统的运行状况、性能情况和运维人员工作情况,为系统升级、改造、扩容提供科学依据。

? 全面直观的系统展示。

通过一个统一的门户系统,有效的展示内部的IT资源运行情况、性能状况、服务工单情况等,使得领导、管理者、技术人员能迅速了解自己关心的问题。

二、解决方案与系统构架

1、解决方案

智能IT资源集中监控平台以企业的实际在用IT资产和业务系统来构架监控管理的对象,建立网络管理、主机系统管理、应用服务管理和虚拟设备等IT资源的统一监控管理平台。各项管理数据共享集中,互通互融。

IT运维监控平台即可根据IT资源类型分类监控各类IT资源,也可按照业务信息系统所依赖的IT资源建立模型,实现对业务资源模型的运维监控。通过业务监控模型能够简化IT资源运行状态监控,提高企业IT运维的总体服务品质。

通过统一的管理系统对管辖内IT对象的运行状态和系统性能进行实时的监控,并以图形化的方式直观地展示出来。对于系统运行的异常表现及时报警,提供故障修复功能;同时预设性能监控闸值,以帮助在系统出现问题之前提前向管理人员发出预警。从而可以积极主动地发现问题,改变被动管理的局面,保障系统的高可用性。

整个系统以事件为核心,可将IT资源监控管理系统与ITIL运维流程系统有机地结合在一起,采用统一事件管理系统,对整个系统内的所有事件进行收集、关联分析和处理。部分事件自动采取修复动作,同时可以有选择的将事件发送给运维流程管理系统,并按照不同类别事件预先定义的处理流程控制事件的处理。通过事件问题管理的有效执行,将整个运维服务模式由被动支持转为主动服务。

2、系统构架

如上图所示,智能IT运维集中监控系统以各种IT硬件设备的监控信息和日志信息做为数据源,以各类数据的流转和处理为功能划分依据,将总体功能分为4大类别:

? 数据采集功能:根据平台指定的运维策略,数据采集层负责从网络设备、安全设备、

业务系统、服务器等采集各类运行信息、日志信息、流量信息,经过数据格式标准化、数据归并、数据压缩等处理后,提交给上层数据处理平台。采集后的信息经过归并汇总后可在系统中进行查看和编辑。

? 数据处理功能:平台将采集到的原始数据按照业务系统数据、IT资源状态数据、

网络数据、日志数据进行分门别类,经过基于统计、基于资产、基于规则的关联分析后,科学合理的定义运维事件的性质和处理级别,作为展示平台的数据基础。 ? 数据分析功能:以丰富的报表展示手段对各类数据进行直观显示,辅助以网络拓扑

图形化功能为平台用户提供方便快捷的信息获取途径。对于运维数据分析,也会借助知识库提供的分析策略,提高数据分析的准确性。

? 监控预警功能:实现整个平台的灵活展示和配置管理。一方面通过丰富的图形化展

示方式呈现IT资源、业务网络系统的整体运行状况和安全,提供有效的安全预警,减少IT资源故障和安全破坏的发生,降低事故所造成的损失。

三、系统及运维监控功能与特点

3.1 系统功能特点

3.1.1 IT资源集中监控管理

通过统一的IT运维监控管理平台,企业可从设备分类和业务信息系统视角出发,实现对服务器系统、网络、安全产品、操作系统、数据库、中间件、应用系统、储存设备、IT环境等系统的状态和性能的实时监控。提供统一的用户界面,统一的管理手段,准确反映各类设备运行状态和性能。对于服务器系统及网络运行的异常表现进行预警,能够实时产生趋势性能分析报告、统计报告、TOP-N报告和历史报告。为优化IT系统性能和解决故障提供数据分析依据。

集中监控系统应支持有代理和无代理的监控方式,对各类应用服务器的配置数据、性能数据、告警数据进行采集。同时集中监控管理系统能够通过多种监测工具自动地定期和不定期监测服务器系统、网络系统、数据库等设备的基本配置数据。

3.1.2、IT资源运行状态统一展示

集中监控系统的监控视图实现对所有被监控对象告警的统一监控、集中展现。监控视图可以展示不同监控偏重的IT资源监控视图,如网络拓扑视图、资源状态视图、业务应用视图、安全视图、存储视图等。

对不同的用户可提供不同的监控界面,显示不同的监测内容。对管理人员显示对业务影响较为严重的告警和告警处理记录。对具体的维护人员,根据其分工,显示不同的监测内容,不同的告警信息,便于具体IT运维人员及时发现问题和处理问题。

3.1.3、IT资源告警事件管理

通过对采集的IT资源数据过滤、压缩、归并、聚合,通过关联分析技术,提取有效的告警信息上报告警中心。

系统提供了灵活的告警设置,多样的告警推送方式。系统告警规则可实现快速设置,预置大量告警规则,提供基于设备类型指标参数的告警批量设置。告警的推送方式支持短信、

邮件、微信等。

系统提供灵活的告警查询方式,可通过告警检测指标进行统一查询,实现指标统一分析;也可通过设备IP查询该设备上所有的告警。

告警事件展示分为两种,即列表式告警事件展示和拓扑式告警展示。列表式告警显示是展示完整、统一的图形化告警事件界面,集中显示各IT资源发生的各类告警事件,确保运维人员可以及时响应;拓扑式告警显示是在拓扑图上实时以不同的颜色标识显示告警信息,提醒运维人员注意。

3.1.4、IT设备智能巡检

系统可以按照IT运维的管理要求实现不同频度对不同设备运行状态的无人智能巡检,巡检的设备运行状态数据依据自主学习的业务基线以及业界规范基准值进行分析检测;并将巡检异常以实时状态、越界统计、巡检报表、智能策略方式进行反应。

智能巡检对于不符合内置检测闸值的事件定义为越界事件,系统以越界事件的出现规律进行数据判断,提供完善的分析统计,包含等级、时间、指标、IP范围的越界比例TOP N分析,周越界比率增长TOP N,月越界比率TOP N。

对于短期内出现越界过多的指标,系统通知相关运维人员。

3.1.5、业务维度监控

系统提供灵活的业务定义方式,可以将网络、主机、数据库、应用、存储、虚拟化等IT资源作为相关业务的组成单元,从业务应用视角提供给客户对IT 资源的监控方式。可以通过业务视图发现业务组件的故障点,从业务组件到对应的IT资源设备,实现完整IT资源监控和快速定位故障的效果。

业务信息监控系统应具有良好的开放性,提供丰富的开放接口,满足对新应用系统的监控定制需求,便于用户对新应用系统的监控部署。

? 能够监控各业务系统的实时工作状态,及时发现各业务系统的硬件宕机和逻辑宕机故

障;

? 可建立基于网络系统、服务器主机系统、数据库系统和中间件应用系统之上的企业综

合业务监控管理系统;

? 能够监控各业务系统的整体运行效率;在监控整体效率的基础上,可将与业务系统相

关联的IT资源分解,可监控单个IT资源的执行效率,发现影响业务系统运行效率的 系统和设备;

? 能够对业务系统涉及的IT资源进行组合,形成以业务视角的运行状态监控管理方式,

从业务视角可查看各IT资源单元的运行状态;

? 能够监控业务系统的关键进程和资源占用情况;能够监控业务系统所涉及IT系统的

运行日志,对系统日志进行分析。当系统出现异常情况及时报警,从而及时掌握应用业务的运行状况,确认系统的性能。分析系统的性能瓶颈,协助定位应用系统的故障; ? 能够对应用系统做根源故障分析,如根源故障在业务系统内,报出根源故障。如果根

源故障在业务系统外,对引起的应用系统故障进行提示,并可追踪根源故障;

3.1.6、业务维度的拓扑展示

以重要业务服务器系统为中心,系统提供重要业务系统的拓扑图,显示从数据库服务器到前置服务器的业务服务视图。当系统资源(如服务器、网络等)发生故障时,能够快速定位受影响的业务。支持在业务维度视图上直接查看故障信息。

业务服务拓扑图应包括如下信息:

? 拓扑图包含也业务系统有关的所有设备,包含客户端、交换机、路由器、服务器、

存储备份设备等。

? 拓扑图能够反应业务系统的真实运行状态,如服务器端的IP地址、服务器的性能、

服务器的存储状态等等。

? 拓扑图能够与相关的维护信息相关联,可以从拓扑图查询业务系统的维护人员、业

务维护信息,各处于热备状态的设备运行情况等属于服务器的相关信息。 ? 拓扑图能够与相关的资产信息相关联。

? 拓扑图与报警事件信息相关联,能够实现拓扑图的报警。

? 拓扑图的报警事件与知识库相关联,能够查询相关的处理方法,对出现的故障做推

荐的处理措施。

3.1.7、应用性能分析

能够监控应用系统的关键进程和资源占用情况;能够监控应用系统的运行日志,通过对系统运行日志和资源占用情况进行分析,分析系统的性能瓶颈,协助定位应用系统的故障。 当系统出现异常情况及时报警,从而及时掌握应用业务的运行状况,确认系统的性能。

能够对业务系统的响应时间做分层的分析,发现系统的性能瓶颈。

3.1.8、IT资源使用分析

可分析当前IT资源使用情况和未来IT资源使用趋势,主要基于监控对象的资源使用情况的监控,如磁盘阵列、数据库表空间、应用系统容量及当前用户数量,分析展示一定时期内相应指标的变化趋势和未来发展趋势的预测分析,帮助运维人员掌握目前IT资源使用情况,可根据业务对IT资源做科学的规划和调整。

3.2 监控指标功能 3.2.1、IT资源监控类型

3.2.2、网络设备状态监控

监控平台基于SNMP和SSH协议,对支持这些协议的网络设备提供监控和管理。网络运行状态监控包括网络故障监控、网络性能监控、网络流量监控和网络配置监控。

网络故障监控功能:

? 能够及时发现网络设备出现的物理宕机(如停电等)、逻辑宕机(如误操作命令

引起宕机等);

? 能够及时发现网络设备出现的CPU、电源、风扇、设备温度等故障; ? 能够接收网络设备发出的故障日志信息;

? 能够发现重要网络重要链路故障事件,重要网络设备与网络服务器(如网站系统、

电子邮件系统、DNS系统、ERP应用服务器、PDM系统等)之间的线路状态、重要网络设备与业务系统服务器之间的线路状态等;

? 能够发现网络设备连接重要网络链路的端口物理宕(端口物理故障等)、逻辑宕

(误操作shutdown端口)等;

? 能够及时发现网络协议故障事件,包括网络协议运行过程中产生的运行故障(如

ospf协议运行无法到达full状态等),从而可能导致网络运行不正常的事件; ? 能够发现路由器CPU使用率过高(大于85%)和内存余量太小而引起网络质量下

降的故障; 网络性能监控功能:

? 能够及时了解监控的各类网络设备的CPU使用率、内存使用率;

? 能够及时了解重要网络链路的带宽利用率、Drop包率、Error包率、CRC校验错

误包率;

? 能够及时了解监控交换机的总的数据吞吐量;

? 能够及时了解监控交换机的端口速率(端口总速率、端口入速率、端口出速率); ? 能够及时了解网络设备运行情况,如网络设备连续运行时间、网络设备运行状态、

网络设备模块运行状态,网络设备切换情况等; 网络流量监控功能:

? 能够实现根据源IP地址、目的IP地址、协议号、服务号、自治域号等采集重要

网络链路流量、网络整体流量等信息;

? 能够实现设定网络正常通信网络流量的基准数据,通过与实际网络流量对比,发

现异常的网络流量,定位异常流量属性;

? 能够提供能够准确地了解到某个IP、某个协议、某个时段等的详细流量信息,使

网络管理人员根据统计的数据,制定合适的流量监控策略; 网络配置监控功能:

? 能够及时发现网络设备配置参数的变更,结合运维管理系统中的变更管理流程验

证网络配置变更的合法性;

? 能够对用户配置进行监控,判断是否为合法用户使用合法权限进行合法操作;

3.2.2、服务器状态监控

服务器系统监控范围包括各种服务器系统的32位或64位系统,包括AIX、Linux、Unix、Windows操作系统。帮助运维人员实时了解主机的运行状态,对监控的指标及时报警,保证主机系统的连续运行,降低故障时间。

基本监控指标包括:

? CPU监控:CPU利用率,显示系统/用户/空闲时间百分比;支持多CPU和多核

情况下的汇总显示和分CPU/核显示等;

? 进程监控:进程的运行情况,如进程、多个实例、子进程等CPU、内存、网络

等系统资源的占用情况,并对相关事件发出告警;

? 磁盘监控:被监控系统上的配置磁盘(包括物流磁盘、逻辑磁盘、虚拟磁盘、

卷组、远程磁盘等)的相关属性。监控内容包含磁盘的配置属性、磁盘空间使用率、数据传输、平均等待时间及繁忙程度等参数。当某项或某些项的组合指标超过特点闸值时报警;

? 文件系统监控:存储空间和文件系统的占用率,超过限定闸值及时报警; ? 特点文件:监控系统中文件和目录的相关属性,包括名称、文件大小、拥有者、

访问权限、修改日期、文件包含的特定字符以及链接等。如发现文件被修改或其它异常时(包括非法访问、大小异常等)产生报警。同时监控特定目录下的

文件个数;

? 用户:监测与用户有关的特定关联的信息,主要包括用户名、用户ID、登录

时间、登录终端IP信息等。

? 服务器网络接口监控:监控服务器网络端口的输入、输出、错包及各类可用统

计参数,端口是否被停用或者删除。

? 日志监控:日志文件的变化情况,可根据监控系统及用户应用系统的日志文件

大小属性,并根据日志中出现的特定关键字信息进行报警。

? 内存:内存大小、内存的使用率、内存的可用空间、交换进内存的页数、交换

出内存的页数等

? 交换空间:交换空间的大小、交换空间的使用率等。

3.2.3、数据库监控

数据库监控包含目前流行的大多数数据库Oracle、Sql Server、MySql等,基本监控功能如下:

? 能够监控数据库服务器实例的配置运行情况,包括默认配置是否使用、参数名、参

数ID、参数类型等指标;

? 对数据库的CPU使用率、内存使用状况进行监控;

? 能够监控数据库的存储状况,如各类存储分配情况、总体空间占用情况等; ? 为避免死锁的发生,自动监控可用资源;

? 监控服务器实例的所有进程信息,报告CPU使用情况、进程活动、系统进程等; ? 监控数据库的WAIT状况,如Buffer Busy Wait等;

? 监控数据库的I/O状况,可以查看任意一个数据文件或表空间上的物理/逻辑的读

写;

? 监控实时SQL语句的运行状况,要求能够捕捉瞬时的或一段时间内执行的SQL语

句,使管理员可以有效地获取关于正在执行的事务的详细信息; ? 监控数据库的日志文件; ? 监控用户连接情况;

? 监控数据库并发连接数;

3.2.4、Web中间件监控

基于Java技术的中间件平台有WebSphere、WebLogic、Jboss和Tomcat,Windows下的中间件平台有IIS。

Java技术的中间件平台需提供下列类别的参数监控:

? 能够监控应用服务器及中间件的配置情况、运行状况和请求CPU使用率;

? JDBC数据库连接池的大小,包括AllocateCount,CloseCount,CreateCount,FaultCount,

FreePoolSize, PercentUsed,PoolSize,PrepStmtCacheDiscardCount,WaitTime等参数;

? 中间件容器中Web应用程序的状态,包括ConcurrentRequests,ErrorCount,

LoadedServletCount,RequestCount,ServiceTime等参数;

? 系统平均响应时间和各个请求的响应时间;最差响应的请求情况,Servlet 响应时

间,接受负载客户机响应时间,后端资源响应时间等;

? Servlet 引擎线程池大小,该指标决定了包含 Web 应用 的JVM 可执行工作量; ? JVM虚拟机中的JVM的堆大小。

IIS技术的中间件平台需提供下列类别的参数监控:

监测点 监测指标 指标含义 Ping 服务成功率(%) 平均响应时间(ms) 每秒接收字节数(Byte/sec) 接收包数和发送包数的比值 接收包的平均响应时间 每秒接收的字节数 每秒发送的字节数 发送字节数/秒+接收字节数/秒 实际数据流量/最大数据流量 IIS流量性每秒发送字节数(Byte/sec) 能 每秒总字节数(Byte) 带宽使用率(%)

总接收字节数(kB) 总发送字节数(KB) 总处理字节数(KB) 每秒HTTP请求数(个/秒) 每秒GET请求数(个/秒) 每秒POST请求数(个/秒) 每秒CGI请求数(个/秒) IIS请求性当前CGI请求数(个) 能 总HTTP请求数(个) 总GET请求数(个) 总POST请求数(个) 总CGI请求数(个) 最大CGI请求数(个) 当前连接数(个) 每秒尝试连接数(个/秒) 每秒尝试登录数(个/秒) 自服务启动后接收字节总数 自服务启动后发送字节总数 总接收字节数+总发送字节数 使用各种方法进行的 HTTP 请求的速率 使用 GET方法进行的 HTTP 请求的速率 使用 POST方法进行的 HTTP 请求的速率 每秒由服务同时处理的 CGI 请求数 当前由服务同时处理的 CGI 请求数 自服务启动后进行HTTP请求的总数 自服务启动后用 GET方法进行的 HTTP 请求的总数 自服务启动后用 POST方法进行的 HTTP 请求的总数 自服务启动后所执行的通用网关接口 (CGI) 请求总数 自服务启动后由此服务同时处理的最大 CGI 请求数 当前由服务同时处理的连接数 每秒用服务尝试连接数 每秒用服务尝试登录数 自服务启动后由此服务建立的最大并发连接数 自启动服务后试图连接到服务的连接总数 自启动服务后试图登录到服务的登录总数 IIS连接性能 最大连接数(个) 总尝试连接数(个) 总尝试登录数(个) IIS阻塞性当前阻塞请求数(带宽自服务启动后由于带宽限制设置而

能 限制) 暂时阻塞的当前请求数 阻塞的请求总数(带宽自服务启动后由于带宽限制设置而限制) 阻塞的用户请求总数 阻塞字计数(带宽限制) 阻塞字节数(带宽限制) 每秒锁住请求数(个/秒) 每秒解锁请求数(个/秒) 总锁住请求数(个) 总解锁请求数(个) 每秒未发现错误数(个/秒) 每秒锁住错误数(个/秒) 当前由于带宽限制设置而阻塞的字节数 自服务启动后由于带宽限制设置而阻塞的字节总数 每秒使用 LOCK 方法的 HTTP 请求数 每秒使用 UNLOCK 方法的 HTTP 请求数 自服务启动后使用 LOCK 方法的 HTTP 请求总数 自服务启动后使用 UNLOCK 方法的 HTTP 请求总数 由于未找到所请求文档,每秒服务无法满足的请求数 由于所需文档被锁定,每秒使服务器无法满足请求而导致的错误数 自服务启动后由于未找到所请求文档,服务无法满足的请求总数 自服务启动后由于所需文档被锁定,使服务器无法满足请求而导致的错误总数 服务器接收文件的速率 服务器发送文件的速率 服务器处理文件的速率 服务器自启动后接收文件的总数 服务器自启动后发送文件的总数 服务器自启动后处理文件的总数 IIS锁信息 IIS错误信息 总发现错误数(个) 总锁住错误数(个) 每秒接收文件数(个/秒) 每秒发送文件数(个/秒) IIS文件监每秒处理文件数(个/测 秒) 总接收文件数(个) 总发送文件数(个) 总处理文件数(个)

IIS网站基网站状态 本性能 网站运行的状况

3.2.5、虚拟设备监控

监控管理系统支持对VMWare、HyperV、XenServer的监控管理,满足了客户对IT系统中虚拟资源的监控需求。

? 实现物理环境与虚拟环境的统一监控,展现物理环境与虚拟环境的关联关系,便于

及时定位故障;

? 实现异构(多厂商)虚拟化环境的统一监控,解决由于监控工具数量繁多而造成的

操作繁琐问题;

? 实现虚拟机运行数据采集,为容量规划、虚拟迁移等决策提供数据支持; ? 虚拟设备的物理主机状态监控,CPU总量、CPU使用量、CPU使用率,内存总量、

内存使用量、内存使用率,网卡配置等;

? 虚拟机监控,虚拟机名称,IP地址,被分配内存,虚拟机CPU和内存使用率,状

态(是否启动)、端口组、操作系统,说在主机、网络、存储信息。

四、部署与配置

4.1、部门级部署

对于网络环境比较简单,设备数量较小的网络,可采用独立部署模式,部署一套安全审计系统,直接管理所有的安全设备与网络主机。

区域A审计平台管理中心路由器IDS二层交换机业务主机区域B采集端中心交换机管理端IDS路由器业务主机

4.2、企业应用部署

对于网络环境复杂、或者存在大量安全设备的网络,采用集中部署模式。根据网络划分的多个区域(如:生产区、WEB服务器)每个分区内部部署一套采集组件,实现本分区内的信息收集和处理。同时,在中心区域部署一套智能IT运维监控系统,通过与各类IT资源和系统通信,实现整个网络IT资源的全局监控。

区域A审计平台采集端管理中心交换机IDS业务主机区域B管理端业务主机采集端交换机IDS

4.3、集团应用部署

对于结构复杂,层次化的网络组织,需要划分为多个管理级别,如集团公司网络,一级子公司网络。集团公司、一级子公司的管理范围、需求不同,此时采用级联部署模式。

在集团公司和一级子公司网络分别部署一套智能IT运维监控平台,实现本地网络的中IT资源的运维监控,同时各一级子公司网络的IT资源的监控数据会传递到集团公司网络,以便集团公司IT运维监控系统可管理整个集团的IT资源的运行状况。 集团公司管理中心在收到各一级子公司管理中心传送的监控数据后,可以进行统一数据入库、监控数据分析和集中运维数据统计,实现统一的运维监控功能。

区域A1区域B1分部审计平台A业务主机业务主机分部审计平台B管理中心业务主机业务主机管理中心采集端采集端采集端采集端区域B2管理端管理端区域A2管理端管理端业务主机业务主机分支一分支一业务主机业务主机分支二分支二IDSIDSIDSIDS分支网络分支网络中心区域管理中心中心审计平台管理中心DB2DB2管理端管理端采集端采集端备份备份

4.4、部署要求

IT运维监控系统部署可从公司网络结构、设备数量、业务系统构架、业务数据信息等方面进行综合评定后选择适合的部署方式。以下数据仅供参考

单位用户数<= 500 主机服务器<= 150台 用户数<=1200 说 明主机服务器<= 100台 设备安全设备<=20 台 网络设备<=160台安全设备<=35 台 网络设备<=250台部署方式独立部署集中部署 4.5、运行环境

智能IT运维监控系统是一套软件包,可以安装在独立的服务器上运行,系统所需运行环境如下:

平台支持的操作系统 Windows Server 2003Windows Windows XP Professional Windows 7 Windows 2008 Server Redhat Enterprise Linux4Linux Redhat Enterprise Linux5 CentOS 最低Intel酷睿双核CPU,推荐使用Intel 至强4核以上CPU,至少2GB内存,推荐4GB以上内存, 500GB以上磁盘空间系统需求 最低Intel酷睿双核CPU,推荐使用Intel 至强4核以上CPU,至少2GB内存,推荐4GB以上内存, 500GB以上磁盘空间

五、效益与价值

5.1、产品价值

? 一体化的智能运维监控平台,降低IT投资管理规模;

? 灵活的监控扩展能力,确保IT监控的长期可持续化、节省IT管理的未来投资; ? 可快速满足监控需求能力,确保IT系统的稳定运行;

? 全面提升故障定位能力,缩短故障修复时间,减少故障损失; ? 全面IT结构梳理,减少变更冲突、降低单点故障风险; ? 坚强运维经验的沉淀固化,降低人员流动风险; ? 支持应用业务监控,直接辅助业务管理;

5.2、效益体现

IT运维监控管理平台实现了“监视、管理、控制”三者紧密结合,监测的结果作为依据来分析、决策和指导IT运维工作的进行,主要效益体现在以下几个方面:

IT系统资源的集中监控:

IT运维监控管理平台监控的对象涵盖IT资源系统中的的网络设备、主机设备、中间件设备及应用服务等,通过对与关键业务管理系统相关IT资源对象的运行状态原始数据的集中采集、分析和存储,实现了对企事业单位各类IT资源设备的集中监控管理。集中监控使得运维人员无需在多套监控系统间来回切换管理不同种类IT 资源,只需一套系统即可实现一体化监控管理上百个主流厂商、上万种型号的软硬件IT 资源。

故障发生时,智能分析,快速定位:

IT资源告警发生时无需费时费力逐步排查,系统自动进行告警智能分析,快速定位故障根源,同时提供可选解决方案,帮助运维人员快速解决故障问题。

智能IT运维监控平台-技术白皮书V2

目录一、背景与需求.......................................................................................................................31、背景.
推荐度:
点击下载文档文档为doc格式
1rkq68iet50vngk58yua7wp9920csk00zri
领取福利

微信扫码领取福利

微信扫码分享