好文档 - 专业文书写作范文服务资料分享网站

监控管理和运维管理的关键事项

天下 分享 时间: 加入收藏 我要投稿 点赞

运维监控平台建设技术说明概要

建设技术需求:

技术需求 平台基于.NET或J2EE技术开发,可跨平台部署,系统支持多级部署模式,以满足后期全省运维体系大集中的需求。整个系统为一体化服务综合管理平台,要求所有功能模块必须为同一厂商统一设计规划开发而并非简单集成;系统采用SmartClient(B/S登陆、C/S操作)或B/S技术架构,客户端免维护,全中文管理界面。支持统一Portal门户管理,需有完善的用户管理功能,不同角色的用户拥有不同的管理监控权限及相应界面,所见即所得,支持分级权限管理。 平台主要包括监控管理和运维管理两大部分,其中: 1 总体要求 ? 监控管理主要包括:网络系统监控、服务器监控、操作系统监控、数据库监控、中间件监控、应用监控等。 ? 运维管理主要包括:IT资产管理、配置管理、变更管理、事件管理、问题管理、知识库管理、任务管理等。 平台软件应包括对100台服务器、50台网络设备、50台安全设备、20个数据库、20个中间件的监控及相关功能,还包括应用可用性监控(web/ftp/email等) 30个节点。整个平台为一体化服务综合管理平台,要求所有功能模块必须为同一厂商统一设计规划开发而并非简单集成;平台必须支持开放接口及二次定制开发功能。 1、监控管理总体要求 监控管理要求必须实现省局整个数据中心的IT基础设施全局2 监控管理 监控,包括网络系统监控、服务器监控、操作系统监控、数据库监控、中间件监控、应用监控等; 1)监控采集需支持SNMP、SYSLOG、FTP、JDBC、TELNET、SSH、Agent脚本等多种主动轮询及被动接收方式,监控采集过程要求必须不影响设备及业务系统的正常运行; 2)系统能够从多种角度展现监控视图,包括网络拓扑、设备分类展现、分不同区域关联展现,从业务角度关联展现,机房机架展现、服务器驾驶舱展现等; 3)告警管理支持性能告警管理、关联告警分析、故障分析处理、告警事件与服务流程工单联动触发、统一报表展现、系统管理、工具集等模块; 4)整个监控管理可方便、清晰的展现整个IT系统的健康运行状态和相应告警。 2、网络系统监控 网络系统监控主要对路由器、交换机、防火墙、IDS/IPS/网闸等设备进行监控和管理,实现网络拓扑管理、网络性能管理、网络配置管理、网络故障管理等功能,支持主流网络和安全设备厂商。 支持网络中可基于SNMP协议的网络设备监控管理需实现网络拓扑管理、网络性能管理、网络故障管理、网络配置管理等。系统能够统一进行用户全网拓扑展现,提供全网网络设备性能监控、并提供ping、tracert、telnet、网络设备配置文件自动定期备份等一系列自动化管理手段。 (1)网络拓扑视图 支持网络节点的自动发现,网络拓扑结构的自动生成及实时更新。对于自动发现的网络设备的不同平台的主机以不同的图标显示,对于无法自动识别生产厂家及产品类型的网络和主机设备,提供手工方式加以定义; 可方便、直观的定制网络监控策略、发现过滤策略; 提供网络物理拓扑图、逻辑分类视图,各视图层次清晰,可编辑视图。 (2)网络性能管理 可根据被管理的类型及其属性,定时采集性能数据,如CPU利用率、存利用率、端口利用率、端口错误率、端口丢包率、端口流量,并将数据保存在数据库中供统计、分析使用; 对每一个被管理对名,可针对不同的性能指标进行阈值设置,设置阈值检查和告警,提供相应的阈值管理和溢出告警机制;支持对监测阀值和监测平率的统一修改; 网络性能数据要可保存到数据库中,进行分析,统计和整理,按照不同的时间粒度生成性能趋势曲线,以直观的图形反映性能分析的结果,能够监测网络设备的温度、风扇、电源运转情况。 (3)网络故障管理 可监控网络中发生的各种事件,对于不同的故障等级给予不同的显示,可提供多种报警方式,如:短信、电子,声音,界面等。 对网络流量异常情况进行监控; 支持对STP、VTP、OSPF、BGP等协议的分析和识别; 支持对非法主机接入的自动发现,并可发现MAC和IP的对应情况及其连接的交换机和接口; 支持对VLAN及所属VLAN设备的管理,能够直观的呈现网络中的VLAN信息及其所属设备; 能够定位广播风暴,具有对广播风暴监控的功能,能够统计分析广播风暴的根源设备; 能够实时监测网络线路的丢包; (4)网络配置管理 能够实现网络设备的配置文件的备份和恢复;可以方便的对网络设备的配置文件进行下载和上传; 能够自动发现上述网络设备的型号、IP地址列表、各接口列表、CPU、存、硬盘,并可以自动更新自动发现的结构; 支持基于设备面板的管理,可以在设备面板上真实、实时的显示设备各端口连接状态和性能信息。 3、服务器及操作系统监控 支持IBM、HP小型机、主流PC服务器的监控和管理,包括AIX、HP-UNIX、LINUX、windows操作系统的监控和管理,同时也必须支持虚拟化主机的监控管理,包括物理实体主机及虚机的性能指标。可基于SNMP、syslog、ssh、telnet等多种采集指标方式。 (1)服务器系统监控管理 CPU性能管理:可监视系统CPU利用率,可按照占用CPU的情况给出系统所运行的进程列表; 存使用情况管理:可监视系统存的利用率以及虚拟存的使用率; 硬盘利用情况管理:可显示硬盘或磁盘阵列的使用率;可显示用于文件读或写操作的磁盘I/O利用率; 系统进程管理:可实时监视系统进程的运行状况,并能在系统进程出现异常时给出告警; (2)服务器系统文件系统管理 可实时监视文件系统空间的使用情况,并在文件系统达到一定的阈值时给出告警。 (3)服务器操作系统应用进程管理 监控应用系统进程的运行状态,可在应用系统进程出现异常时给出告警,并能在主要用系统的进程终止时给予自动重启该进程的操作,同时发送告警到控制台; 对关键进程占用系统资源的情况进行管理; 可实时检测应用系统的可用性; (4)服务器操作系统运行日志管理要求 可自动对系统syslog日志容进行分析,判断系统中的重要错误、警告以及性能等问题,并给出相应的告警; 对主机系统及其外设的硬件故障可通过对其相应的故障日志的分析,做出及时的告警; (5)服务器硬件监测 能够监测IBM、HP等服务器的硬件状态,如温度、风扇和磁盘运转情况,同时能够支持对常见Vmware等虚拟机的监测。 4、数据库监控 支持对系统中的ORACLE、SYBASE、SQL SERVER、DB2、My SQL等主流数据库进行监控及管理。能够数据库的实时性能运行状况、各种性能指标进行监控,以保证数据库的正常运作。 (1)运行监控 服务器实例的可用性,监控数据库实例的状态,登陆的用户数等; 空间监控:监控数据库表空间、日志的使用情况,碎片情况,超过指定阈值则报警; 显示和过滤数据库告警信息和数据库日志中的报警。 (2) 性能监控 锁资源监控,对阻塞了其它会话的锁进进行街区,以及监控可用的锁; 对数据库事务的监控,包括提交的事务,回滚的事务百分比等; 监控缓冲区,磁盘I/O等相关的性能数据; 监控数据库会话的数量,包括会话中当前活动和最近活动的SQL语句会话的资源消耗、会话等待的事件,会话的锁活动等; 5、中间件及应用监控 监控中间件及WEB\\HTTP\\FTP关键的运行状态和性能。涉及的产品WEBLOGIC、TUXEDO、WEBSPHERE、MQ、TOMCAT、JBOSS、EXCHANGE等 (1)可用性监控 当中间件服务器实例或其他被监控组件出现异常事件时报警; 可集成中间件管理软件的管理能力,可启动、关闭、锁和解锁服务器,具有强制垃圾惧能力,创建,优化和摧毁JDBC连接

监控管理和运维管理的关键事项

运维监控平台建设技术说明概要建设技术需求:技术需求平台基于.NET或J2EE技术开发,可跨平台部署,系统支持多级部署模式,以满足后期全省运维体系大集中的需求。整个系统为一体化服务综合管理平台,要求所有功能模块必须为同一厂商统一设计规划开发而并非简单集成;系统采用SmartClient(B/S登陆、C/S操作)或B/S技术架构,客户端免维
推荐度:
点击下载文档文档为doc格式
6gmsz5olpm5zpak1cslt1is530855j00iat
领取福利

微信扫码领取福利

微信扫码分享