1.网强网络管理系统简介
网强网络管理系统(简称:Netmaster )是针对解决各行业中、大型企事业单位,目前在IT管理过程中所面临的3个挑战以及所需要克服的1个矛盾(即内、外部客户满意度、成本控制与系统安全之间的挑战;IT系统日益增长的复杂性与运维人数、专业知识结构之间的矛盾)的第五代专家智能型综合网管系统。 1.1系统简介
Netmaster涵盖了网络管理、服务器管理、数据库管理、中间件管理、通讯管理、安全管理、机房环境管理及运维管理等,它结合了大型定制型网管以用户的管理要求为导向以及第三代网管的简单易用这两方面的特点,并以非编程扩展的方法,满足了用户不断增加的IT资源管理的要求。同时系统能兼容整合第三代网管和其它工具,专注于企业用户各种设备、应用及服务等资源的健康度、可用率和服务水平的管理,保证IT部门用户的满意度,同时通过智能专家模型解决了用户日益复杂的IT资源与运维人员数量不足、专业知识结构之间的矛盾,并将各种复杂的网络管理工作简易化、便捷化与自动化,有效帮助网络管理人员轻松驾驭网络,提高网络管理效率与水平。 1.2系统背景
随着计算机技术和Internet的发展以及各行各业信息化的普及与应用,各行业开始大规模的建立网络来推动电子商务和政务的发展,不论是政府、金融、教育、医疗等单位都逐渐将核心业务移值到电子化和网络上。而这些行业用户比以前任何时候都更加依赖于网络、IT基础设施以及应用系统来满足其核心业务需要。故此,网络管理与维护对企业的发展也就变得至关重要。而在企业网络管理这程中仍存在一些困难与问题,不仅影响了网络管理效率的提高,同时还妨碍了企业的发展:缺少智能分析过滤与自动化处理,导致故障告警泛滥,无法准确定位故障根源;运维人员数量与技术能力有限,面对大量告警堆砌,故障无法及时恢复和解决·网络规模庞大、设备分散,没有规范性的分级管理,运维效率低下及流程混乱;IP地址分配与使用不明,员工随意更改IP地址,造成IP使用冲突及网络异常;无法实时了解与监控集中在机房的网络设备,大大拖延了设备故障恢复的时间;网络环境复杂化与分散化,无法做到集中监控以及实时掌握网络整体运行情况;对IT资源的配置、分布以及性能缺乏了解,造成IT管理与投资方面的盲目性;传统IT管理工具相互不能兼容,造成信息孤岛,网络扩展与升级难、成本高。
1.3系统架构
系统要求全部采用JAVA结构开发,能在Windows,Linux,Unix不同平台下顺利移植。可以应用户要求提供Windows、Unix或Linux版本。全中文界面,软件代码完全由国内开发。采用先进且成熟的MVC模式,三层架构,显示层、逻辑层和业务逻辑层完全分离。分布式架构:数据库、采集平台和Web服务三个部分可以分布在任意的三台服务器上。系统采用三层管理平台,三层体系架构为:展示层、业务层、采集层。 2.网强网络管理系统主要功能介绍 2.1功能优势 (1)智能化故障管理
网强网络管理系统智能化故障管理功能建立了及时响应的资源预警、告警机制。系统通过告警敏感度、告警合并、告警过滤以及异常依赖、根源分析等多种高端技术手段,能够避免大量的无谓重复告警信息,防止告警泛滥。并能在众多的告警信息中,屏蔽不重要的告警信息,帮助运维人员能够将精力集中在关键问题上,准确定位可能的故障源,真正做到事先运维、整体运维,将影响业务系统健康度和可用率的一切因素事先排除。系统对网络情况全盘监控,发现异常时通过提示框、声音、E-mail及手机短信息等各种告警方式第一时间通知网管人员,满足网络管理 24 小时正常工作的要求,最大限度保证了系统的服务水平。 (2)实用便捷的知识库
系统知识库包括产品内置的知识内容以及运维人员在日常维护中新增加的维护知识内容的积累。同时知识库是建立和完善故障处理机制以及对网络性能进行分析的知识汇总,它记载了对不同异常故障情况的不同处理手段以及对异常的性能指标所采取的优化措施,以供运维人员对知识进行查询与经验共享,为维护人员及时处理异常故障及性能分析提供辅助分析决策。运维人员可通过新增功能手动添加新的知识和新的分类,并可对知识和分类进行修改与删除。通过知识进行查询,快速了解各种知识,并由异常关联到知识库,知识库会查询出该异常的知识,给运维人员提供故障的解决方法。 (3)规范的分级管理
用户可以根据地域、部门、应用等情况等建立地域和设备及资源的复合管理概念,将系统中各项设备和资源按用户权限设置成不同管理域。按照地域和部门分布管理用户权限,使IT运维人员各司其职、分工明确、提高运维效率。系统同时能
提供历史数据的按级汇报,最关键的是实时性包括上级能及时看到下级网络拓扑的实时变更;下级紧急告警信息在上级网络拓扑图中的实时显示。汇总数据具备真实性,人工分级网络管理的一大弊病就是下级网管人员汇报网络运行情况时存在瞒报、误报和漏报等现象(包括实时数据和历史数据)。 (4)安全的入网控制
系统可以探测当前段内存活的IP地址及自动发现各网段的IP地址使用情况,并提供主机定位功能,能通过IP地址查找到该IP的MAC地址及该IP所连的交换机端口。系统支持监测基于IP、MAC、端口的一一对应绑定关系,在发生改动时,实现对设备的网络连接接入的监控,并可批量处理,也可单独指定规则。安全的IP-MAC-PORT三重绑定,有效的避免用户私自更改IP地址、非授权接入网络、PC随意更换连接交换机的端口,极大的增强了网络接入的安全性。同时也为用户网络环境提供了安全保障,并且能快速定位问题设备、查找根源,同时提供变动记录作为可查依据。 (5)真实的设备背板
系统能通过真实的背板图对网络设备的端口进行信息查看、下联设备列表、启用端口、关闭端口、实时分析端口、设置事件规则等操作,并支持国内外各种主流的网络设备和其他设备。帮助网络管理人员实现不用跑机房现场就能了解到每个设备的当前端口状态,节省人力资源,只需点几鼠标就可以轻松代替原来的体力劳动,解放出更多的时间用于其他事情,提高办事效率。完全的替代了登录到设备去操作的过程 ,大大简化了对设备的控制管理。 (6)实时拓扑图展现
系统将拓扑图分为物理拓扑图、示意拓扑图(机房、机柜、地域等)、缩略拓扑图等各种类型。不仅真实准确的反映实际物理连接、逻辑链接,而且能帮助用户实时动态以图形化形式来展现系统中各种网络设备及资源(包括路由器、交换机、3层交换机、防火墙、服务器、PC机、链路、服务器资源、应用)的实际运行、使用与分布情况。其中,系统自动发现的物理拓扑图,能实时监控并动态展示网络中的每个资源类型的健康度、平均CPU利用率或内存利用率以及ICMP响应时间等资源状态,并用不同颜色进行表示。全局上帮助用户实时掌握整体网络运行状况,将最复杂的网络状况以最简明、直观的方式呈现。 (7)全面的资源管理
系统除能监控所有支持SNMP协议的网络设备资源,如路由器、交换机等,还
可以监控防火墙、服务器、数据存储设备、打印机、入侵检测设备、门禁设备、网闸等。实时展现这些设备中的CPU利用率、内存利用率、各个端口流量、各个端口状态等,系统最新引进的健康度、可用度的概念能帮助用户更快的了解IT设施的运行状态。另外,可以按运维人员需求自行添加不同指标进行监控。不仅如此,还可以针对运维人员关心设备所承载的各种应用(数据库、中间件等)及服务资源(DNS、邮件、FTP、WEB等)进行一体化和智能化的端到端管理,有效帮助用户即时掌控各种复杂的应用系统环境,还极大的提高了资源管理的准确性和有效性。
(8)非编程扩展与兼容性
系统除了能够兼容众多的厂商设备外,其可供第三方调用的标准系统接口(CORBA、Web service、RMI等),还能很好地兼容国内外第二、三代网管、机房管理、通讯管理等管理系统,全面保证系统的兼容性,满足用户在实际网络管理中,与其它系统能够高效整合的需要。同时,系统的非编程思想充分考虑了用户根据企业自身环境对业务监控系统的一些特殊需求。系统在对具体的资源监控上,不仅有内建的监控指标、扩展的监控指标,还有自定义的监控指标,用户可以根据自身业务管理的需要灵活的选择监控对象及指标,很方便用户对所监控的业务进行扩展。同时,也降低了用户因为二次开发及各项需求无法完全满足所花费的人力成本和物质成本。 (9)服务器监控
对不同的操作系统统一支持,支持Windows全系列,IBM-AIX,HP-UX,FreeBSD,Solaris,不同厂家全系列版本的Linux,提供服务器的安装程序,CPU,内存,进程,磁盘分区信息管理,具有多硬件平台多操作系统的特点,网强网络管理系统配备专业版服务器管理模块支持监控各类操作系统以及中间件的管理。
各种服务器主机可通过SNMP协议、ssh、telnet等方式来采集设备数据。可监控指标为ICMP响应时间、SNMP状态、平均Cpu利用率、平均内存利用率、虚拟内存空间、物理内存空间、已使用物理内存、进程名称列表、指定进程CPU负载、指定进程内存占用、安装软件名称列表、指定安装软件日期、指定安装软件类型、windows当前磁盘队列长度、windows平均磁盘队列长度、windows磁盘读取平均队列长度、windows磁盘写入平均队列长度、磁盘读取次数/秒、磁盘写入次数/秒、磁盘读数据速率、磁盘写数据速率、内存读取速率、内存写入速
率Trap冷启动、Trap热启动、Trap认证失败、Trap EGP丢失、用户扩展Trap、Syslog等于服务器相关数据。 (10)查询监测安装软件信息
了解被管理服务器的软件安装记录,软件名称、类型以及安装时间,查看是 否有非法软件存在,并设置在发现非法软件时发送自定义的告警信息提示工作人员及时解决.网络管理员可以用此功能监控服务器上部署软件的安全性.如下图1所示:
图1:详细的软件进程列表
(11)查询监测硬件资源使用分配信息
监测服务器硬盘分区、容量、使用空间、文件系统类型、是否为启动分区等各项信息,系统可以监测整个硬盘情况,也可以单独对一个分区同时进行监测,查看被控端内存使用情况,当前容量、当前使用率、最大使用率和平均使用率,CPU的利用率等关键硬件性能指标,在出现异常情况时自动发送出告警信息通知IT部门的网络管理人员。