某银行省分行网络设备运维服务
应急恢复预案 某科技股份有限公司
2016年8月
文档控制 Version Control
1. 文档属性
文档属性 文档名称 报告文档版本号 文档状态 文档编写完成日期 内容 某银行省分行网络设备运维服务应急恢复预案V1.0 A1 正式稿 2016年8月18日 本预案用于网络系统突发事件应急响应和恢复工作的参考文件和检查表。是为规范各种紧急事件的处理程序,提高故障处理效目 的 率,以确保现信息系统、业务系统正常进行所依据的策略、资源、步骤和流程。 密级说明:一般商密。此计划中包含的信息不得以任何形式泄露给某以外人员。 作 者 2. 文档变更历史清单
文件版本号 修正日期 修正人 备 注 3. 分发对象
报告的目标读者包括项目相关客户、领导、技术专家、项目组成员、某维保工程师、相关部门经理、销售经理、销售总监。
目 录
1. 概述 ........................................................... 1.1. 介绍 ........................................................... 1.2. 目标 ........................................................... 1.3. 原则 ........................................................... 1.4. 依据 ........................................................... 1.5. 适用对象及范围 ................................................. 2. 网络系统固有属性 ............................................... 2.1. 信息系统基本信息描述 ...........................................
网络拓扑图 ...................................................
2.2. 系统可能存在的风险、损失和影响分析 ............................. 2.3. 需要处置的风险场景 ............................................. 3. 应急处置说明 ................................................... 3.1. 应急处置条件和资源 ............................................. 3.2. 网络设备故障定位 ...............................................
明确故障影响的范围 ........................................... 判定故障产生的原因 ........................................... 判定故障恢复所需时间 ......................................... 要求服务商协助定位故障 .......................................
3.3. 应急处置过程及步骤说明 .........................................
网络故障应急处理步骤 .........................................
3.4. 应急响应联系方式 ............................................... 3.5. 应急终止条件及后续保障措施 .....................................
1.
1.1.
概述
介绍
本预案用于某银行省分行运维服务信息系统突发事件应急响应和恢复工作的参考文件和检查表。是为规范各种信息系统紧急事件的处理程序,提高故障处理效率,以确保现信息系统、业务系统正常进行所依据的策略、资源、步骤和流程。
1.2. 目标
? 对某维保的网络系统的非计划性停止进行快速反应; ? 加速网络系统的硬件、软件、端口和通讯的恢复;
? 减少突发事件对客户的技术和业务运营的影响,减少财务损失; ? 减少突发事件造成的混乱;
? 减少由于疏忽和遗漏造成的工作错误。
1.3. 原则
应急预案编制应遵循以下基本原则:
? 有效性原则:应急预案应在一定范围内及时有效地应对紧急事件。 ? 可操作性原则:应急预案应具有较强的可操作性,宜以流程图等形式表示。 ? 规范性原则:应急预案的编制应符合国家、行业规范、监管部门、上级行的要求。 ? 一致性原则:总体预案与专项预案、以及专项预案之间应保持统一和相互配合。 ? 可扩展性原则:应急预案的编制应针对现行信息系统,也应考虑将来可能的扩展。 ? 保密性原则:应急预案应根据有关制度,严格注明保密级别和范围。
1.4. 依据
该预案依据行业规范、某重大事件上报等相关管理制度进行编写制定。
1.5. 适用对象及范围
本预案仅适用于某科技维保的网络系统的非计划性的生产类紧急事件,特指安全事故类突发紧急事件:如重大设备运行事故。
2.
2.1.
2.1.1.
网络系统固有属性
信息系统基本信息描述
网络拓扑图
2.2. 系统可能存在的风险、损失和影响分析
? 硬件故障
? 网络设备硬件故障导致的停机或者部分功能不可用,进而引发业务无法正常开
展
? 软件风险
? 网络设备操作系统崩溃导致设备宕机,进而引发业务无法正常开展 ? 网络维护人员操作失误导致的网络设备故障,进而引发业务无法正常开展 ? 运营商线路风险
? 运营商端口硬件、端口配置、光缆线路中断引起的网络故障,进而引发业务无
法正常开展
? 机房环境风险
? 机房内UPS、PDU、空调原因而导致的网络故障,如UPS、PDU停止供电而
引起网络设备断电宕机,空调控温失败而导致网络设备超过温度警戒线而自动重启,进而引发业务无法正常开展
? 病毒爆发或网络入侵风险
? 大面积的病毒爆发或网络入侵有可能会导致网络等异常中止,进而引发业务无
法正常开展
? 自然灾害风险(火灾、水灾、地震)
? 自然灾害类的事件有可能会导致网络系统的硬件遭到破坏,进而引发业务无法
正常开展
? 结合风险分析结果和中断损失影响程度,确定各业务功能对恢复时间的敏感程度要
求,确定网络系统应急恢复的RTO技术指标。
? 恢复时间目标(RTO: Recovery Time Objective)灾难发生后,系统或业
务功能从停顿到必须恢复的时间要求:根据客户系统重要性等级划分和恢复要求设定的恢复时间目标。
2.3. 需要处置的风险场景
? 硬件故障:
经分析可以明确定位是网络设备由于硬件出错而导致的设备故障,如cisco 路由器 交换机硬件问题。
问题现象:
? 频繁/突然重启,并产生异常CRASH/Core信息及日志; ? 进入rommon状态 ? 网络端口无响应 ? Console端口无响应
? 设备板卡、电源、风扇等工作异常,相关模块的LED指示灯异常板
卡无法识别。 ? 设备、板卡无法启动
问题分析:硬件故障有以下可能: