华住内部文档
报警处理流程规范
< V1.0>
2015年1月18日
文 件 控 制
文件使用范围 技术运维 份数 描述 只读 文 件 修 订
版本号 V1.0 修订日期 2015.1.18 作者 周杰 修订简述 文档创建 文 件 审 批
版本号 V1.0 修订日期 2014.1.18 姓名 陈懿 职位 技术运维高级经理 签字 文 件 目 的
完善运维部报警处理规范
第一部分 概述
服务器报警处理是为了更好、更有效的保障系统上线后的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测机制,统计分析每天的各种数据,从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。另外是要有危机意识,就是了解服务器有可能出现哪些严重的问题,出现这些问题后该如何去迅速处理。
1.1. 目的
? 明确服务器报警处理规范,更好、更有效的保障系统上线后的稳定的运行 ? 监控工程师日常学习和参考
1.2. 文档范围
? 技术运维部
第二部分 报警处理流程规范
2.1 监控组收到应用相关报警邮件,邮件通知应用负责人,同时提交工单给到系统运维
组。业务类别选择IT相关问题,事件大类选择服务器相关报警,事件小类按报警内容选择。
2.2 系统运维组若能处理报警事件,接受工单, 详细填写处理方案,解决报警事件。 2.3 系统运维组若无法解决,需要研发支持处理,递交事件给到研发,研发处理后填写
处理方案,解决报警事件。
2.4 系统运维组和研发支持都无法解决,经系统运维组评估需要增加系统资源,递交事
件给到基础架构组,递交前请给出评估建议。
2.5 基础架构组根据现有流程评估,是否需要增加系统资源,接受工单,解决报警事件,
通知用户。
2.6 数据中心相关报警,监控组提交工单给到数据中心相关系统负责人。 2.7 报警处理SLA时间为3天,是否已增加资源由监控组复核。
第三部分 流程
开始报警邮件监控组邮件通知应用负责人提交工单系统运维组研发支持递交报警否解决是接受报警基础架构组接受报警解决报警解决报警关闭报警结束