数据中心灾备体系设计详细介绍与分析
2010-03-03 网络 网络
数据中心灾备体系设计主要由三部分组成:灾备需求分析、灾备技术体系设计与灾备管理制度设计。灾备需求分析是根
据数据中心 的业务特点与系统特点,分析存在的风险;灾备技术体系设计则是为达到灾备需求的旧标而进行的具体技
术实现;灾备管理制度设计则是为确保灾备系统规范运作而 设立的管理制度。由于《规范》中对灾备管理制度的设计
已经提出了比较明确的设计方法与要求,本文将不再赘述,而将重点放在介绍灾备需求分析与灾备技术体系 设计方面,
为相关工作的具体实施提供参考。
一、区域数据中心灾备需求分析
(一)风险分析
全面详尽的风险分析是数据中心灾备体系设计的基础,风险分析方法包括:
1. 资产识别,主要包括:基础设施、硬件、软件、数据、文档、服务和声誉等。单位应对资产进行分类,以区分
资产的不同重要程度并 确定重要资产的范围,应X对资产进行标识以区分资产对业务正常运作的影响程度,据此确定
资产的等级。
2.威胁识别,即识别信息资产构成潜在破坏的可能性因素,如自然因素与人为因素,内部因素与外部因素等。
3.脆弱性识别,即识别可能被威胁利用的信息资产的弱点,主要包括技术与管理两个方面。技术脆弱 性涉及物理
层、网络层、系统层、应用层等各个层面的安全问题;管理脆弱性可分为技术管理脆弱性和组织管理脆弱性两方面,前
者与具体技术活动相关,后者与管 理环境相关。
具体分析活动可通过问卷调查、工具检测、人工核查、文档查阅和渗透性测试等方式开展。完成风险分析后,需要
根据灾难发生的可能性、灾难发生后的损失预计等 因素,计算对应的风险值,进行风险分级,为后续分析工作提供参
考。
(二)业务影响分析
1.定义
业务影响分析(Business Impact Analysis,BIA)的目的是确定不同业务遭遇到风险后对企业的影响程度。通过分
析有形的和无形的影响,估算对停止业务时间长短的接受情况和使影响 降至最低的处理需求,对灾备的其体实现提出
明确要求。BIA的目标包括:(1)识别和量化每个业务单元或者资源对整个企业在业务运行方面的影响;(2). 识别潜在
的失效场景和评估潜在的威胁;(3)定义针对不同的灾难恢复要求所需要的不同级别的投资情况;(4)建立灾难恢复时的
恢复流程优先级,指导灾难备 份恢复策略的制订。
2.BIA业务影响分析的方法
(1) 业务功能地位分析。可从业务功能的政策要求、是否核心业务、业务涉及的机构与用户范围、业务处理实时性
与频度、业务功能与机 构内外其他业务功能的关联等多个角度综合分析。
(2)业务中断影响评估。主 要包括两个方面,一是以量化的方法,评估业务中断可能带来的直接与间接经济损失;
二是以非量化的方法,评估业务中断所引发的社会影响、法律影响、信用影 响、品牌影响等。
业务影响分析最终将影响对灾难备份体系的需求,根据《规范》的要求,灾备体系的需求必须明确需求等级、各等
级对应的最低恢复要求以及恢复的优先级。主要指 标是RTO(Recover Time 0bjec—rive),即灾难发生后,信息系统从
停顿到恢复正常的时间要求,以及RPO(Recover Point 0hieetive),即灾难发生后,数据必须恢复到正常状态的时间要
求。灾难恢复能力等级与上述两项指标的参照要求如表1所示。
表1灾难恢复能力等级及RTO、RPO指标要求
(三)基 础架构分析
数据中心技术体系分析是灾备技术体系建设的基础,灾备技术体系与数据技术体系匹配程度的高低,决定了灾备中
心对数据中心生产环境的可替代程度,对于高效实 现灾难恢复,提高灾备中心可用性有重要意义。对数据中心技术体
系的分析主要从以下两方面人手。
1.基础运 行环境分析。在确保灾备中心与数据中心技术架构基本一致的前提下,明确所需要的设备类型和数量,
对机房配电、空调、地板承重 以及布线的具体要求等基础环境信息,为选择具体的灾备环境提供参考。
2.应用部署特点分析。主 要分析各类应用部署平台的情况、应用之间的数据依赖关系、应用正常运行需要数据质
量、应用正常启动和异常启动需要的时间等关键因素,作为灾备中心应用体系 构建的基础。
二、区域数据中心灾备技术体系设计
(一)灾备模式的基本体系架构
灾备模式主要有“同城灾备”、“异地灾备”以及“同城一异地灾备”三种主要方式。同城灾备,是指灾备中心与
生产中心处于同一城市内,可同时采用同步备份与 异步备份技术。其具有最低的投资成本,最快的灾难恢复速度,极
高的数据保障,但无法应对区域性的灾难风险。异地灾备,是指灾备中心与生产中心在不同的城 市,一般只能实现异
步备份。其投资成本较高,灾难恢复速度与数据保障能力略低,但可应付广泛的灾难风险。同城一异地灾备则是两者的
结合,投资成本最高,但 同时具有前两者优点。同城一异地模式也分两种实现方式,一种是首先建立同城灾备中心,
然后异地灾备中心实现对同城灾备中心的备份;一种是同城灾备中心与异 地灾备中心分别独立为数据中心实施备份。
具体选择何种灾备模式,需要综合考虑所面I临的风险特点、业务特点、成本投入等多种因素。由于数据中心面临
的重大风险绝大多数都发生在数据中心范围内,而 同城灾备中心在业务迅速恢复方面具有比较突出的优势,因此同城
灾备中心的建设一般是必须的。灾备模式的选择建议如下。
1.全国性数据中心采用同城一异地灾备模式。由于其业务系统与数据的影响面广,由此必须采用最为可靠的灾备
模式。
2.建立总中心一区域两级数据中心的机构,在区域数据中心建立同城灾备,并通过数据总中心的异地灾备中心,
实现对各区域数据中心的集中式异地灾备。当区域 数据中心出现严重故障时,可通过同城灾备中心实现对全省业务的
迅速接管,而出现区域性重大灾难时,可通过数据总中心的异地灾备中心实现区域业务的恢复。这 一模式既减少了区
域自建异地灾备中心所需的庞大投资,又能提供全面的灾备保护。
(二)灾备中心基础环境建设
灾备中心基础设施建设应重点考虑以下因素:
1.选址。灾难备份中心与生产中 心之间距离合理,应避免灾难备份中心与生产中心同时遭受同类风险。综合考虑
生产中心与灾难备份中心交通和电讯的便利性与多样性,以及灾难备份中心当地的业 务与技术支持能力、电讯资源、
地理地质环境、公共资源与服务配套能力等外部支持条件。
2。基础条件。机 房环境要求与主中心相同,各项建筑基础环境(如防雷、防火、防静电、承重、分区隔离等)、供
配电环境、温湿度空调环境、消防和监控安全环境等,都应参照生 产数据中心机房环境设计,至少达到生产数据中心
机房环境所属等级要求。考虑到灾备恢复情况下额外的外部技术支援,灾备中心在工作人员容纳方面应作适当考 虑,
以保证有足够空间容纳一定数量的技术人员集中协同办公。
3.建设方式。灾 备中心的建设方式可采用自建、共建与外包建设等方式,三种方式各有优势,需要结合各类机构
的实际情况加以选择。自建是指金融机构独立建设区域数据中心,此 模式具有较高的可靠性与安全性,但投入庞大,
适用于大型金融机构。共建是指数家金融机构共同规划投资,建设参与各方共同使用的区域灾备中心。共建模式减少 了
各方的投资压力,但需要各方充分协调,有效实现灾备中心的建设管理,参与机构不宜过多,适用于中型金融机构。托
管是指将区域灾备中心由专业的灾备服务商 建设管理,金融机构向其租用灾备物理环境,实现数据与系统的区域灾备
体系建设,此模式充分利用了灾备服务专业化的优势,在最大限度减少建设投资的同时,为 信息系统提供可靠保护,
适用于中小型金融机构。
表2数据备份复制主要方式之比较
(三)网 络备份体系设计