异地容灭备份.,都有几种容灭备份的解决方案.每一种方案的优势和劣势.然后针对客户的需求.进行对客户来讲解或是说明. 灾难备份:
灾难备份是指为了减少灾难发生的概率,以及减少灾难发生时或发生后造成的损失而采取的各种防范措施。 灾难恢复:
灾难恢复是一个在发生计算机系统灾难后,在远离灾难现场的地方重新组织系统运行和恢复营业的过程。
灾难恢复的目标一是保护数据的完整性,使业务数据损失最少甚至没有业务数据损失。二是快速恢复营业,使业务停顿时间最短甚至不中断业务。 灾难备份中心:
灾难备份中心是一个拥有备份系统与场地,配备了专职人员,建立并制定了一系列运行管理制度、数据备份策略和灾难恢复程序,可以承担灾难恢复任务的机构。 灾难应急方案:
灾难应急方案是指在发生计算机系统灾难事件时,为了尽可能减少损失,而对计算机应用系统采取的抢救措施、故障隔离措施、恢复过程以及工作人员救护和撤离计划等。 灾难恢复方案:
是一套为保证在计算机系统发生灾难后恢复业务运行而预先制定的一套技术措施、管理方法和处理步骤。它是在充分考虑经济、技术、管理和社会条件的可行性的基础之上,提出的最佳灾难恢复策略。
从数据用途角度分析一般可将需要备份的数据分为: 系统数据、基础数据、应用数据、临时数据;
根据数据存贮与管理方式又可分为:数据库数据、非数据库数据、孤立数据、遗失数据。 系统数据(SYSTEM DATA): 系统数据主要是指操作系统、数据库系统安装的各类软件包和应用系统执行程序。系统数据在系统安装后基本上不再变动,只有在操作系统、数据库系统版本升级或应用程序调整时才发生变化。系统数据一般都有标准的安装介质(软盘、磁带、光盘)。 基础数据(INFRASTRUCTURE DATA):
基础数据主要是指保证业务系统正常运行所使用的系统目录、用户目录、系统配置文件、网络配置文件、应用配置文件、存取权限控制等。基础数据随业务系统运行环境的变化而变化,一般作为系统档案进行保存。 应用数据(APPLICATION DATA):
应用数据主要是指业务系统的所有业务数据,对数据的安全性、准确性、完整性要求很高而且变化频繁。
临时数据(TEMPORARY DATA): 主要是指操作系统、数据库产生的系统运行记录、数据库逻辑日志和应用程序在执行过程中产生的各种打印、传输临时文件,随系统运行和业务的发生而变化。临时数据对业务数据的完整性影响不大,增大后需要定期进行清理。 数据库数据(DATABASE DATA):
是指通过数据库管理系统(DBMS)来进行存取和管理的数据。 非数据库数据(NON-DATABASE DATA):
是指通过文件等非数据库管理系统来进行存取和管理的数据。 孤立数据(ORPHAN DATA):
是指从最后一次业务数据备份后到灾难发生、系统运行停止前未备份的数据。这部分数据通常需要通过人工等方法重新录入到系统中。一般情况下,孤立数据越多,系统恢复的时间就越长,业务的停顿时间也就越长。孤立数据的多少与数据备份的周期有很大关系。 对数据库数据可通过逻辑日志来恢复全部或部分孤立数据,对非数据库数据则需通过其它方法如缩短备份周期来减少孤立数据。 遗失数据(LOST DATA): 是指无法恢复或重建的数据。在灾难备份系统的设计与实施中,要重点考虑的就是防止遗失数据的产生或减少遗失数据的数量,以及如何快速查找遗失数据等等。
目前比较实用的数据备份方式可分为本地备份异地保存、远程磁带库与光盘库、远程关键数据+定期备份、远程数据库复制、网络数据镜像、远程镜像磁盘等六种。 (1)本地备份异地保存
是指按一定的时间间隔(如一天)将系统某一时刻的数据备份到磁带、磁盘、光盘等介质上,然后及时地传递到远离运行中心的、安全的地方保存起来。 (2)远程磁带库、光盘库
是指通过网络将数据传送到远离生产中心的磁带库或光盘库系统。本方式要求在生产系统与磁带库或光盘库系统之间建立通信线路。 (3)远程关键数据+定期备份 本方式定期备份全部数据,同时生产系统实时向备份系统传送数据库日志或应用系统交易流水等关键数据。
(4)远程数据库复制
在与生产系统相分离的备份系统上建立生产系统上重要数据库的一个镜像拷贝,通过通信线路将生产系统的数据库日志传送到备份系统,使备份系统的数据库与生产系统的数据库数据变化保持同步。 (5)网络数据镜像
是指对生产系统的数据库数据和重要的数据与目标文件进行监控与跟踪,并将对这些数据及目标文件的操作日志通过网络实时传送到备份系统,备份系统则根据操作日志对磁盘中数据进行更新,以保证生产系统与备份系统数据同步。 (6)远程镜像磁盘
利用高速光纤通信线路和特殊的磁盘控制技术将镜像磁盘安放到远离生产系统的地方,镜像磁盘的数据与主磁盘数据以实时同步或实时异步方式保持一致。磁盘镜像可备份所有类型的数据。
随着信息化进程的加快,电子商务和电子政务逐渐成为社会经济的重要组成部分。将业务建立在IT系统上的企事业单位开始重视信息的安全性,这同时也是单位决策者最为关心的问题。影响信息安全的因素是多方面的,因此需要采用不同的技术手段来解决。所谓容灾,就是为了防范由于自然灾害、社会动乱和人为破坏造成的企事业单位信息系统数据损失的一项系统工程。
正确认识容灾
业务连续性(BC)与数据安全性是密切相关的,数据安全性是实现BC的基础。统计结果表明,在过去5年内,全球93%的公司有过丢失重要数据而造成业务损失的经历,72% 的业务没有可靠的BC计划,只有18%的最终用户的数据得到了可靠保护。许多企事业单位虽然已经认识到信息安全的重要性,但没有实施保证信息安全的行动,这其中的原因是多方面的,最主要的一个就是在如何建立容灾系统的问题上存在种种疑惑。我国企事业单位在实施容灾工程方面尚处于初级阶段,对容灾技术的了解主要来自国外厂商的一些介绍。某些已经建成并投入使用的容灾系统,只能实现单一业务的数据容灾,而且存在总体投入成本高、投资回报率低、容灾数据的可恢复性难以验证、需要购买厂商的技术支持、管理成本居高不下等问题。以上种种因素使得部分准备建立容灾系统的用户裹足不前。
我们应该如何认识容灾呢?容灾是一项系统工程。用户在建立容灾系统之前,首先要进行全面的系统分析,其中包括业务系统风险分析、容灾系统对业务系统的影响分析和投资效益分析。风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。既然是容灾,必须充分考虑业务系统所在地的自然环境,针对可能发生的灾难,准备相应的容灾对策。容灾系统肯定对业务系统的性能有一定影响,因此,对于那些高负荷运行的业务系统必须认真计算。建立容灾系统,除了需要购买必要的设备外,还要考虑系统维护管理成本和使用通信线路的费用。
设计容灾系统,必须提出设计指标。既然建立容灾系统是为了数据或者业务的快速恢复,容灾系统的设计指标就与业务系统的数据可恢复性密切相关。RTO(Recovery Time Objective)代表容灾系统在灾难发生后数据或者系统恢复所用的时间。RPO(Recovery Point Objective)代表灾难发生时已经备份的数据与生产中心数据的时间差。
此外,设计容灾系统还需要考虑选择容灾备份中心地点。数据库容灾要保证备份数据库的一致性,最好能够对备份数据库进行对生产系统无干扰的实时检验。通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。
目前,市场上有多种成熟的容灾技术可以选择,这些容灾技术最主要的技术差异在于数据复制的发起平台和接受平台。数据备份后的异地保存方式依靠备份介质的移动和保存。存储子系统逻辑卷之间的数据复制依靠存储子系统的数据复制软件。应用系统逻辑卷之间的数据复制依靠主机卷管理软件的远程数据复制功能。虚拟存储系统之间的数据复制依靠虚拟存储管理平台的逻辑卷复制软件。数据库服务器之间的数据库复制依靠数据库ODS功能的扩展。
企事业单位中的决策者在实施容灾系统工程时,必须制定详细的容灾计划。通过制定容灾计划,可以帮助用户根据自己的业务模式来确定容灾系统的设计要求,根据系统分析决定容灾系统设计参数,根据业务系统的区域网络环境选择合适的容灾技术。容灾计划还应该包括制定灾难发生后的应急程序,建立启动容灾系统的管理机构和各方面的行动小组,以及一些非技术的因素(如损失评估与保险商、设备重建与供应商、社会公共关系与系统用户等)。
总而言之,容灾是一项系统工程,必须通过制定详细的容灾计划来实施。在后续文章中,将就如何建设容灾系统的其它问题进行深入探讨。
容灾工程的系统分析
容灾工程的系统分析包括:业务系统的风险分析(Risk Analysis),容灾系统对业务系统的影响分析(Business Impact Analysis)和容灾系统的投入和产出分析(Cost-Benefit Analysis)
业务系统的风险分析
建立容灾工程的最终目的是保证在灾难造成对业务数据破坏后,业务数据的可恢复性,所以,首先要分析本地区影响业务数据安全性的灾难有哪些种类。灾难可以分为自然灾难,社会灾难和人为灾难。
自然灾难包括火灾、水灾、地震等突发自然灾害造成的业务系统的灾难,而不同地区的自然灾害的发生有一定的统计概率,而且自然灾害的影响范围是有一定区域的,对自然灾害的风险分析相对比较容易。在实施容灾工程时,特别要注意容灾备份中心的选择,建立在自然灾害较少的地方,在美国,一些州通过立法,规定容灾备份中心可选择的地区。
社会灾难包括区域性电力系统故障,恐怖分子制造的爆炸、战争引起定点破坏等灾难,国内外社会不安定因素的存在,必须引起足够的忧患意识。美国“9?11”事件就是一个很好的例子,一些没有采取任何容灾措施的企业由于核心业务数据的破坏而最终破产,而一些采用了容灾措施的企业得以生存,有的建立了备用业务系统的企业的业务能够很快恢复。
人为灾难包括IT系统管理人员的误操作、来自网络的恶意攻击、计算机病毒发作造成的数据灾难。近几年,人为灾难更为突出,特别是计算机病毒造成的数据损失触目惊心。最近,迅速泛滥的“冲击波”(Worm Blaster)病毒,致使全球上百万台计算机中毒,部分网络服务器瘫痪,迄今已给全球商业界造成了几十亿美元的直接损失,尽管有关公司发布了软件补丁,但余波未静,“冲击波”变种仍然伺机而动。研究结果表明,下一代电脑病毒传播的速度将更快。一种名为Flash的病毒将在极短时间内感染所有的网络,而另一种名为Warhol的病毒将在15分钟之内传遍全球。采用后发制人策略的防计算机病毒系统难以保证数据的安全,有必要建立数据的备份机制。
容灾系统对业务系统的影响分析
数据复制操作的发起来自业务系统,不论来自系统的计算层、网络层,还是存储层,肯定会影响到业务系统的性能,对于那些要求高性能的业务系统或者已经是高负荷运行的业务系统,必须分析建立容灾系统对业务系统性能的影响。不同容灾技术对业务系统的影响不同,
比如,一个采用同步数据复制技术的容灾解决方案,如果容灾备份中心与业务中心距离超过100公里以上,需要考虑数据传输的时延对业务系统IO性能造成的影响,距离越远,业务系统IO性能下降的速度越快。
容灾系统备份系统运行平稳后,需要对备份数据(数据库)的可用性进行检查,一些容灾解决方案采用的是主/备工作方式,正常情况下,备份中心的数据是不能够打开使用的,只有在业务系统工作中断,或者切断容灾进程的情况下,才能够对备份数据(数据库)的可用性进行检查,这样做,势必对业务系统正常运行产生影响。
容灾系统包括传输数据的网络,由于网络传输拥堵或者中断等原因,数据复制同样会造成业务系统性能的下降甚至业务运行的中断,当等待传输的数据溢出数据复制发起端的缓冲区时,有可能造成数据的丢失,或者数据传输次序的混乱,破坏备份数据库的一致性,使得数据库不可恢复。
容灾系统的投入和产出分析(CBA)
众所周知,TCO和ROI是衡量容灾系统投入和回报的主要指标,CBA强调的是投资产出的分析,从业务系统发展的角度考虑容灾系统投资的合理性。
首先,要考虑准备建设的容灾系统与正在运行的业务系统的延续性,保护前期投资,
为了建立新容灾系统而对原有业务系统进行大规模改造的情况,应该尽量避免。其次,要考虑业务系统扩展对容灾系统的影响,特别是存储容量增加的影响和通信线路负荷的影响,由于单业务容灾系统使用概率很低,CBA的结果倾向于选择专业的数据容灾中心服务方式。
容灾系统的设计指标
要建设容灾工程必须提出容灾系统设计指标,作为衡量和选择容灾解决方案的参数。目前,国际上通用的容灾系统的评审标准为Share78:
?
备份/恢复的范围 ?
灾难恢复计划的状态 ?
业务中心与容灾中心之间的距离 ?
业务中心与容灾中心之间如何相互连接 ?
数据是怎样在两个中心之间传送的 ?
允许有多少数据被丢失 ?
怎样保证更新的数据在容灾中心被更新 ?
容灾中心可以开始容灾进程的能力
Share78只是建立容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所以,容灾中心的设计指标主要与容灾系统的数据恢复能力有关。最常见的设计指标有:RTO 和RPO。
各种容灾解决方案的RTO有较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,同样需要投入大量资金。
RPO反映恢复数据完整性的指标,在同步数据复制方式下,RPO等于数据传输时延的时间,在异步数据复制方式下,RPO基本为异步传输数据排队的时间。实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性(SCN)是不相同的,RPO表示业务数据库与容灾备份数据库的SCN的时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。
不同的容灾解决方案的RTO和RPO是不相同的,下面列举几种容灾解决方案的RTO和RPO的对比:
设计容灾系统不能只看RTO和RPO,对于不同的业务系统和用户特殊的要求,其他一些指标有可能成为选择容灾解决方案的主要因素。譬如,某些地区为了防范一些特定自然灾害的风险,要求容灾备份中心与业务中心保持足够的距离,在这种情况下,容灾备份中心与业务中心的距离要求,成为容灾系统的重要指标。
大部分业务系统都是数据库应用结构,业务系统容灾实际上就是数据库容灾,实现数据库容灾的难度是始终要保证数据库的一致性,为了保证容灾备份数据库随时能够打开运行,必须对容灾备份数据库进行可用性检验。由于大部分容灾技术都是采用逻辑卷数据复制