Windows Server 2003 备份和恢复的最佳做法
客户具有系统的备份
可能有两种 Microsoft Windows Server 2003 的备份:“权威性系统恢复”(ASR) 备份包括群集配置(我们称之为“系统状态备份”),以及完全的本地备份(我们称之为“本地备份”)。请注意,要执行“权威性恢复”,要求提供“系统状态备份”。如果您在一个节点上执行“权威性恢复”,Microsoft 建议您在其他群集节点上执行“非权威性恢复”。
群集节点无法启动
在这种情况下,我们假定仲裁磁盘功能正常,且所有数据未受到破坏。
群集中的一个节点无法启动
群集中的其他节点则可以正常运行。 建议
使用“非权威性恢复”。这应当与“系统状态备份”或“本地备份”结合使用。
这将会恢复故障节点上的群集数据库,然后受影响节点将可以重新加入群集。在这种情况下,它将会从群集中的其他节点下载群集数据库的最新副本。
群集中的所有节点都无法启动
没有任何一个群集节点可以启动。 建议
在一个节点上使用“非权威性恢复”。假定仲裁磁盘完好,该节点应当能够利用仲裁磁盘的状态形成群集。如果上述方法无效,则可以尝试对该节点进行“权威性恢复”(这需要“系统状态备份”)。 对所有其他节点使用“非权威性恢复”。
所有节点都完好,但仲裁磁盘无法正常工作
群集节点可以启动,但是在所有节点上都无法启动群集服务,因为它无法使仲裁资源返回联机状态。事件日志中会有一个条目指出无法使仲裁返回联机状态。
- 1 -
建议
如果驱动器本身也失败,则替换仲裁磁盘;如果物理驱动器没有失败,则重新格式化仲裁磁盘。使用“权威性恢复”(如果您有的话)来启动一个节点。 或者
使用 fixquorum 标记来启动群集服务(请注意 fixquorum 允许您启动因为仲裁资源被破坏而无法联机的群集服务,但它并不能真正为您修复任何数据),然后选择一个替代仲裁资源(如果您没有其他磁盘的话,可以使用本地仲裁)。通过设置新仲裁,可以在仲裁上创建新的仲裁日志文件,但注册表检查点文件并没有恢复,因为旧的仲裁已不可用。 Reskit 工具 ClusterRecovery 可以帮助解决这个问题。
请按照“检查点文件已丢失或损坏”一节中介绍的过程来解决检查点文件的问题。
其中一个群集节点上的群集数据库损坏
您会发现,如果节点没有加入群集或是群集日志(默认情况下为 %windir%\\cluster\\cluster.log)中的条目指向损坏的单元,则会出现这种情况。 建议
对此节点进行一次“非权威性恢复”,然后使其加入群集。 或者
从仲裁磁盘上复制最新的检查点文件 (chkXXX.tmp),并覆盖受影响节点上的 %windir%\\cluster\\clusdb 文件,然后重新启动该服务。 或者
在某个工作群集节点上停止该服务。使用 RegEdit 卸载群集单元。 从工作节点上将 %windir%\\cluster\\clusdb 文件复制到受影响节点上的 %windir%\\cluster\\clusdb,然后重新启动所有节点上的群集服务。
所有节点都运行良好,但仲裁数据库损坏
在这种情况下,没有节点可以形成群集,事件日志中的条目会指出一个仲裁损坏的日志。 建议
使用 resetquorumlogfile 开关启动群集服务。如果所有资源都成功启动,并且配置看来也没有问题,那么就不需要再执行什么操作。通过设置新仲裁,可以在仲裁磁盘上创建新的仲裁日志文件,但注册表检查点文件并没有恢复,因为旧的仲裁已不可用。
- 2 -
请按照“检查点文件丢失或损坏”一节中介绍的过程来解决检查点文件的问题。
如果这个方法失败,请对一个节点进行“权威性恢复”,然后重新启动群集服务以形成群集。对所有其他节点使用“非权威性恢复”。
检查点文件丢失或损坏
如果由于注册表检查点文件损坏而找不到或不能加载该文件,则资源处于联机状态时在注册表中可能不具有最新信息。但是这种影响取决于资源,在一些情况下,资源可能无法返回联机状态。在其他情况下,所作的配置更改可能会丢失。如果检查点文件丢失,群集服务并不会在事件日志中添加一个事件,因此如果您怀疑存在这个问题的话,就需要查看群集日志。 建议
如果资源无法返回联机状态,请使用资源工具包工具 ClusterRecovery 重新创建资源检查点。 注意:您应当仅恢复无法返回联机状态的资源的检查点文件。
如果这个方法无法解决问题,请对一个群集节点使用“权威性恢复”,然后重新启动群集服务以形成群集。对所有其他节点使用“非权威性恢复”。
一个群集磁盘损坏或无法正常工作
依赖于此磁盘的资源可能无法返回联机状态。该磁盘无法返回联机状态或磁盘上的数据被损坏。有两种情况,一种是需要替换磁盘,一种是不需要。
磁盘本身并没有损坏,并可以返回联机状态
建议
将数据恢复到磁盘
磁盘已损坏
建议
替换磁盘,并对一个节点使用“非权威性恢复”。将数据恢复到磁盘。 或者
使用包含 ClusterRecovery 工具的资源工具包,这个工具允许使用一个新磁盘替换现有的物理磁盘资源,而不用进行系统状态恢复。一旦物理磁盘返回联机状态之后,您就可以恢复任何数据。
- 3 -
客户没有系统的备份
在这种情况下,我们建议采用解决一些灾难问题的过程,而不使用备份。很明显地,这个解决方案对于所有情况来说并不完整。
一个或多个群集节点的单一系统损坏
在这种情况下,我们假定仲裁磁盘功能正常,且所有数据未受到破坏。
群集中的一个节点无法启动
其他群集节点则可以正常运行。 建议
退出这个节点并尝试找到一个替代节点。 向群集中加入新节点。
群集中的所有节点都无法启动
建议
您需要从头开始重新构建群集。
所有节点都完好,但 Quorum 磁盘无法正常工作
建议
使用 fixquorum 标记来启动群集服务(请注意 fixquorum 允许您启动因为仲裁资源被破坏而无法在线的群集服务,但它并不能真正为您修复任何数据),然后选择一个替代仲裁资源(如果您没有其他磁盘的话,可以使用本地仲裁)。通过设置新仲裁,可以在仲裁上创建新的仲裁日志文件,但注册表检查点文件并没有恢复,因为旧的仲裁已不可用。 Reskit 工具 ClusterRecovery 可以帮助解决这个问题。
请按照“检查点文件已丢失或损坏”一节中介绍的过程来解决检查点的问题。
其中一个群集节点上的群集数据库已损坏
建议
- 4 -
从仲裁磁盘上复制最新的检查点文件 (chkXXX.tmp),并覆盖受影响节点上的 %windir%\\cluster\\clusdb 文件,然后重新启动该服务。 或者
在另一个节点上停止该服务。使用 RegEdit 卸载该群集单元。
从群集中的一个正在运行的节点上将 %windir%\\cluster\\clusdb 文件复制到受影响节点上的 %windir%\\cluster\\clusdb,然后重新启动所有节点上的群集服务。
所有节点都运行良好,但仲裁数据库损坏
建议
使用 resetquorumlogfile 开关启动群集服务。如果所有资源都成功启动,并且配置看来也没有问题,那么就不需要再执行什么操作。通过设置新仲裁,可以在仲裁磁盘上创建新的仲裁日志文件,但注册表检查点文件并没有恢复,因为旧的仲裁已不可用。
请按照“检查点文件丢失或损坏”一节中介绍的过程来解决检查点文件的问题。
检查点文件丢失或损坏
如果由于注册表检查点文件损坏而找不到或不能加载该文件,则资源处于在线状态时在注册表中可能不具有最新信息。但是这种影响取决于资源,在一些情况下,资源可能无法返回在线状态。在其他情况下,所作的配置更改可能会丢失。如果检查点文件丢失,群集服务并不会在事件日志中添加一个事件,因此如果您怀疑存在这个问题的话,就需要查看群集日志。 建议
如果资源无法返回在线状态,请使用资源工具包工具 ClusterRecovery 重新创建资源检查点。 注意:您应当仅恢复无法返回在线状态的资源的检查点文件。
一个群集磁盘损坏或无法正常工作
建议
如果磁盘已被强行卸下,可能需要运行 chkdsk 以便使该磁盘返回联机状态。当磁盘返回联机状态时,群集服务会自动运行 chkdsk。在 Windows Server 2003 中,一条 chkdsk 日志记录会被保留,以便您可以了解磁盘处于什么状态以及发现了什么问题。如果磁盘上的应用程序数据已被损坏或删除,而您又没有备份,那么就无法恢复数据。您必须重新生成数据或是重新构建应用程序。
- 5 -
服务器群集不会向用户提供数据保护和冗余,您应当使用冗余硬件(镜像磁盘或 RAID 磁盘),并经常备份数据。
群集备份的最佳做法建议
本节简要介绍了完成一致的群集备份的建议步骤。
我们建议您在对群集进行重大配置更改的前后进行一次备份。必须执行以下所有步骤。
1. 使用一个 ASR 备份定期备份每个节点的系统状态,必须在节点上运行群集服务,以便正确记
录群集磁盘的磁盘信息。
这实际上是备份节点的系统状态数据。您目前尚不能备份所有共享磁盘上的数据,只能备份本地承载的磁盘上的数据。
要执行恢复操作,备份文件必须可以从本地获取或者使用 PXE 启动获取。可以通过网络进行 ASR。如果在 ASR 期间进行磁盘维护,则需要重新启动计算机,然后重新启动 ASR 过程。重新启动的消息并不会警告您必须重新启动 ASR 操作。备份支持在 ASR 期间加载非原装驱动程序 (in-the-box driver),但仅限于 HCL 中的驱动程序/设备。 2. 请单独备份节点承载的所有群集磁盘(只能备份所有的磁盘)。
将所有群集磁盘备份保存到网络共享中可方便进行管理。这些备份不应是整个备份。如果附加到现有备份后面会导致备份损坏,则通过单独保存每个节点的备份就可以降低丢失全部内容的风险。应将系统状态和系统磁盘包含在这些备份中,这样才可以完整备份使用备份基础结构的 WINS、DHCP 以及其他服务。系统状态/系统磁盘/仲裁设备的备份集可以使用,但 ASR 软盘可能需要人工进行更新才能够使用这些备份集,或者必须执行 ASR,然后才可以从群集磁盘备份集中恢复系统状态/系统磁盘。
3. 请按照应用程序的特定备份说明来备份应用程序。
- 6 -