您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页XXXXVVR容灾方案

XXXXVVR容灾方案

来源:爱go旅游网
Your Infrastructure. Your Information. Your Interactions. Only Symantec Protects Them All. 1

XXXX系统 赛门铁克方案

建议书

2010-11

赛门铁克软件(生产中心)有限公司

目 录

1

系统需求分析 ...................................................................................................................................2 1.1 1.2 2

系统建设目标 ...........................................................................................................................2 需求简析 ...................................................................................................................................2

高可用容灾方案设计 .......................................................................................................................3 2.1 设计原则 ........................................................................................................................................3 2.2

方案概述 ...................................................................................................................................4 2.2.1 网络拓扑图 ..............................................................................................................................4 2.2.2 软件安装 .................................................................................................................................5

3 高可用容灾方案实现 .......................................................................................................................5 3.1 软件功能解释 .................................................................................................................................6 3.2 安装、配置过程 ........................................................................................................................... 11 3.3 工作过程 ......................................................................................................................................12 3.4方案分析 .......................................................................................................................................16 3.1.1

3.4.1 有关数据的量化分析及结果 ................................................................................16

3.1.2方案小结 ................................................................................................................................17

第 1 页

1 系统需求分析

1.1 系统建设目标

建设本系统的目的是为XXXXXXXX系统建立一个全面的、整体的容灾方案,最大限度地保证业务系统工作的连续性、可靠性。

1.2 需求简析

在XXXX以往的业务系统中没有考虑本地高可用性, 也没有远程容灾中心. 但是,随着XXXX业务系统的发展,随着竞争的不断加剧,在一些重要的系统中,客户已经不满足于简单的本地保护。越来越多的客户提出了要求更高的系统可用性,要求实现真正的异地容灾保护。因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。因此,XXXX要求业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。

全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。

第 2 页

2 高可用容灾方案设计

2.1 设计原则

我们为XXXX提供的高可用容灾方案的设计原则如下:

  

方案当前即可实施

在满足要求的前提下尽量简单

除特别必要,不需要增加另外超出本方案的软硬件

 如果一个软件产品可以实现需要的功能,我们不会再使用另外的产品实现重复的功能

 同一方案适合多种平台环境,降低安装、管理和维护的难度。

VERITAS的容灾方案是一个完整的方案,该方案包括三个功能:主节点(存储虚拟化)到灾备节点的数据远程实时复制、本地应用服务和数据复制服务的切换保护、应用远程容灾切换。涉及的产品包括Volume Manager+Volume Replicator,VERITAS Cluster Server和Global Cluster Manager。

在该整体方案中中,上层依赖于它的下层,每一层的产品实现相应的功能。

图中涉及的软件产品将在下面论述。

第 3 页

2.2 方案概述

2.2.1 网络拓扑图

山西环保容灾规划拓扑WANORA1ORA2ORA3ORA4生产中心GCO+VCSap1ap2ap3ap4ORORA1A2ORORA3A4ap1ap2ap3ap4灾备中心生产中心FC交换机FC交换机VVR数据同步虚拟存储池

本方案在异地搭建容灾中心,通过VVR技术把生产中心(虚拟存储池)的数据同步到灾备中心,当,出现故障时用GCO来做自动切换,因为VVR属于卷复制技术,所以不用考虑存储上是数据库还是文件.,因为灾备中心需要能够接管生产中心和容灾中心的所有业务,所以,要考虑灾备中心的服务器性能问题,可以考虑在灾备中心放两台服务器做备机用来切换.具体数据同步过程和切换过程下面有详细介绍.

.第 4 页

2.2.2 软件安装

在两种情况下,每个地点的每台服务器上安装的软件相同,只是不同情况下配置方法不同,每台服务器的具体配置方法后面讨论。每台服务器安装软件如下:

1) 安装VERITAS Volume Manager(VxVM) 2) 安装VERITAS File System(VxFS) 3) 安装VERITAS Volume Replicator(VVR)

4) 安装VERITAS Cluster Server(VCS)、相应的数据库代理(Agent)和应用软件代理

5) 安装VERITAS Global Cluster Manager(GCM)

3 高可用容灾方案实现

本章将就该方案的每个细节进行讨论。包括方案的详细讲解,软件的实际配置方法等。通过阅读和理解本章,您将了解VERITAS解决方案的实现方法,并清楚地知道VERITAS解决方案是切实可行的,并且有相关的实施案例和实施经验。

本方案仅需要增加不同地点间的广域连接,需要增加一台主机和一台存储设备。软件方面要用VERITAS高可用软件新增Volume Manager、VERITAS File System、VERITAS Volume Replicator和Global Cluster Manager。

在介绍功能前,需要强调的的是:VERITAS提供的是完整的容灾解决方案。各个软件的功能完全集成在一起,建立一个容远程数据复制、本地容灾、远程应用切换于一体的方案。

第 5 页

3.1 软件功能解释

在这里,每个软件只解释与本方案相关的那部分功能,

一、

VERITAS Volume Manager(简称VxVM) 将在物理磁盘上建立多

个或一个逻辑卷(Volume)。以裸设备的方式使用卷,或在卷上建立文件系统。将数据(特别是需要进行远程复制的相关文件系统、数据库)存放在卷上。由于数据复制是基于卷的,所以,Volume 是进行复制的基础。

二、

VERITAS Volume Replicator(简称VVR)负责远程数据复制。

VVR复制基于Volume进行。复制的数据可以是数据库中的数据(文件方式或裸设备方式)和文件。复制的示意图见图四。

1) VVR与VxVM完全集成在一起。用VxVM管理界面和命令统一配置管理;由于VVR仅仅将Volume上每次I/O的实际数据实时复制到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很小。;

2) 将各个业务系统中需要进行远程复制的多个或一个卷定义为一

第 6 页

图四

个Replicated Volume Group(简称RVG);

3) 在Site A定义一条RLINK,指向Site B;在Site B也定义一条指向Site A的RLINK。RLINK是单向的;需要进行复制的两个系统各定义一个指向对方的RLINK;每个RVG定义一个RLINK。

例如有Site A和Site B两套系统同时用Site C的系统作为备份。在Site A定义一个RVGa,包含需要进行数据复制的卷;在Site B定义一个RVGb,包含需要进行数据复制的卷;在Site C定义两个RVG,名为RVGa’和RVGb’,分别作为Site A RVGa和Site B RVGb的备份。然后,在Site A定义RLINK to_c1,指向Site C;在Site B定义RLINK to_c2,指向Site C;在Site C定义两个RLINK,一个to_a,指向Site A,另一个to_b,指向Site B。

4)Storage Replicator Log(简称SRL)是VVR中的重要部件。将数据复制各方的

某个卷定义为一个SRL。需要复制的数据首先要写入SRL,然后传到异地。VVR通过SRL保证数据复制严格按照写顺序进行,这在异步工作方式下非常重要。当网络中断或异地系统出现故障时,本地数据将记录在SRL中,等系统恢复正常时再将SRL中的数据按照先进先出的顺序传送到异地。当SRL满后,VVR将通过Data Chang Map(简称DCM)记录变化过的数据块的块号。

VVR数据流程见图五:

第 7 页

图五

5)Data Change Map(简称DCM)与主节点的RVG相关,它其中的内容是位

图信息,记录某一时间点后修改过的数据块位置。DCM在正常情况下不使用,在SRL满后记录变化的数据块的块号,当恢复正常复制后,等SRL中的数据传送完后,将DCM中记录的块传送到异地。灾难恢复后的反向复制也用到DCM。

6)数据复制的工作模式缺省为同步/异步自适应,即在网络延时情况较好、数

据能够及时复制时,工作在同步方式,完全保证两边数据的一致性;当网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主节点的I/O性能。数据复制根据实际情况,自行在两种工作模式之间切换。

如果数据复制的线路带宽有限,出于保证本地服务器读写性能的考虑,可以将

复制工作模式定义为异步。由于VVR的数据复制严格按照I/O的修改顺序进行,所以,无论在同步还是异步工作方式下,都能保证数据的完整性。对于数据库系统,该复制机制能够保证灾备节点的数据库在灾难发

第 8 页

生时正常启动并提供服务。

7)后备节点的完全同步,即所谓的”建立基线”。在主节点往后备节点正常复

制数据前,必须逐块逐块地将主节点中需要复制的数据拷贝到后备节点,也就是说,将双方的RVG进行同步。

后备节点的完全同步分为两种情况,一是复制时主节点应用不进行数据更

改,二是复制时主节点应用进行数据更改。两种情况下,都可以采用自动同步方式或采用备份和检查点(Check Point)结合的方法。

自动同步是指通过网络将数据从主节点(Primary)复制到备份节点

(Secondary)。方法很简单,只要进行一步操作即可完成。自动同步对带宽要求较高,否则,将无法完成完全同步。自动同步要求RVG中的每个卷都有DCM。

对于网络带宽较小,或者需要完全同步的数据量太大时,使用备份与检查

点结合的方法。在备份开始前,在主节点设置检查点,该检查点记录在SRL中,然后将数据备份到活动硬盘、光盘、磁带或其它介质上。备份完成后,将检查点取消。将备份的数据恢复到后备节点上。然后将RLINK连接挂上,主节点SRL中记录的的数据传送到后备节点,完成后,两边数据一致,进入正常数据复制状态。用该方法进行数据完全同步,要求SRL卷大些,等完成后,再将SRL卷通过Volume Manager在线缩小。

8) 当某些严重意外情况发生后,后备节点会变成新的主节点,称为角色转

换。在灾难期间,不进行数据复制,新的主节点用DCM记录变化数据位置。

9) 当原来的主节点在灾难后恢复正常,需要进行数据反向同步和角色转换。

反向同步有两种情况,一种是在灾难发生时刻,原主节点与灾备节点的

第 9 页

数据是同步的(即无未复制的数据);第二种是在灾难发生时刻,原主节点与灾备节点的数据不是完全同步的(即主节点有数据尚未复制到灾备节点)。第二种情况在反向同步开始时第一步首先要进行重置,指将原主节点SRL和DCM中数据(这些数据在灾难发生时尚未来得及传送)的位置信息修改当前主节点(即原后备节点)的DCM。然后,将DCM中指向的数据全部传送到原主节点。而第一种情况的话,直接进行第二步工作。传送完成后,将当前主节点的数据库和应用停止,将双方角色复原,并在原主节点提供正常服务。

10)脱机处理。通过使用VVR的In-Band Control(IBC)消息、Snapshot、以及

Volume Manager(VxVM)的FastResync(简称FR,即快速同步)功能,可以实现数据的脱机处理。

脱机处理主要指对后备节点种的数据进行处理,例如进行备份、打印报表、数据仓库处理等。脱机处理由打破后备节点的镜像卷、对镜像数据进行处理、重镜像等几个过程组成。

11)双收条(双重确认)机制。指后备节点对复制数据的接收确认有两个阶

段。第一个确认当后备节点收到数据后发出;第二个确认当后备节点数据成功写入硬盘后发出。当主节点收到第二个确认后,将SRL中的相应数据清空。

三、

VERITAS Cluster Server(简称VCS)是用于本地容灾的集群软

件,支持多达32个节点的应用级切换,保证本地业务系统的软硬件高可用性。VCS以其出色的可靠性和易管理性闻名。VCS的功能特点请见附录。在本方案中,VCS主要负责以下功能:

1) VCS负责监控和管理硬件系统和操作系统,当出现故障时进行切换。

2) 通过数据库代理(Agent)监控和管理数据库系统,当出现故障时进行切换。

第 10 页

3) 通过API或脚本编写针对性客户化应用代理,监控和管理应用系统,当出现故障时进行切换。

4) 通过Replicator 代理监控和管理数据复制过程,当主服务器数据复制发生故障时,自动将数据复制工作切换到后备服务器,保证数据复制过程的连续性。这点对于容灾系统非常重要。该代理充分说明VERITAS提供的是完整的容灾解决方案。

5) 主节点和备份节点的VCS集群系统都在Global Cluster Manager的统一监控和管理下,从而实现集群系统间的远程应用切换。GCM在VCS中以两个服务组(指GCM Master和GCM Slave)的形式存在。

四、Global Cluster Server(简称GCM)可以称为Cluster’s Cluster(集群的集

群)。它负责对多个不同地点的多达32个集群系统进行监控和管理,在发生严重灾难时,进行site的切换(即应用的远程切换)。

GCM Console为Web界面,通过浏览器管理各个Cluster系统,并在管理界面

中主动控制或响应远程切换。

3.2 安装、配置过程

在硬件和操作系统环境准备好后,整个方案的实际安装、配置及工作过程如下。详细的配置命令和配置文件见附录。

一、 安装VERITAS Volume Manager(VxVM)和File System(VxFS)。将服务器本地

硬盘的其中一个分区(或整个硬盘)作为rootdg。将磁盘阵列中所有磁盘用Volume Manager管理。创建一个disk group,包括涉及的磁盘,并在这些磁盘上划分出需要的卷,包括用于SRL的卷。如果卷上需要文件系统,使用VxFS。将数据库和应用系统都安装在共享的磁盘阵列卷中。

第 11 页

二、 由于VVR与VxVM集成在一起,所以无需另外安装。

1) 为需要复制的卷增加DCM。 2) 创建SRL。

3) 定义RLINK,指向备份节点。

4) 定义RVG,将需要进行远程复制的卷(包括SRL卷)都定义到一个RVG中,并与RLINK联合绑定。 5) 进行数据复制。

三、 安装VCS、Oracle或Sybase代理、客户化应用代理和VVR代理。安装完成

后,配置心跳线,然后对各个服务组(Service Group)中涉及的资源进行定义。进行本地切换测试,优化有关参数。

四、 安装GCM。安装完成后,在VCS的服务组(Service Group)中增加了GCM

Master 和GCM Slave。对其进行配置。定义GCM响应的事件和相应的处理动作。用手工模式进行异地容灾切换测试,并调优化有关参数。

五、 进行全系统联调,测试各种情况下的系统工作情况,并进一步优化有关参

数。 3.3 工作过程

为方便论述,本节模拟地点A和B,两地各有一套建立在VCS双节点集群上的业务系统,以B地点的系统作为A地点的备份。

切换示意图见图六。

第 12 页

一、 正常情况下:

1) 业务系统运行在地点A,包括数据库实例、有关的文件、数据库数据、应

用软件。A节点对外提供服务。

2) A节点所有的有关的数据通过VVR实时复制到B节点。

3) 两地的VCS对的各自节点内的两台服务器的主机情况、数据库服务、应

用软件进行实时监控和管理,其中,VCS还对VVR数据复制服务进行监控。

4) GCM 监控两地Cluster系统的运行。

二、 当A地点的主服务器发生硬件或软件故障,导致主服务器无法提供正常服

务:

1) VCS进行本地切换,将主服务器的数据库服务、应用软件、VVR数据复

制服务切换到本地后备节点。

2) 整个系统运行在本地后备节点,包括VVR数据复制服务,由后备服务器

提供对外服务和数据复制服务。 3) GCM将监控到该切换事件的发生。

4) 如果仅仅是主服务器数据复制服务发生故障,可以不进行切换,只需将复

制服务修复并正常运行。

三、 如果A地点的主服务器恢复正常,整个系统将重新运行在正常情况下。

第 13 页

四、 如果在情况二的状态下,A地点的后备服务器也发生硬件或软件故障,整个A

地点无法正常提供服务:

1) GCM 将监控到该严重灾难的发生,将对接收到的Site A down事件进行处

理:发出严重告警,并在管理界面上弹出服务灾难性切换(及服务切换到远程地点)等待确认画面。

2) 在有关人员确认后,在GCM切换等待确认画面上按确认按钮,将进行地

点间的容灾切换。

3) A地点的业务将在B地点正常提供服务。 4) 数据复制暂停。

5) Site B的VVR将从Secondary变成New Primary,使用DCM记录所有变化

的数据块。

五、 如果A、B地点间网络发生故障:

1) VVR心跳检测将发现该故障,A地点VVR将根据事先的配置进行处理。

我们的建议是VVR将网络故障期间所有数据的更改记录在SRL。 2) 如果在一段较长时间内,网络故障无法恢复。当VVR的SRL卷接近满

时,VVR将使用DCM,记录变化的数据块位图。

3) 在网络故障发生后,GCM将探测到,并对Network Down 事件进行处理:

向有关管理员发出告警。

六、 如果A、B地点间网络在短时间内恢复正常。

1) VVR将把A的SRL中积累的数据传送到B。 2) VVR处于正常工作状态。 3) GCM处于正常工作状态。

七、 如果A、B地点间网络在很长时间内仍无法恢复正常:

1) VVR停止远程数据复制。

2) GCM无法对两地间的Cluster运行进行监控。

第 14 页

八、灾难复原。当A地点的系统恢复正常后,需要进行整个系统的回迁。数据反向

复制时只复制灾难期间变化的数据而不是所有的数据,这是本方案优势之一。 1) 在灾难期间,B地点是VVR的New Primary,B的DCM记录所有变化的

数据块。

2) A系统正常后,VVR重新建立与B节点的RLINK连接,并自动变成

Pseudo Secondary(伪后备节点)。

3) GCM 发现A、B地点Cluster恢复正常,对它们进行正常管理。以下过程

将在脚本中自动完成。

4) 进行反向同步的第一步是将A节点的Pseudo Secondary状态转成

Secondary状态。

5) 第二步将进行A的SRL和DCM的重置(Replay),修改B的DCM。

因为在A节点发生灾难时,有可能A的SRL中有没来得及进行传送得数据,甚至DCM中标记的数据块没来得及进行传送。也就是说,A中有一些本地已经修改,而B还未修改的数据。所以,要保持A、B数据的一致性,一定要首先对这些数据进行处理。

处理方法成为重置(Replay)。重置将把A节点SRL中数据或DCM中标记的数据位图信息传送到B节点。B节点将进行判断,根据数据块是否有新的修改,对DCM进行置位。

6) 重置完成后,将进行数据的反向同步,将灾难期间B节点变化的数据(和

需要A节点重置的数据)传送到A。

7) 以上的过程中,B的数据库和应用都处于正常运行状态。 8) 当反向同步完成后,数据库和应用将停止运行。 9) GCM控制进行整个系统的反向切换。

10) A节点重新成为VVR的Primary,进行正常复制。 11) A节点整个业务系统恢复正常运行。

第 15 页

3.4方案分析

本章将就XXXX需求书中提出的要求分析方案。通过分析,说明方案符合需求,并进一步讲解方案的细节。

3.1.1 3.4.1 有关数据的量化分析及结果

涉及数据库的系统业务,除了对数据库内容的更改进行实时数据复制外,还要复制有关的系统文件,例如环境配置信息、数据库环境配置信息。在带宽允许的情况下,我们将对整个数据库有关的内容,包括数据库安装软件、数据库数据等等都实时复制到灾备节点。当发生灾难时,恢复的时间会很短。

对于VVR对数据库内容的复制,就oracle 为例,有两种方法:

1)仅复制Archive Log和Online Redo Log。该方法的优点是复制数据量小,

对带宽要求小,而且比数据库本身的复制功能更能保持数据一致性,因为数据库本身的复制仅复制Archive Log。缺点是后备节点要进行Log中的交易重提交,当发生灾难后,后备节点可能需要较长时间才能提供正常服务 。

2) 数据库的内容和Log都进行复制。该方法的优点是更好地保持数据的一

致性,而且发生灾难时,后备系统恢复正常服务的时间较短。缺点是复制的数据量较大,对带宽的要求较高。

根据计算,由于带宽允许,所以,将进行数据库内容和Log的复制。

以下是根据《XXXX需求书》中的业务数据进行计算后得到的所需带宽和SRL的尺寸。需要根据实际情况计算.,下面是公式

一、带宽计算:

1. 平均带宽需求

第 16 页

每秒操作涉及到的更新的数据: 冗余系数:

1.5

XXXXx Bytes

(指数据库表操作引起的索引文件,控制文件,LOG文件等的修改) 加冗余后每秒操作涉及到的更新的数据: XXXXx * 1.5=yyyy Bytes 加冗余后每小时操作涉及到的更新的数据: 加冗余后每天操作涉及到的更新的数据:

平均带宽需求: Kbit/s

yyyy*8/1000=qqqq

yyyy * 3600=zzzz Bytes

zzzz * 24 = pppp Bytes

2. VVR带宽需求

VVR控制信息:

约占总带宽的3-5%

IP打包数据占每次I/O的百分比

总带宽需求:

约5-10%

qqqq*1.15=aaaa bit/s

二、SRL容量计算

SRL(即数据复制的日志区)的容量计算,将视实际情况(如磁盘实际容量、网络平均故障修复时间、变化数据量等)定。例如一般情况下,网络故障在8小时内修复,则将SRL的容量定为8小时内数据变化量再加上一定的冗余。

三、结论

如果带宽充裕,可以使用同步/异步自适应的工作方式;如果带宽不是很充裕(例如1-4Mbits/s),为了保证业务系统的性能,建议VVR工作在异步方式下。

3.1.2 3.4.2 方案小结

本方案的特点:是一个完整的容本地容灾、数据远程复制和远程容灾切换于一体的方案。本方案完全符合《XXXXXXXX系统需求书》的技术指标,完全实现

第 17 页

XXXXXXXX系统业务的全面容灾需求。

以下说明本方案的优势。

一、 本方案能够支持手动/自动信令容灾方案,用户可以根据实际需要进行 自由选择。但在实际情况中,由于发生重大灾难时业务异地切换属于非常严重的事故,所以我们建议该过程前用户进行电话确认,然后在GCM界面中按下切换确认按钮进行切换。

二、 当本地主系统恢复正常后,需要进行反向数据同步、应用切换等工作,该工作需要由操作人员在系统较空闲时进行。工作过程很简单。

三、 通过SRL、DCM、严格的按写顺序传送、双收条确认、反向切换时的重置等技术的使用,本方案可以最大限度地保证主、备节点的数据一致性。

四、 本方案支持 1+1、N+1和节点互备方式,满足用户的不同需求。

五、 本方案如果不考虑带宽,节点间没有距离的。由于VVR的数据传递是基于卷,所以每次传送的数据量基本就是每次系统I/O的数据大小。这样可以得到最大的带宽利用率。

六、 基线建立,需要主备节点的数据完全同步。完全同步在应用运行期间也可以完成。可以采用自动同步方式或使用备份和检查点(Check Point)结合的方法。

七、 至于基线建立过程、日常复制过程、故障切换过程和故障恢复过程对主机性能的影响,由于对不同的配置、不同的情况将有很大的区别,所以,很难给出具体的数值。以我们在以往实施中的经验,如果采用异步复制方式,对整个系统的影响,在5%左右。

第 18 页

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务