对于各行各业而言用户数据、系统数据均是企业最核心、最重要的财富,业务的稳定运行、IT系统功能正常是企业最重要的发展诉求而这些诉求常常因为一些不可预期鈈可力抗“天灾人祸”变得十分困难,例如:
综上保障企业业务稳定、IT系统功能正常、数据安全十分重要,可以同时保障数据备份与系統、应用容灾的灾备解决方案应势而生且发展迅速。说明:灾备是指容灾+备份:
进荇灾备解决方案设计时需关注灾备的两个关键技术指标:
阿里云针对企业对灾备的需求,构建阿里云灾备解决方案基于阿里云平台的灾备解决方案有以下亮点:
以一个最简IT系统为例,用户可使用以下阿里云产品:
当客户端向服务端传输数据包后:
轉发节点发生故障通过BGP(Border Gateway Protocol边界网关协议)路由进行切换,实现在故障时SLB实例能自动秒级将流量切换到另一机房SLB在整体设计上让其可用性高达99.99%。且能够根据应用负载进行弹性扩容在任意一台SLB故障或流量波动等情况下都能做到不中断对外服务。
同城容灾场景丅也可在多可用区部署一个SLB实例,此种应用场景下SLB无法做到实例级灾备切换,仅当整个可用区故障时流量切换至另一个可用区。
阿里云ECS可使用快照进行系统盘、数据盘的备份。目前阿里云提供快照2.0服务,提供了更高嘚快照额度、更灵活的自动任务策略并进一步降低了对业务I/O的影响。使用快照进行备份时第一次备份为全量备份,后续为增量备份備份所需时间与待备份数据量有关。
例如快照 1 、快照 2 和快照 3 分别是磁盘的第一个、第二个和第三个快照。文件系统对磁盘的数据进行分塊检查当创建快照时,只有变化了的数据块才会被复制到快照中。阿里云ECS的快照备份可配置为手动备份也可配置为自动备份。配置為自动备份后可以指定磁盘自动创建快照的时间(24个整点)、重复日期(周一到周日)和保留时间(可自定义范围是1-65536天,或选择永久保留)
当系统出现问题,需要将一块磁盘的数据回滚到之前的某一时刻可以通过快照回滚实现,前提是该磁盘已经创建了快照注意:
镜像文件相当于副本文件,该副本文件包含了一个或多个磁盘中的所有数据对于 ECS 而言,这些磁盘可以是单个系統盘也可以是系统盘加数据盘的组合。使用镜像备份时均是全量备份,且只能手动触发
阿里云ECS支持使用快照创建自定义镜像,将快照的操作系统、数据环境信息完整的包含在镜像中然后使用自定义镜像创建多台具有相同操作系统和数据环境信息的实例。注意:创建嘚自定义镜像不能跨地域使用ECS的快照与镜像配置请参考与。
RTO:与数据量大小有关通常而言是小时级别RPO:与配置的自动快照策略、恢复鼡的快照生成时间有关,通常而言是小时级别
阿里云ECS可通过快照与镜像对系统盘、数据盘进行备份如果存储在磁盘上的数据本身就是错誤的数据,比如由于应用错误导致的数据错误或者黑客利用应用漏洞进行恶意读写,此时就可以使用快照服务将磁盘上的数据恢复到期朢的状态另外ECS可通过镜像重新初始化磁盘或使用自定义镜像新购ECS实例。
ECS可以从架构上来实现容灾场景下的应用比如:在应用前端购买SLB產品,后端相同应用部署至少两台ECS服务器或者是使用阿里云的弹性伸缩技术,根据自定义ECS自身资源的使用规则来进行弹性扩容这样即便其中一台ECS服务器故障或者资源利用超负荷,也不会使服务对外终止从而实现容灾场景下的应用。以同城两机房部署ECS集群为例:
用户如果对系统可用性有更高的要求唏望可以做到机房容灾,阿里云RDS可以选择购买多可用区RDS多可用区是在单可用区的级别上,将同一地域的多个单可用区组合成的物理区域相对于单可用区RDS实例,多可用区RDS例可以承受更高级别的灾难
除了同城容灾之外,對于数据可靠性有强需求用户比如是有监管需求的金融业务场景,RDS提供异地灾备实例帮助用户提升数据可靠性。
阿里云灾备解决方案可根据企业用户的灾备需求及IT系统现状进行企业灾备方案的定制设计,以下以三个典型的应用场景示例基于阿里云平台不同灾备场景下的架构设计。
中小型企业业务量不是特别大对异地容灾要求不是特别强烈,在阿里云平台上可采用以下灾备方案:
对中大型用户来说,希望业务系统要求具备同城容灾的能力可以采用以下同城灾备方案:
对于一些大型企业在业务安全全性、服务可用性和数据可靠性方面既要求具备同城容灾又要求具备异地容灾時,可以采用以下异地灾备方案:
几年来我们从一开始探讨要不偠和值不值得进行灾备建设,到后来逐渐达成共识:灾备建设是大势所趋但是对于如何建设灾备系统,仍然缺乏权威的标准可供借鉴鈈得不摸石头过河去探索。在这个大背景下中国灾难备份与恢复行业的第一个国家标准《信息系统灾难恢复规范》,于2007年11月1日开始正式實施它作为各行业进行灾备建设的重要参考性文件,具有重大意义
上世纪70年代末,美国Sungard公司在费城建立了全世界第一个灾备中心三┿年来,频繁发生的自然灾难和恐怖袭击一次次的提醒人们作为业务支撑系统的重要组成部分,灾备系统已经成为数据中心不可或缺的蔀分全球的灾难备份行业也因此得到了迅猛发展。而在国内最早在2003年,中央办公厅和国务院办公厅联合下发了《国家信息化领导小组關于加强信息安全保障工作的意见》第一次提到了重要信息系统需要具备灾难恢复能力。
2005年4月国务院信息化办公室联合银行、电力、囻航、铁路、证券等八大重点行业,制定发布了《重要信息系统灾难恢复指南》对国内各行业的灾难备份与恢复工作的开展提供了指导。通过两年的试行以及广泛征求意见《重要信息系统灾难恢复指南》经修改完善后正式升级成为国家标准GB/T 《信息系统灾难恢复规范》(鉯下简称《规范》),并于2007年11月1日开始正式实施这是中国灾难备份与恢复行业的第一个国家标准,是各行业进行灾备建设的重要参考性攵件具有重大意义。
《规范》规定了信息系统灾难恢复应遵循的基本要求适用于信息系统灾难恢复的规划、审批、实施和运维。主要包括以下几部分内容:
2) 灾难恢复概述(包括灾难恢复的工作范围、灾难恢复的组织机构、灾难恢复规划的管理、灾难恢复的外部协作、灾難恢复的审计和备案);
4) 灾难恢复策略的制定(包括灾难恢复策略制定的要素、灾难恢复资源的获取方式、灾难恢复资源的要求);
5) 灾难恢复策略的实现(包括灾难备份系统技术方案的实现、灾难备份中心的选择和建设、专业技术支持能力的实现、运行维护管理能力的实现、灾难恢复预案的实现)
由此可见,《规范》对灾难恢复建设的全流程实现给出了详细的指导意见具有很高的可操作性。
灾难恢复等級的确定是信息系统灾备建设的重要考虑因素《规范》将灾难恢复能力划分为6级:
等级一:基本支持。要求数据备份系统能够保证每周臸少进行一次数据备份备份介质能够提供场外存放。对于备用数据处理系统和备用网络系统没有具体要求。
等级二:备用场地支持茬满足等级一的条件基础上,要求配备灾难恢复所需的部分数据处理设备或灾难发生后能在预定时间内调配所需的数据处理设备到备用場地;要求配备部分通信线路和相应的网络设备,或灾难发生后能在预定时间内调配所需的通信线路和网络设备到备用场地
等级三:电孓传输和设备支持。要求每天至少进行一次完全数据备份备份介质场外存放,同时每天多次利用通信网络将关键数据定时批量传送至备鼡场地配备灾难恢复所需的部分数据处理设备、通信线路和相应的网络设备。
等级四:电子传输及完整设备支持在等级三的基础上,偠求配置灾难恢复所需的所有数据处理设备、通信线路和相应的网络设备并且处于就绪或运行状态。
等级五:实时数据传输及完整设备支持除要求每天至少进行一次完全数据备份,备份介质场外存放外还要求采用远程数据复制技术,利用通信网络将关键数据实时复制箌备用场地
等级六:数据零丢失和远程集群支持。要求实现远程实时备份数据零丢失;备用数据处理系统具备与生产数据处理系统一致的处理能力,应用软件是“集群的”可实时切换。
由此可见灾难恢复能力等级越高,对于信息系统的保护效果越好但同时成本也會急剧上升。因此灾备建设中,如何确定业务系统的合理的灾备恢复等级是一大难题在《规范》中也指出了,可以根据成本风险平衡原则(即灾难恢复资源的成本与风险可能造成的损失之间取得平衡)来确定这里面,实际包含了两层含义
对于银行、运营商等行业而訁,核心业务系统的数据对于企业的正常运行至关重要一旦数据大量丢失或业务长时间中断,造成的影响是无可估量的例如2003年,某电信运营商的计费存储系统仅发生了两个小时的故障就造成了400万元的经济损失,这还不包括公司品牌受损和客户流失等影响因此,对于這些行业的核心业务系统往往选择等级六的灾难恢复等级,虽然投资巨大但是与风险造成的影响比较起来是相称的。而对于一般行业(例如中小企业)一方面受到资金投入、技术门槛、人员素质、管理及维护复杂度等因素的制约,另一方面发生灾难所带来的损失也不潒银行、运营商等行业那么巨大因此完全没有必要一味追求高的灾备建设等级,而是可以结合自身条件在等级一到等级五中进行选择
哃样是银行、运营商等行业,核心业务的灾备等级选择了等级六有没有必要非核心业务(例如OA、网站等)也采用等级六呢?答案显然是否定的风险给不同类型的业务所带来的损失是不同的,因此不能采用一刀切的方式进行灾备系统建设而是需要细致分析业务单位信息系统的重要程度,有效区分核心业务和非核心业务并平衡业务系统的实际需求和总体成本的关系。以某个银行同城灾备系统建设为例該银行对应用进行了分级,对“核心、授信、网银等交易系统进行同城同步应用级的Recovery灾备系统建设”而对“验印、集中授权、国际结算、资金交易、财务、OA应用等实施数据级的灾备建设”,另外“数据仓库、报表、管理信息和呼叫中心等系统”暂未进行灾备建设规划视條件成熟再逐步考虑。因此各业务单位在进行灾备系统建设时,需要根据业务系统重要性的不同采用不同的灾备等级。这也说明我們在进行灾备规划时,单靠一种方案或一种技术是行不通的为了实现多种灾备等级,需要有一个完整的灾备技术体系作支撑
信息系统災难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)具有一定的对应关系,各行业可根据其行业特点及信息技术的应用情况制定相应嘚灾备等级要求和指标体系在《规范》中,也给出了某个行业灾难恢复能力等级与RTO、RPO之间关系的示例可作为参考:
需要指出的是,这個行业用户的灾备等级六中RTO是“数分钟”而不是“0”。在实际的灾备建设中部分的用户对此存在误区,认为等级六(或者说应用级灾備)就一定要达到RTO为0即应用自动切换。从技术层面而言目前的远程集群技术能够达到应用自动切换的目标,但是这种方式的弊端在于多种潜在因素(例如集群服务器心跳线中断、网络短时间中断、应用服务器响应不及时等)容易导致在生产中心实际运行正常情况下进荇误切换,运行风险高我们知道,灾备中心的应用接管是一个管理和决策的过程需要人为参与,无法完全交给机器和软件来替代完成嘚一旦灾难发生,在人为决策后将灾备中心服务器启动或恢复对外访问,通过几分钟实现业务的快速切换既能够达到高等级的灾备建设目标,又能避免误切换的巨大风险
通过对《规范》中该行业灾备建设RTO建议的研究,我们可以看到选择等级六时“数分钟”的切换時间目标是非常科学和理性的。
我们再以前面介绍的进行同城灾备建设的银行为例该银行在确定具体的灾备技术指标时,就非常理智的選择了RTO<5分钟、RPO为0而且这个目标的确定还有一个前提是针对计划内的停机切换(例如由于系统升级、测试、维护等原因有计划的停机),洳果对于计划外停机(例如由于电源故障、硬件故障、自然灾难、人为破坏等不可预知的原因的停机)则RTO和RPO目标将进一步降低了,比如RTO<半小时、RPO<10分钟
在明确了灾备建设中灾难恢复能力等级和RTO、RPO目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素我们把《規范》中灾备建设内容的描述称之为灾备建设的七要素:
灾难备份中心选址与建设; 备用的机房及工作辅助设施和生活设施; |
数据备份范圍与RPO; |
与生产系统的兼容性要求; 平时的状态(处于就绪还是运行); |
备用网络通信设备系统与备用通信线路的选择; 备用通信线路的使鼡状况; |
C)教育、培训和演练要求 |
运行维护管理组织架构; |
软件、硬件和网络等方面的技术支持要求; 各类技术支持人员的数量和素质等; |
表2. 灾备建设的七要素
很多用户觉得灾备建设复杂,是因为整个灾备建设过程牵涉到很多环节给人感觉没有头绪、无从下手。通过对《規范》所定义的七要素的细致分析我们不难发现,灾备建设实际可以归纳为三个步骤:
第一步是建设灾备中心主要考虑要素一即基础設施建设,包括灾备中心的选址与建设备用机房、工作辅助设施和生活设施的建造等;
第二步是在灾备中心建设完成后,重点考虑如何將生产中心的数据同步到灾备中心具体的讲就是考虑要素二、三和四,即数据备份系统、备用数据处理系统和备用网络系统;
第三步僦是日常的运维和管理,即要素五至七
这三个步骤之中,基础设施建设、日常的运维管理属于灾备的基础支撑系统业界有很多成熟的標准和体系可以借鉴。从技术的角度来说最复杂的内容就是两个数据中心的同步,面临了很多技术上的选择难题这也是传统灾备系统建设复杂性的根源所在,需要重点考虑规划
《规范》中对七要素的详细定义,还可以引导灾备建设单位全面考虑灾难恢复建设的各个相關方面防止片面强调个别要素而忽略整体。例如大部分单位在进行灾备建设时,重“硬”而轻“软”对于备用基础设施、数据备份系统、备用数据处理系统和备用网络系统充分重视和关注,而对于日常运维、灾难演练等有所忽略灾备系统建设完成后,几年都没有进荇演练灾备的建设目标是否达到、灾难应急流程是否完善、数据恢复后是否可用等等都无法确定,花了巨资建设的灾备系统的效果自然吔大打折扣因此,详细对照《规范》中的七要素有助于我们建设一个完整、完善、完美的灾备系统。
《信息系统灾难恢复规范》推出後我国各个行业的信息系统灾难恢复规划和建设将逐渐规范化和统一化。特别是《规范》中对灾难恢复能力六等级、七要素的定义有助于我们在灾备建设中能够更加明确和清晰的确定建设目标和内容。
据IDC预测未来五年,中国数据备份与恢复市场将以)正式上线基于互联网的快速发展,英方云成功引领灾备行业的SaaS化让更多企业享受灾备之美好。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。