最新HP+灾备方案.doc-得力文库

资源描述

《最新HP+灾备方案.doc》由会员分享，可在线阅读，更多相关《最新HP+灾备方案.doc（34页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateHP+灾备方案第一章业务背景及需求分析HP灾备方案建议书中国惠普有限公司2007.8-目录核心数据容灾系统24.2.1容灾概述24.2.2关键业务系统中普遍存在的问题24.2.3业务连续性/容灾的重要意义44.2.4国外计算机业务系统灾难备份应用情况64.2.5灾备系统实施容灾方案的意义74.2.6什么是容灾系统84.2.7灾难及应对分析94.2.8系统建设的目标

2、164.2.9系统建设的原则174.2.10业务系统现状174.2.11灾备系统灾难备份系统解决方案184.2.12容灾系统的管理234.2.13培训254.2.14测试灾难恢复计划254.2.15测试方法254.2.16维护264.2.17惠普公司容灾实施服务内容264.2.18HP容灾系统优势31核心数据容灾系统4.2.1 容灾概述在今天的科技社会中，IT技术的运用已经渗透到了我们生活和工作的各个层面，为我们带来了以往任何一次技术革命都没有的便利和迅捷，可以说，由于采用了IT技术的新的生产方式已经基本上代替了原来的生产方式，成为现代社会运作和发展的主流，我们对计算机系统的依赖超过了以往任何

3、一种技术。然而计算机系统在为业务的迅猛发展提供信息技术基础架构的同时，也带来了以往我们不曾发觉的负面因素。例如由于信息和处理的高度集中使业务运转过度依赖于IT系统，并会因为IT系统的突发问题而受到很大影响，严重的甚至可以导致业务系统无法正常进行。这些问题包括了进行系统检修和升级带来长时间的系统停机，系统自身的或者人为的因素或事故发生连锁性的扩大，以及不可预见的故障和突发性灾难等等。如何避免业务运转受到影响，或者使业务影响尽可能降到最低，这是每一个企业管理者必须考虑和重视的问题。领导经过认真的思考，如何切实有效的保障制证系统等关键业务系统的连续运行已经成为领导层十分关注的问题。本方案的内容涵盖了

4、高可用的信息技术基础平台建设、日常运作流程设计、突发事件管理和大型灾害的应对计划和策略，业务持续性管理团队建设和咨询等诸多方面的服务。希望能够帮助客户从技术、流程、人员三方面提高业务持续能力，保证关键业务的正常运行和发展。4.2.2 关键业务系统中普遍存在的问题提高IT系统的高可靠性以及IT系统的容灾建设早已不再是新鲜的话题了，随着许多用户实施业务系统大集中，针对IT系统的高可靠性和容灾能力的需求日渐突出，很多用户都已经实施了有针对性的容灾系统，并且更多讨论的是如何实现业务数据的有效保护和业务的连续性运行。然而，目前大多数容灾系统的建设还是存在许多问题的。这些问题中不仅有技术层面的缺陷，更多的

5、是在流程和人员方面的不足。这些问题可能导致的直接后果就是当发生灾难时，根本无法实现应用系统的快速恢复，甚至可能导致业务运转的长时间灾难性中断。我们可以列举出其中的一些：1 仅从产品功能层面考虑问题，最终建设的容灾环境仅是一个多种产品的堆积。仅实现了数据的远程复制或者离线存放，没有进行灾难的各种场景测试和灾难预演，并缺乏灾难恢复机制和危机应对流程。发生灾难时，不知道到底数据或者系统能否恢复正常。2 进行了一定的测试和预演，但是缺少相应的灾难恢复计划和特殊情况下的行动指南，更没有全面的业务连续性计划。在真正发生灾难时，百废待兴、千头万绪的情况下，没有依据和参考，可能无法顺利进行有关操作。3 有了灾

6、难恢复计划等必要文档，但是没有及时的将IT系统，业务流程和管理人员等不断变化的信息更新，导致容灾手册成为一纸空文。4 具备了以上的要素，但是容灾系统的建设局限在IT部门，缺少业务部门的参与和管理高层的介入和全力支持。发生灾害时，IT系统能够恢复但是业务流程仍无法恢复运转。除了以上列出的问题之外，还有许多问题如容灾系统的负载能力估计不足，实施过程中没有严格遵循高可靠标准，实施过程工作界面过多沟通不足，日常运维管理方面存在不足和漏洞，缺少厂商、系统集成商的后续支持服务等等都可能导致业务持续性系统建设的失败。除了以上的问题之外，另一类问题是项目小组仅将目光放在了大型灾难等突发事件的应对之上，而忽略了

7、计划性停机对业务运行的影响。根据有关统计，非计划性停机只占13%的停机概率，而在非计划停机中大型自然灾难占的比例就更低了。所以在项目实施时，未能很好的优化现有系统和流程，没有充分发掘现有潜力，未能将日常操作流程和业务持续性目标充分整合，虽然实现了容灾但是仍没有从本质上解决持续性问题。HP公司提供的业务连续性解决方案是基于HP公司长期的实践经验和业界公认的业务持续方法论（BCP），结合客户的具体实际情况，采用业界先进成熟的产品和技术，由资深顾问和技术专家构成的实施小组遵循IT服务管理（ITSM）理念进行实施。充分考虑了以上普遍性问题，保证了项目目标的成功实现，同时HP公司可以提供整个容灾项目的整

8、体解决方案单点后续支持服务，这一点完全不同于业界其他友商仅能提供单一产品支持的服务模式。4.2.3 业务连续性/容灾的重要意义在突发性灾难面前，目前的信息系统的确是非常脆弱的。当越来越多的人们已经习惯于工作、生活在基于计算机系统的支持环境中，任何关键信息系统运转的中断或者数据的丢失都将导致不可估量的损失。一个已经证实的数据是：网上银行每分钟运转中断成本为7000美元，企业资源管理系统为13000美元，而呼叫中心更是高达27000美元！据IDC的统计数字表明，美国在2000年以前的10年间，发生过灾难的公司中，有55%当时倒闭，剩下的45%中，因为数据丢失，有29%也在两年之内倒闭，生存下来的仅

9、占16%。当然，早在数年前许多企业及政府要害部门就有了危机意识，他们也正在尽力避免危机的产生。对于例如计算机软硬件故障、人为因素以及资源不足等引起的计划性停机所导致的系统停止运转，众多的用户采用了各种解决方案如本地双机热备份、负载均衡、动态切换等，得以实现系统冗余，增强业务系统的高可用性。但是，无论对硬件和软件采取什么样的监控和改善措施，一场不可预测的突发性灾难，比如地震、火灾等降临时，业务数据还是会在瞬间消失。如何才能保证尽量减少业务数据的丢失、将危险与灾难的损失降低到最小程度呢？这就需要建立异地容灾系统。容灾系统的核心就在于使用各种技术和管理手段将灾难的影响化解，在实践中主要表现为两个方面

10、：一是保证业务数据的安全；二是保证业务的连续性。通过在生产站点和灾难恢复站点运行同样的系统，包括操作系统、基础数据库和应用软件，并通过数据复制完成在线和实时的数据复制，或者通过光纤通道的远程数据复制。假如工作站点发生突发灾难，不能再继续工作，这时容灾中心会将业务数据及时恢复到备用服务器上，并迅速将业务系统加载到备用服务器，然后实现业务的远程切换(Fail-over)，恢复应用系统不间断的运行，在容灾中心实现业务的恢复运转，这个过程只需要几分钟或者几十分钟的时间；在此基础上，在灾难过后，生产系统恢复正常后，再将业务运行切换回正常的生产系统，实现业务系统的灾难恢复（Fail-back）。一般来讲，

11、一家运行关键业务的企业应该拿出IT总预算的7%到15%用于灾难备份与恢复。在发达国家，面对高级灾难防护，一般公司每月要支付大约5万美元到10万美元的费用，而对于大公司，这一数字可能高达100万美元。这个数字十分惊人，但当用户进行整体的评估和核算后，会发现一次业务中断所造成的经济损失将远远超过投资于业务持续性系统的成本。在国内，当前应用级容灾系统的用户还不多。究其原因，首先观念是重要因素。容灾系统的投入相当大，而它所针对的只是一些诸如火灾、洪水、地震等小概率事件，因此，对许多用户来说，这种高投入和相对的小概率产出使他们望而却步。但是对于像财税研究机构这样的政府要害部门来说，关键数据丢失造成的损失

12、是远远不能用财务数据来衡量的。同时还应当指出，容灾系统并不仅仅针对突发性灾害等小概率事件，其它一些宕机事件，如人为误操作、机房事故（电源、空调、管道漏水）、计划内的系统维护和扩容等，也可使用异地容灾系统实现关键业务的持续运转。此外，在生产系统正常运转的情况下，容灾系统还可以被用来开展诸如数据挖掘、经营分析以及用户查询等其他业务，从而使为防止灾难而采购的软硬件设备在平时也能得到很好的应用。如上所述，综合考虑业务中断、数据丢失所导致的损失和增值业务所带来的收益，容灾系统的建设投入还是值得的。4.2.4 国外计算机业务系统灾难备份应用情况灾难备份计划在发达国家电信行业和金融行业得到了较早实施，现已较

13、为普遍。例如美国，因一九八五年纽约银行计算机故障，联邦管理部门更加强了在这方面的监管力度。现美国计算机业务系统一般出于以下三方面来考虑灾难备份计划：重要数据保护与业务连续运行的需要：在美国，各行业内部竞争激烈，各项业务的正常开展完全依赖于计算机系统的高性能、高可靠运行，一旦因突发性灾难而造成数据丢失或业务中断，必将会造成重大乃至致命的打击。审计的要求：美国较大型的企业一般会由第三方独立审计公司来提供其资信业务、管理等方面咨询服务，而世界著名的五大审计公司在对企业的评估项目中均包含灾难备份计划一项；评估企业数据在灾难等威胁破坏下数据的完整性与安全性，及业务可恢复性等，有些还会参于验证这种计划的具

14、体操作过程。缺少灾难备份计划及其危害性会在报告中被显示出来。法律的要求：美国政府及州政府通过多项法律强制性要求金融、电信等大型企业备有计算机安全及灾难备份计划。对于没有遵守这项灾难备份计划的企业，会遭受曝光及罚款等处理，同时亦可能对相关责任人进行罚款甚至监禁等处罚。已知的灾难例子有：日本神户大地震、美国佛罗里达州飓风（数百家企业实施了灾难备份计划）、台湾大地震等。4.2.5 灾备系统实施容灾方案的意义我国的相关政策法规：2003年9月,中共中央办公厅、国务院办公厅转发了国家信息化领导小组关于加强信息安全保障工作的意见（中办发200327号），提出各基础信息网络和重要信息系统建设要充分考虑抗毁性

15、与灾难恢复；2004年1月9日全国信息安全保障工作会议上下发了关于做好国家重要信息系统容灾备份工作的通知；2004年央行提出各银行要在2009年前完成灾难备份工作；2005年1月国信办组织起草了重要信息系统灾难恢复规划指南；灾备系统自身业务需要：灾备系统目前日常研发工作依赖于Oracle数据库软件，这套软件分别运行在2套由HP小型机组成的HA集群中，此配置保证了数据库服务应用在单机出现故障时可以迅速切换到集群中的另一台机器上去。当整个机房出现比较大的灾难时（如水灾、火灾等），2套HA集群内的主机都不能提供服务，更严重的是：灾难可能会对目前存放在EVA4000磁盘阵列中的数据造成损坏和丢失。即使

16、事后可以通过备份来恢复数据，但是数据的部分丢失不可避免；而且新购买阵列、小型机的流程较长，灾备系统正常正常使用在较长的一段时间内都会受到严重的影响。因此，为了保证数据的安全性和应用的连续性，我们建议在一个备场地建立一个灾备数据中心，灾备数据中心的数据和主数据中心数据实时保持同步。随着灾备系统的业务开展的深入，数据量的增加，必然要考虑建设灾难备份中心，其目的就是在于防止一些灾难性的小概率事件可能对集中式信息系统造成的不可恢复的原始数据的丢失，这些灾难性事件可能包括为火灾、水灾、地震、电源故障及一些人为的操作失误等等。综上所述，灾备系统建设灾难备份中心有如下的意义：l 重要业务数据在灾难发生后得以

17、保护。l 重要业务，核心数据库系统在灾难发生后可以在设定的时间内恢复，从而实现业务的连续运行l 业务计算机系统抵御突发性灾难的能力和级别提高4.2.6 什么是容灾系统容灾系统是业务永续运行的重要的组成部分。所谓灾难，通常是指引起关键业务的信息服务中断，且中断的时间及造成的损失超出企业所能承受的范围之外的意外情况。引起灾难的因素很多，可以是系统环境中的软件、硬件故障，有意或过失的人为破坏，还可能是因火灾、飓风、地震而引起的数据处理设备的损坏等等，只要造成了关键业务的中断，都是灾难。而容灾就是通过预先建立的备份中心、备份设备和备份数据等，在可以容忍的时间内恢复业务系统的正常运行，将企业因业务中断而

18、导致的损失降低到预定的程度。相对于业务永续运行来说，容灾强调的是企业的关键业务在灾难发生时的应对能力和恢复能力，即通过尽可能快速的、全面的企业业务恢复运作，将因灾难造成的损失降低到最小程度。显然，它并不保证业务的零间断能力；实际上，容灾系统的整个灾难恢复过程必须会造成一段时间的业务中断。另外，也正是因为可以容忍一段时间的业务间断，所以其实施难度、周期和规模都要远远小于实现业务持续性系统的建设。从广义上讲，任何提高系统可用性的努力，都可称之为容灾。本地容灾，例如主机集群：当某台主机出现故障，不能正常工作时，其他的主机可以替代该主机，继续进行正常工作。而我们平时讲到的容灾，尤其是值得重视的容灾，一

19、般都是指远程容灾。远程容灾可以这样理解：在各行业企业用户的IT系统中，必然有一部分（尤其是核心部分）是非常重要的，我们叫它生产中心。人们往往给生产中心配备一个备份中心，该备份中心是远程的，并且在生产中心的内部，已经实施了各种各样的数据保护。不论采取什么方式进行保护，当火灾、地震这类突发性灾难发生时，一旦生产中心瘫痪了，备份中心将能接管生产系统，继续提供网络服务。比如，全国铁路调度中心网络系统，当发生火灾、地震等灾难性事件时，该系统仍要保持正常进行，不能因为调度中心出现灾难性事件，全国的铁路系统就处于瘫痪状态，让灾难不合理地蔓延。我们认为，一个有效的高可靠性计算环境应该能够做到：l 数据中心任何

20、计算机系统硬件，软件及应用的单点故障将不会影响整个数据中心的处理工作；l 数据中心由于灾难(火灾、地震、断电)等原因无法工作时，应有一个备份数据中心能够迅速接管关键应用，继续运行；l 主数据中心恢复后，应用系统、业务数据应能迅速切换回主中心运行。4.2.7 灾难及应对分析4.2.7.1 灾难的定义一般来说，人们可将灾难分为下面几个类型：自然灾难（洪水、飓风、地震），外在事件（电力或通讯中断）、技术失灵（电脑宕机或网络受损）、设备受损（火灾）及人为操作（黑客入侵、恶意破坏、员工误操作）等。在本文中，灾难的定义主要是指自然的和人为的灾难，包括系统硬件，网络故障，机房断电，人为破坏甚至火灾地震等，例

21、如台湾的台北大地震导致该区域内建筑及大部分机器均遭到严重破坏。而突发性灾难发生从而引发的IT系统崩溃的后果将可能导致生产停顿，失去客户以及减少定单、收入，甚至威胁到企业的生存。灾备系统面临着多种可能出现的风险和灾难因素，从类型上可以大致分为自然灾害和人为因素；从发生的概率看可以分为比较可能，可能，和基本不可能。分析各种风险是制定相应的容灾策略以预防或尽可能降低灾难影响的基础。对业务环境中可能发生的突发性灾难归纳如下：比较可能可能基本不可能l 人为过失/故意破坏（对公司不满的员工，外部黑客，计算机病毒等）l 气候灾难（暴风雪，严寒等）l 设备/硬件/系统故障l 业务应用软件故障l 火灾l 基础设

22、施故障（网络，通信，电力，空调，通风等）l 气候灾难（台风，洪水等，沙尘暴）l 城市事件（罢工，动乱等）l 工作场所的环境紧急事件（化学污染等）l 地震l 流行疾病l 社会性恐慌l 恐怖袭击（炸弹威胁，爆炸，挟持人质等）l 战争l 核战以上列出的灾难因素分析仅作一般性参考。灾备系统的具体情况（IT系统环境，地理，人文，社会服务环境等），可以在项目的风险分析阶段针对性的明确与细化。另一方面，从灾难的后果和影响来看，大致可以分为两大类：业务停顿，但一般可以在能忍受的时间内完成本地修复，不需要异地切换。例如：机房电源设备发生故障、IT设备软硬件故障、消防系统和空调系统等机房环境告警、人为因素误操作的

23、情况等，电信供应商的IT系统普遍建立了相应的本地高可用性系统（HA）、备份/恢复策略，运维管理流程，并购买了IT厂商高级别支持服务，以及其它一些基础设施的防护措施等。我们建议首先应立足于现有系统环境，在现有条件下解决自身的灾难预防和风险规避问题，尽可能避免发生大的突发性灾难并降低灾难的破坏力。同时需要统筹规划容灾系统的建设，按系统的方法论分阶段、有步骤进行相应的分析、设计、实施、测试、人员培训等工作。这也正是目前容灾规划所关注的课题。4.2.7.2 容灾可以达到的目标层次根据企业自身的现有环境、客观条件、投资规模、实施阶段的不同，容灾方案可以达到多种目标层次，这些层次可以在企业不同的层面上实现

24、不同的容灾功能要求。下面的图表展示了各个容灾层次：关于这些层次的描述如下：数据保护：数据保护的目标是防止企业在意外情况及突发灾难下丢失数据，通常采用异地数据备份或存储介质镜像的方法保护企业的数据资产。应用保护：应用保护的目标是在发生意外时不仅可以实现数据恢复，还要能够将数据恢复到灾难发生前的存储状态，以重新恢复应用系统，由于应用系统的数据通常都保存在数据库中，所以应用保护要保护应用数据以及调用这些数据的数据库，这层保护所采用的方法包括利用数据库事务日志和数据库/应用的备份。同时应用保护使企业在意外发生时可以使用备用的系统进行业务操作，通常的策略是使用冗余的后备系统，利用高可用方案或群集技术实现

25、系统切换。系统保护：系统保护更提高一个层次，它的目标是使企业在意外发生时可以使用备用的IT系统环境进行业务操作，通常的策略是使用冗余的后备系统，利用高可用方案或群集技术实现系统切换。网络保护：网络保护的目标是保证整个企业内网络环境的高可用性，通常的保护策略包括冗余网络，自动或手动路由调整，备份网络设备，以及网络环境数据的备份保护等。数据中心保护：数据中心保护的目标是保护作为整个业务节点的数据中心的高可用性，即在整个业务节点所依赖的所有IT系统崩溃时，使用后备的数据中心支持业务节点的工作。运营节点保护：和数据中心保护不同的是，运营节点保护的目标是抵御影响整个运营节点的物理建筑的灾难，这预示着需要

26、有备份地点来用于业务处理。它和数据中心通常都使用包含整个业务支撑系统的冗余备份节点来实现，但是出于运营节点保护的需要，该备份节点距原来的运营节点的物理距离应至少在75公里以上，而且在灾备运营节点不但要有冗余的IT系统环境和网络环境，还应包括能够实现业务运营的相关资源，如业务人员、营业环境等。地区保护：最外层是地域的保护，它应对的对象是影响整个地区的灾难，如飓风，地震，暴风雪等。通常采用的容灾方式为远距离的容灾备份节点。4.2.7.3 数据的远程复制通常说来，对于远程灾难恢复方案建议用户建立两个数据中心，主中心和备份中心。正常情况下，应用运行在主数据中心的计算机系统上，数据也存放在主中心的存储系

27、统中。当主数据中心由于断电，火灾甚至地震等灾难无法工作时，则立即采取一系列相关措施，将网络、电话线路切换至备份中心，并且利用备份中心计算机系统重新启动应用系统。而这里最关键的问题就是切换过程时间最短，同时尽可能保持主数据中心和备份中心数据的连续性和完整性。而由于财务数据的重要性，如何解决主、备中心数据库数据备份，恢复则是灾难恢复方案的重点。传统的磁带备份方式一般采取定点备份，而当系统崩溃时。距最近一次备份时间之间的数据将全部丢失，无法恢复。而且磁盘备份恢复时间比较长。由于速度慢，缺乏实时性，无法满足用户大数据量数据恢复及数据库连续性，实时性的要求。而现在流行的灾难恢复方案主要是采用实时的数据备

28、份的方式。它的主要原理是通过通信线路，实时地将主中心更新数据拷贝至备份中心存储系统中，保证主、备中心数据的实时一致性。当主中心无法工作时，备份中心可以立即接管业务，并且确保数据的最大完整性。其主要实施方法有：u 应用中间件软件的实现方式：通过对应用程序的修改，利用交易中间件软件，将在线交易同时在生产中心和灾备中心执行；或者通过交易中间件软件将任何主中心的数据改变发送到备份中心，从而保证生产中心和灾备中心的数据一致性。这种方式的优点是对网路带宽的要求较低，缺点是需要修改应用。u 利用数据库厂家的软件产品完成远程备份：现有的一些数据库厂家例如Oracle数据库可以提供STANDBY数据库功能，通过

29、通信网络将实际数据库日志文件传至备份中心存储系统，备份中心的 STANDBY数据库按照主数据库结构从日志文件中重新恢复数据库。这种方法投资成本小，数据恢复相对磁带较快，缺点就是占用主机资源，日志文件建立过程中发生灾难时，则该日志数据将丢失。u 利用数据复制软件完成远程备份：现有的一些EAI厂家的产品，例如TIBCO可以提供数据库和应用的数据的远程复制功能，通过安装在数据库和应用上的agent对数据库数据和应用数据进行监控，如果发生数据的变化就将变化发布到通信网络上，由具备接收能力的agent将数据接收下来，通过数据库接口将数据输入备用数据库。这种方法投资成本小，数据恢复相对磁带较快，可以实现灵

30、活的数据复制策略，可以是不同的数据库软件和不同的平台，缺点就是占用主机资源和存储资源。u 利用系统软件的镜像功能完成远程备份：利用操作系统的镜像工具软件，如HP MirrorDisk/UX和Volume Replicator，同时将数据写到本地和远程的数据中心。采用这种方式与应用和存储都无关，可实现异构存储且不需修改应用，缺点是对通信的质量要求较高。u 基于存储的灾难备份方式：通过高端存储阵列容灾：通过惠普高端存储阵列产品HP EVA系列，可以实现主数据中心和备份中心的操作系统、文件系统、数据库的实时拷贝维护。不占用主机CPU，内存，I/O资源，如果企业已经拥有高端存储设备，则采用该方案非常理

31、想，其缺点是两端必须采用同样的存储设备。容灾技术对比表容灾分类数据复制方法对主机影响（经验值）适用环境描述交易数据复制TUXCEDO，CICS5%异构主机异构存储设备投资最节省。但由于需要修改应用，所以大部分用户不会采用。数据库数据复制数据库本身的复制功能。QUEST5%同构主机异构存储相同数据库Oracle采用的是异步传输Achieve Log的方式。缺点是灾难发生时会丢失部分数据，只能保护数据库内的数据，而且只能保护数据库的数据，远程数据中心必须配置主机参与数据拷贝过程。数据复制软件数据库数据的复制功能。TIBCO5%异构主机异构存储不同数据库实现数据库数据的异步复制。非常灵活，易于实施，

32、缺点是占用主机资源和存储资源，远程数据中心必须配置主机参与数据拷贝过程。镜像软件复制HP MirrorDisk/UX等磁盘镜像软件。5%同构主机异构存储只支持同步方式，所以建议在10公里范围内采用，采用DWDM设备扩展后，可支持100公里的距离。好处是可以异构存储，即两个数据中心的存储可以不同，缺点是需要消耗主机CPU资源，而且对通信质量要求高。Volume Replicator510%与磁盘镜像原理相同，但功能更强，可以支持异步方式，所以距离可以不受限制。不支持AIX。存储硬件级复制高端磁盘阵列本身的远程数据拷贝无同构主机同构存储HP XP，HP EVA，EMC Sysmetrix， IBM

33、 Shark系列存储之间的数据拷贝方式，光纤直连方式可以支持到10公里，采用CNT设备扩展后距离不受限制。是采用较广的容灾方式，必须在同一厂商的高端存储设备间才支持远程数据拷贝。根据灾备系统的现状，我们认为采用基于存储硬件级的复制方式来的实现异地系统的容灾方案才是符合灾备系统实际需求的，以下对将采取的技术进行介绍。4.2.8 系统建设的目标灾难备份恢复系统的设计目标主要应从以下四个方面来考虑：具体数据类型与目标的灾难保护：从灾备系统正常运作的角度分析各种业务数据，作出重要性与可恢复性要求的评估，并由此制定系统的数据灾难保护策略。灾难发生后的可恢复业务分析：对灾备系统各个业务与管理流程进行分析评

34、估，并由此制定系统业务的灾难备份政策，建议通过智能存储设备进行实时远程数据复制，首先实现数据级容灾。同时系统通过备份管理软件将其数据备份到大容量磁带库，实现对制证数据的本地保护。灾难发生后的可恢复分析：对于突发性灾难这样的重大事件，有时受灾地区并不苟求所有系统的所有应用必须立即恢复运营，故可按比例和实际需求进行分析，并由此配备相应的设备。灾难发生后的业务可恢复时间指标：我们通常将灾难的发生分为两类，一类是可以预计具体时间的灾难，如损害性极大的台风，计划内的大面积电力系统检修等；另一类是不可预计突发性的灾难，如地震、恐怖袭击，主机系统的非计划性宕机等。针对两种不同灾难，要设定不同的恢复时间指标；

35、并根据不同业务系统的各自特点，确定不同业务系统的灾难恢复时间4.2.9 系统建设的原则根据灾备系统的实际情况，充分利用现有软硬件资源、网络资源，建立高性能、低成本的容灾系统。灾备系统容灾系统的建设原则应包括：（1）确保灾难情况下重要数据的安全存储；（2）确保灾难发生后系统运行的及时恢复，包括数据的恢复；（3）将灾备系统因灾害而导致的利益损失降低到最小程度；（4）坚持容灾备份系统建设投资经济合理性的原则；（5）确保系统的可扩充性、可维护性、可操作性；（6）建立健全相应严密的管理制度和操作流程。4.2.10 业务系统现状灾备系统是以计算机技术为依托的信息处理系统。其安全性、可靠性极为重

36、要，如果数据发生损坏、丢失，其后果将极为严重，不仅仅是影响了灾备系统的正常运行，有时甚至可能给个人、单位以至国家都带来无法估量的损失。尤其核心存储系统属于整个灾备系统业务集中处理系统，如果发生不可预见的故障和灾难，导致整个系统的崩溃，其影响将更大。因此，业务的拓展与灾难的防范是我们必须同等重视的问题。灾备系统随着业务开展的深入，数据量的增加，必然要考虑建设灾难备份中心，其目的就是在于防止一些灾难性的小概率事件可能对集中式信息系统造成的不可恢复的原始数据的丢失，这些灾难性事件可能包括为火灾、水灾、地震、电源故障及一些人为的操作失误等等。目前的容灾系统绝大多数是以硬件容灾为主，因为其可靠性最高、性

37、能最佳。硬件容灾要求存储阵列为较高档次的存储系统，这种高档次的阵列能够做到数据不通过主机就可以进行远程复制，如HP公司的EVA系列等可以实现硬件容灾。针对这些需求，我们为灾备系统设计了一套容灾方案供参考。4.2.11 灾备系统灾难备份系统解决方案（以下设备型号为示例）在异地容灾方式下，主中心与灾备中心同处在的城市*。主中心的地点选在所在地；灾备中心则可根据用户选择。在主中心，核心的数据系统是由两台RX6600服务器和一台EVA4000存储组成的业务系统。其连接方式均采用光纤连接。在异地灾备中心我们同样选择EVA4000作为核心存储设备，并作为数据远程复制的介质。服务器我们选择一台RX6600作

38、为灾难或紧急情况下业务恢复使用。连接方式同样采用光纤连接。数据的远程复制通过基于存储设备的HP Continuous Access EVA 软件来实现。主备中心之间的数据传送链路是容灾方案的一个重要部分。可以采用直接连接光纤或者DDN专线的方式。该同城容灾方案的配备如下：主中心容灾中心服务器RX6600*2RX6600*1存储EVA4000*1(10TB)EVA4000*1(10TB)SANSwitch 4/8*2Switch 4/8*2网络根据距离情况选择光纤直连方式或者专线这一同城容灾方案的特点为：在同城构建容灾平台，具有了一定的防灾抗灾能力；无须对主机平台，应用系统和数据库结构进行任

39、何修改，大大降低容灾方案实施风险；数据容灾对主机系统透明，无须占用主机资源；可以在主机或EVA磁盘阵列上灵活实现数据镜像卷对的生成，拆分，同步和删除操作，并可与应用脚本集成，自动运行；容灾方案成功案例众多，技术成熟，安全稳定；用户可以根据容灾距离和对性能的要求，选择采用CA同步复制方式，保证数据传输一致性和完整性，不会造成业务数据的瘫痪；灾备中心配备主机，可以支持查询业务，同时也具有了在紧急情况下快速恢复业务的能力。4.2.11.2 在灾备中心增加查询功能（未来）容灾在保证数据安全性和在生产系统正常运转的情况下，还可以被用来开展诸如数据挖掘、经营分析以及用户查询等其他业务，从而使为防

40、止灾难而采购的软硬件设备在平时也能得到很好的应用。灾备系统的容灾方案设计保证了在灾备中心有一份完整的业务数据的拷贝，因此这部分数据可以利用来进行数据查询系统的构建。由于用户对于查询系统的要求是24小时在线的业务，目前业界支持的一种实现方式是在灾备中心的存储上利用设备本地数据拷贝功能生成一个镜像卷，然后利用这个镜像卷来进行查询工作。4.2.11.3 数据复制方式建议通过磁盘阵列实现容灾备份功能，有两种实现模式：同步工作模式与异步工作模式。同步工作模式在服务器向存储写数据时，每一个IO会同时写往远程备份中心的存储阵列，并且在确认往本地和远程都写成功后才会应答服务器，表示写操作成功，在生产中心和备份

41、中心正常运行过程中，同步机制会保证生产中心和备份中心的存储阵列中的应用数据完全保持一致，当生产中心发生灾难时，备份中心的数据完全保留了生产中心发生灾难前的数据，最大程度的保护了业务数据的安全。同步模式适用于对业务数据的安全性要求比较高的业务与应用，要求带宽有保证，适用于生产中心与备份中心在同一个城市内部的容灾备份系统。另外，由于光纤传输的速度，距离会影响系统的性能。对于异步模式，在生产中心，每一个IO写往本地存储阵列后马上应答主机服务器写成功，应用继续运行。存储阵列本身在把数据传往远程备份中心。由于异步远程更新的执行，应用程序不必等待远程更新的完成，因此远程数据备份的性能的影响通常较小，并且备

42、份磁盘的距离和生产磁盘间的距离理论上没有限制。然而，当传送中的数据在生产磁盘控制器中还没有形成数据一致组时生产中心发生灾难，这些数据就会丢失。因此在系统和应用程序重新启动之前，需要额外的数据恢复。所花费的时间和造成的影响取决于实际应用环境，例如应用程序和设备配置的复杂性，更新的完整性等等。对于异步复制方式Continuous Access EVA是通过取得Oracle OSCP认证的time stamping 技术可以充分保障数据的完整性，这也是目前唯一的通过了Oracle认证的存储设备异步技术。通过这一技术实现了远端写数据的序列的正确性。保证数据的有效和可恢复能力。考虑到灾备系统采用异地的灾

43、备中心，在应用性能允许的情况下可以采用同步复制方式容灾，从而在最大程度上保护业务数据的安全。4.2.11.4 链路选择和带宽分析由于主中心和备份中心的距离并不代表实际的网络链路或裸光纤的长度，因为线路的敷设实际上是很曲折的。我们在系统建设时，还要采用不同路由的两条线路实现在传输上的高可用性，避免因为意外挖掘造成线路的中断。有可能两条线路的长度有很大的差异。无论采用同步和异步方式的远程复制，带宽都决定着数据复制的速度和系统运行的效能。因此主备中心之间的通讯链路带宽是决定着业务连续系统容灾能力的一个重要因素。我们认为该链路的带宽应该能够满足日常远程数据复制的要求和个别情况下主中心服务器访问备用中心

44、存储进行业务运行的需求也可以叫做存储切换的带宽需求。如果采用同步的复制方式，这两种需求是基本一样的，因为数据都要实时的传送到远端的存储上，然后返回确认信息。如果采用异步复制方式，为保证业务运行存储切换的带宽会高于远程复制的要求，因为异步的复制不需要和业务处理速度一致。我们以两者中间最高的标准作为系统设计依据。一般计算带宽的原则为: 生产中心与备份中心的容灾线路带宽应该为生产中心业务交易中写操作所产生的数据量的最大峰值( 因为只有写操作才会复制到远方,读操作则不会),这样一来,根据数据传输的基本原理, 就可以保证本地处理的性能不会因为远程数据的传输而带来大的性能影响。4.2.11.5 应用系统切

45、换在实施应用级的远程容灾方案之后，当主数据中心因为各种突发性灾难造成无法正常运行时，原来运行在主数据中心的业务系统将切换到备份中心继续运行；切换方式分为两种，即手工方式和自动方式当用户选择采用手工方式进行应用切换时，在主数据中心因为突发性灾难造成崩溃后，需由容灾系统管理员在备份数据中心启动预先编写的，并已通过严格测试的业务系统切换脚本完成应用系统的切换过程当用户不希望因为各种偶然性的因素（如网络故障，应用程序bug等）造成业务系统的远程切换，以及手工切换造成的业务中断时间在业务系统可以接受的时间范围内，或备份数据中心24小时有人值守的条件下，可以选择使用手工切换的方式完成应用系统的远程切换，这

46、种方式可以使容灾系统管理人员对灾难备份与恢复操作进行更多的控制与管理在通常情况下，应用系统的切换脚本包括以下内容:磁盘镜像卷的拆分（pairsplit）；备份数据卷组（VG）的激活（vgchange a y）和文件系统的一致性检查（fsck）；网络配置的修改；数据库恢复操作（DB recovery）；启动数据库；启动应用系统等当用户选择采用自动切换的方式进行应用切换时，需要借助于高可用性集群软件，如MC/Service Guard，Metro Cluster等；HP公司资深高可用性技术专家将结合灾备系统的应用实际情况和容灾环境的实际需求，对集群软件进行客户化配置，从而实现应用系统的自动切换功能

47、；保证当突发性灾难发生时，即使在无人值守的情况下，也能够实现业务系统的正常切换，确保业务系统能够实现全天候的正常运行。4.2.12 容灾系统的管理4.2.12.1 组织机构容灾备份系统需要由专门机构（指定现有相关部门或者设立新机构）负责日常的管理、维护、以及灾难发生后的系统恢复等工作。该机构的主要职责、职能主要包括：（1）备份系统的日常维护工作，确保当前备份系统是正常、有效的、以及数据备份的完整性、一致性；（2）测试及研究工作。测试工作包括对当前备份系统、备份数据有效性、可用性的测试、以及对应用软件的升级测试等；研究与容灾备份相关的技术方案优化以及相关制度、规程的完善；（3）日常管理、协调职能。负责本部门的日常管理工作，并负责与主用中心、以及相关方面的协调工作；（4）灾难发生后的

展开阅读全文