服务水平管理和服务水平协议2672.docx

上传人:you****now 文档编号:48054838 上传时间:2022-10-04 格式:DOCX 页数:51 大小:186.28KB
返回 下载 相关 举报
服务水平管理和服务水平协议2672.docx_第1页
第1页 / 共51页
服务水平管理和服务水平协议2672.docx_第2页
第2页 / 共51页
点击查看更多>>
资源描述

《服务水平管理和服务水平协议2672.docx》由会员分享,可在线阅读,更多相关《服务水平管理和服务水平协议2672.docx(51页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、窗体顶端端博客登录录用户名:密码码:窗体底端端服务水平平管理和和服务水水平协议议(SLLA)20077-099-200 088:044:377标签:SLAA推送到到技术圈圈 本文描述述面向高高可用性性网络的的服务水水平管理理和服务务水平协协议(SSLA)。它它包括服服务水平平管理的的成功因因素以及及帮您评评估成功功与否的的性能指指标。本本文以一一个国际际性的网网络详细细描述遵遵从高可可用性业业务工作作组确定定的最佳佳方案指指导原则则的SLLA。作者:汪澍服务水平平管理概概述网络络公司一一直以来来都通过过构建坚坚实的网网络基础础设施及及主动处处理每个个业务问问题来满满足不断断扩展的的网络要要求。

2、当当业务异异常中断断时,公公司将构构建新流流程、管管理功能能或基础础设施来来防止此此类故障障再次发发生。然然而,由由于快速速变更及及日益增增长的可可用性要要求,我我们现在在需要改改进模式式来预先先防止意意外故障障并快速速修复网网络。许许多服务务供应商商和企业业一直都都试图更更好地定定义服务务水平以以便实现现商业目目标。关关键成功功因素SSLA的的关键成成功因素素用来定定义支持持成功构构建可获获得的服服务水平平及维护护SLAA的主要要要素。要要成为合合格的关关键成功功因素,流流程或流流程步骤骤必须可可以改进进SLAA质量并并从整体体上提高高网络的的可用性性。关键键成功因因素还应应具备可可测量性性

3、,以便便使企业业能够判判断:与与定义的的程序相相比,它它所取得得的成功功程度。性能指标性能指标提供了公司测量关键成功因素的机制。您通常需要每月审查一次,以确保服务水平定义或SLA运行良好。网络运行小组及必要的工具组可实施以下测量标准。注意:对于没有SLA的公司,我们建议您同时实施服务水平定义、服务水平审核及测量标准。性能指标包括: 记录的服服务水平平定义或或SLAA,包括括可用性性、性能能、主动动业务应应答时间间、排障障目标及及问题升升级等。 月度网络络服务水水平审核核会议,审审核对服服务水平平的执行行情况并并实施改改进。 性能指标标测量标标准,包包括可用用性、性性能、按按优先级级划分的的业务

4、应应答时间间、按优优先级划划分的排排障时间间以及其其他可测测量的SSLA参参数。服务水平平管理流流程面向向服务水水平管理理的高级级别流程程主要包包括两组组:1.定义网网络服务务水平22.创建建并维护护SLAA实施服服务水平平管理实实施服务务水平管管理包括括十六步步,分为为以下两两个主要要范畴: 定义网络络服务水水平步骤1-6 创建并维维护SLLA 步骤7-16定义网络络服务水水平网络络管理人人员需要要定义支支持、管管理并测测量网络络的主要要规则。服服务水平平为所有有网络人人员提供供目标并并可用作作整体业业务质量量的测量量标准。您您也可将将服务水水平定义义用作网网络资源源预算工工具以及及投资于于

5、更高服服务质量量的证据据。它们们还提供供评估供供应商及及运营商商的表现现的方法法。如果果没有服服务水平平定义和和测量,公公司不可可能制定定明确的的目标。服服务是否否满意由由用户决决定,在在应用、服服务器/客户机机运行或或网络支支持方面面并无明明显差距距。由于于企业对对最终结结果没有有把握,因因此很难难作预算算。最终终,网络络公司在在提高网网络及支支持模式式方面都都趋向于于选择被被动应答答,而非非主动预预防的方方式。我我们建议议采取以以下步骤骤来构建建并支持持服务水水平模式式: 分析技术术目标及及限制因因素。 确定可用用性预算算。 创建详细细记录关关键应用用网络特特征的应应用资料料库。 定义可用

6、用性、性性能衡量量标准及及通用术术语。 创建服务务水平定定义,包包括可用用性、性性能、业业务应答答时间、排排障平均均时、故故障检测测、升级级门限及及上报途途径。 收集测量量标准并并监控服服务水平平定义。第1步:分析技技术目标标及限制制因素开开始分析析技术目目标和限限制因素素的最佳佳方式是是集体讨讨论或研研究技术术目标与与要求。因因为这些些人都有有特定的的业务目目标,所所以有时时这有助助于要求求其他IIT技术术人员参参与讨论论。技术术目标包包括可用用性级别别、吞吐吐量、抖抖动、延延迟、应应答时间间、可用用性要求求、新特特性的推推出、新新应用的的推出、安安全性、可可管理性性及成本本等。随随后,公公

7、司应研研究限制制因素,以以便使用用可用资资源实现现这些目目标。您您可为每每个目标标创建带带有对限限制因素素解释的的工作表表。最初初看似大大多数目目标都无无法实现现。随后后划分目目标的优优先级或或降低对对仍可满满足商业业要求的的目标的的期望值值。例如如,您制制定的可可用性级级别可能能是999.9999%,或或每年55分钟的的故障停停机时间间。实现现这一目目标存在在大量限限制因素素,如硬硬件的单单点故障障、远程程位置中中的故障障硬件的的平均修修复时间间(MTTTR)、运营营商可靠靠性、预预先故障障检测、高高变更率率及当前前网络容容量限制制等。因因此,您您需要将将这个目目标调节节到更加加易于实实现的

8、级级别。下下个章节节中介绍绍的可用用性模式式可帮您您制定现现实的目目标。您您可能也也考虑在在限制因因素相对对较少的的网络领领域提供供可用性性。当网网络公司司公布业业务的可可用性标标准时,公公司中的的各业务务部门可可能发现现无法接接受这个个级别的的可用性性。这自自然而然然引发对对SLAA的讨论论,或为为可满足足商业要要求的模模式进行行投资/做预算算。确定定所有限限制因素素或风险险的工作作包括要要实现技技术目标标。根据据实现理理想目标标的最大大风险或或影响方方面划分分限制因因素的优优先级。这这可帮助助公司确确定网络络改进计计划的优优先顺序序,并确确定解决决限制因因素的难难易程度度。限制制因素分分三

9、类: 网络技术术、故障障恢复能能力和配配置 生命周期期方案,包包括:规规划、设设计、实实施和运运行 当前的话话务负载或或应用行行为网络技术术、故障障恢复能能力及配配置限制制因素是是指与当当前技术术、硬件件、链路路、设计计或配置置相关的的任何限限制因素素或风险险。技术术限制因因素指技技术本身身造成的的任何限限制。例例如,当当前没有有一种技技术允许许冗余网网络环境境中实现现少于11秒的聚聚合时间间,而这这恰恰是是维持整整个网络络上的话话音连接接的关键键。另一一个例子子是数据据通过地地面链路路时的原原始速度度,大约约是1000英里里/毫秒。网网络硬件件故障恢恢复能力力风险调调查应集集中在硬硬件拓扑扑

10、、分级级体系、模模块化、冗冗余、MMTBFF及定义义的路径径这几方方面。网网络链路路限制因因素应强强调企业业网络链链路及运运行商连连接。链链路限制制因素可可能包括括链路冗冗余和多多样性、媒媒介限制制、布线线基础设设施、本本地环路路连接性性以及长长距离连连接性。设设计限制制因素与与网络的的物理或或逻辑设设计相关关,包括括从为设设备可用用空间到到路由协协议实施施的可扩扩展性等等各个方方面。您您应在配配置、可可用性、可可扩展性性、性能能及容量量方面考考虑所有有协议和和媒介设设计。动动态主机机配置协协议(DDHCPP)、域域名系统统(DNNS)、防防火墙、协协议转换换及网络络地址转转换等网网络业务务限

11、制因因素也应应列入考考虑之列列。生命命周期方方案定义义用于实实现解决决方案的的统一部部署、检检测和修修复故障障、防止止容量或或性能问问题以及及配置一一致性和和模块化化的网络络流程和和管理。您您需要认认真考虑虑这个领领域,因因为专业业技术和和流程通通常是导导致不可用性性的最大大影响因因素。网网络生命命周期指指规划、设设计、实实施和运运行周期期。在每每个阶段段中,您您都必须须了解性性能管理理、配置置管理、故故障管理理及安全全性等网网络管理理功能。思思科NSSA高可可用性服服务部(HAS)提供网络生命周期评估服务,确定与网络生命周期方案相关的当前网络可用性限制因素。当前的话务量或应用限制因素只是指当

12、前话务和应用的影响。不幸的是,许多应用都带有大量需要慎重管理的限制因素。当前应用的抖动、延迟、吞吐量及带宽要求通常带有许多限制因素。编写应用的方式也可能产生一些限制因素。汇编应用资料库可帮您更好地了解这些问题;下文将介绍这一特性。研究当前的可用性、话务、容量及性能还可帮助网络管理人员了解当前的服务水平目标及风险。这一工作常通过名为网络基准制定的流程来完成,该流程可帮您定义规定时段内(通常是一个月)的平均网络性能、可用性或容量。这些信息通常用于容量规划和趋势分析,但也可用来了解服务水平问题。下面的工作表使用了上述目标/限制因素方法来实现防止安全性攻击或拒绝服务攻击(DoS)的目标。您也可使用该工

13、作表来决定可最大限度地减少安全性攻击的业务范围。风险或限制因素限制因素类型潜在影响可用的DoS检测工具无法检测出全部DoS攻击类型。技术/故障恢复能力高不具备对告警做出相应所需的人员和流程。生命周期方案高当前网络接入策略未加执行。生命周期方案一般如果利用带宽拥塞来发动攻击,则当前的低带宽互联网连接成为限制因素。网络容量一般帮助防止攻击的当前安全性配置不完善。技术/故障恢复能力一般第2步:确定可可用性预预算可用用性预算算是期望望在定义义的两点点间出现现的、理理论上的的网络可可用性。准准确的理理论信息息可在多多个方面面发挥作作用: 公司可将将其视为为内部可可用性目目标,并并且能够够立刻定定义偏离离

14、并进行行补救。 网络规划划人员可可使用这这些信息息来确定定系统的的可用性性,以确确保设计计满足商商业要求求。造成不可可用性或或故障停停机的因因素包括括软硬件件故障、电电源和环环境问题题、链路路或运营营商故障障、网络络设计、人人为错误误或缺乏乏流程等等。在评评估网络络的整体体可用性性预算时时,您必必须严格格评估上上述的所所有参数数。如果果公司目目前正在在测量可可用性,则则可能不不需要可可用性预预算。用用可用性性测量标标准作为为基准来来评估服服务水平平定义使使用的当当前服务务水平。然然而,您您可将二二者进行行对比,以以便了解解潜在的的理论可可用性与与实际测测量结果果间的差差距。可可用性指指产品或或

15、业务在在需要时时投入运运行的可可能性。参参见以下下定义:a.可用用性11- (总的连连接中断断时间) / (总服服务连接接时间)1- 总总和(业务中中断期间间受影响响的连接接数量 X 业业务中断断时间) / (运运行的连连接数量量X 运行行时间)b.不可用性性1-由以以下因素素造成的的可用性性或总的的连接中中断时间间:软硬硬件故障障、电源源和环境境问题、链链路和运运营商故故障、网网络设计计、用户户错误及及流程故故障等。c.硬件可用性首先需要研究的领域是潜在硬件故障及其对不可用性的影响。要确定这方面的影响,公司应了解所有网络组件的MTBF以及MTTR,以确定两点间的路径中所有设备的潜在硬件问题。

16、如果网络采用模块化和分级体系结构,则几乎任意两点间的硬件可用性都是相同的。MTBF信息可用于所有思科组件,并且可根据请求、向本地客户经理提供。Cisco NSA HAS项目还使用一种工具来帮助确定硬件可用性及网络路径,即使在系统中存在模块冗余、机底冗余及路径冗余时也可以使用这种工具。硬件可靠性的一个主要因素是MTTR。公司应评估它们修复故障硬件的速度。如果公司未制定备用方案,只依赖于标准Cisco SMARTnet? 协议,则潜在的评估硬件更换时间为24小时。在带有核心冗余但不带有接入。冗余的典型LAN环境中,适当的可用性是 99.99%,平均修复时间是4-小时。d.软件可用性下一个需要研究的

17、领域是软件故障。出于测量的目的,思科将软件故障定义为由软件错误引发的设备冷启动。思科已经开发出许多流程来帮助了解软件的可用性;然而,更新的版本尚需一段时间进行测量,并且我们认为它的可用性不及一般的部署软件。IOS 11.2版(18)等一般部署软件经测量,证明具备99.9999%的可用性。这个数字是基于修复时间为六分钟(路由器重新装载的时间)的思科路由器的实际冷启动次数来计算的。采用不同版本的公司,可用性将随着复杂性的增加、互操作性的增强以及排障时间的缩短略有降低。采用最新软件版本的公司,不可用性将有所提高。不可用性的分配也相当广泛,这意味着客户将感觉到很高的不可用性或接近一般部署版本的可用性。

18、e.环境和电源的可用性您还必须考虑环境和电源的可用性问题。环境问题与将设备保持在特定的运行温度范围内的冷却系统的故障相关。当温度大大超过技术指标时,许多思科设备只是停止运转,而不会损害所有硬件。出于可用性预算的目的,您必须将电源考虑在内,因为它是造成本领域中不可用性的主要原因。虽然电源故障是造成网络不可用性的重要原因,但对它的讨论还是受到限制,这是因为无法进行准确的、理论上的电源分析。企业必须基于所在地区的经验、电源备份功能以及实施的流程,对其设备的电源可用性的大约测量结果进行评估,以确保为所有设备提供具备一致质量的电源。基于保守的估计,我们可以认为配备了备用发电机、不间断供电电源 (UPS)

19、系统并采用合格电源实施流程的企业,可实现高达六个九(99.9999%)的可用性,而未配备这些系统的企业,其可用性仅为 99.99%,或者说每年有36分钟的故障停机时间。当然,您可根据公司的观察或实际数据来调整这些数值,使其更真实地反映企业的具体情况。f.链路或运营商故障链路和运营商故障是影响WAN环境中的可用性的主要因素。切记:WAN环境只是同企业网络遭遇同样可用性问题的其他网络,包括:软硬件故障、用户错误及电源故障等。许多运营商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。切记,运营商的可用性保证级别很少基于或根本不基于实际可用性预算。这些保证级别有时只是用来提高运营商知名度的

20、营销和销售方法。在某些情况下,这些网络还公布看似相互突出的可用性统计数据。切记,这些统计数据可能只适用于完全冗余的核心网络,而不作为导致不可用性的因素(不可用性由本地环路接入引起),本地环路接入才是WAN网络中不可用性的主要因素。对WAN环境进行可用性评估应基于实际的运营商信息以及WAN连接的冗余级别。如果公司拥有多个大楼入口设施,冗余本地环路供应商、同步光网络 (SONET)本地接入、以及分布在多个地区的冗余长途运营商,则WAN的可用性将得到明显增强。电话业务是WAN环境中、非冗余网络连接相当准确的可用性预算。使用类似于本文所描述的可用性预算方法进行测量,电话业务的端到端连接的可用性预算大约

21、为99.94%。这种方法业已成功应用于数据环境中,结果基本相同,目前正被用作服务供应商有线网络中分组有线规程的预算。如果将该数值用于完全冗余的系统,则我们可以假定,WAN可用性会接近99.9999%。当然,由于成本及可用性问题,目前很少有哪家公司部署了分布在多个地区且完全冗余的WAN系统,所以应使用适当的判断方法测定这种功能。LAN环境中不太可能发生链路故障,然而,规划人员可能希望假定连接器断开或松动会引发短时间的故障停机。对LAN网络而言,保守的可用性估计约为99.9999%,或大约30秒故障停机/年。g.网络设计网络设计是影响可用性的另一个主要因素。不可扩展的设计、设计错误及网络聚合时间都

22、会对可用性产生负面影响。注意:出于本文的目的,我们将在下面的篇幅中描述不可扩展的设计或设计错误。网络设计被限定在可测量的数值上(基于网络中导致话务重新路由的软硬件故障)。这些数值通常被称作“系统故障切换时间”,并且是系统中自治愈协议功能的影响因素。使用与系统计算相同的方法便可计算可用性。然而,它只有在网络故障切换时间满足网络应用要求时才有效。如果故障切换时间可以接受,则不把它计算在内。如果故障切换时间不能接受,则计算时必须将其考虑在内,例如:估计或实际的故障切换时间为30秒的环境中下的IP 话音(VoIP)。在这个例子中,用户只是挂断电话,并有可能重新拨叫。用户肯定会将这30秒看作是非可用时段

23、,但在可用性预算时却未加考虑。根据系统故障切换时间来计算不可用性时要着眼于理论的软硬件可用性以及冗余路径,因为故障切换将出现在这个领域。您必须了解可能发生故障并导致冗余路径中出现故障切换的设备数量,这些设备的MTBF以及故障切换时间。一个简单的例子就是,冗余的相同设备中,每台设备的MTBF为35433小时,故障切换时间为30秒。用35,433除以8766(年平均小时数,包括闰年),我们可以看出该设备每四年出现一次故障。如果使用30秒作为故障切换时间,我们便可以假设:由于故障切换,每台设备每年平均停机7.5秒。由于用户可能会跨两条路径,因此需要将此结果乘以2,即:每年15秒。当以秒/每年进行计算

24、时,这个简单系统中由于故障切换引起的可用性的计算结果为99.99999785%。由于可能出现故障切换的网络中的冗余设备数量,在其他环境中,这个数字可能还要略高些。h.用户错误和流程用户错误和流程可用性问题是造成企业和运营商网络中不可用性的主要原因。约80%的不可用性问题是由于无法检测错误、变化故障及性能问题造成的。公司在制定可用性预算时,不愿意接受用户错误和流程引发的不可用性是其他所有理论上的不可用性的四倍这一实施,然而,各种证据一致表明,这种情况存在于许多环境中。下面我们将详细阐述不可用性的这个方面。由于您无法从理论上计算由用户错误和流程引发的不可用性数量,我们建议您在制定企业力求完美的可用

25、性预算时不将其考虑在内。但企业必须了解其流程和专业技术水平中现在所面临的可用性风险。透彻地了解了这些风险及抑制因素之后,网络规划人员便有可能将这些问题引发的一定数量的不可用性考虑在内。Cisco NSA HAS项目深入研究了这些问题,并可帮助企业了解由于流程、用户错误或专业技术问题引发的不可用性。i.制定最终的可用性预算您可将以前定义的所有领域的可用性相乘来决定整个可用性预算。这种方法通常适用于任意两点间的连接相类似的同机种环境,如:分级体系模块化LAN环境或分级体系标准WAN环境等。这下面的例子中,为分级体系模块化LAN环境确定了可用性预算。该环境为所有网络组件都配备了备用发电机和UPS系统

26、,并对电源进行适当的管理。企业未使用VoIP,也不希望将软件故障切换时间考虑在内。估算结果如下: 两个端点点间的硬硬件路径径可用性性= 999.999% 使用GDD软件可可靠性作作为基准准的软件件可用性性= 999.999999% 带有备用用系统的的环境和和电源可可用性= 999.9999% 考虑LAAN 环环境中的的链路故故障的可可用性= 999.99999% 未将系统统故障切切换时间间计算在在内的可可用性= 1000% 认为不存存在用户户错误和和流程缺缺陷的可可用性= 1000%企业希望望达到的的最终可可用性预预算是:0.999999 X 0.99999999 X0.99999999 X

27、0.99999999 = 00.99998996,或或99.98996%的的可用性性。如果果我们将将用户或或流程错错误引发发的潜在在不可用性性考虑在在内,并并假设其其引发的的不可用性性是技术术因素引引发的可可用性的的四倍,则则最终可可用性预预算是999.995%。对这个个例子的的分析使使我们了了解到,LAN可用性在99.95%与99.989%之间。现在,这些数值能够用作网络公司的服务水平目标。可以测量系统中的可用性并确定上述六个领域分别引发的不可用性百分率来计算其他数值。这使公司能够对供应商、运营商、流程和人员进行适当评估。这些数值也可用来设置业务期望值。如果您对99.95%与99.989%之

28、间的可用性不满意,可投资更多资源来获得理想的可用性级别。网络管理人员了解每个特定可用性级别的故障停机时间将大有帮助。计算任何可用性级别的年故障停机时间(分钟)的公式如下:故障停机(分钟)/年= 525600 (可用性级别 X 5256)如果可用性级别是99.95%,则结果是525600。(99.95 X 5256),或者相当于222.8分钟的故障停机。对于上述可用性定义,这等于网络中所有业务连接的平均故障停机时间。第3步:创建应用资料库应用资料库可帮助网络公司了解并定义每个应用的网络服务水平要求。这有助于确保网络支持每个应用要求及整体网络业务。当应用或服务器组指出网络存在问题时,应用资料库还可

29、用作网络服务支持的书面基准。最后,应用资料库可将性能及可用性等应用要求与真实的网络业务目标或当前限制因素进行对比,来调节网络业务目标,使其与商业要求保持一致。这不仅对服务水平管理很重要,而且对整个网络设计也相当重要。每次向网络中添加新应用时都应创建应用资料库。您还可能需要在IT应用部门、服务器管理部门以及组网部门间达成协议,以便为现有及全新业务创建应用资料库,完成用于商业应用及系统应用的应用资料库。商业应用可能包括电子邮件、文件传输、Web浏览、医疗图象处理或制造等。系统应用可能包括软件分发、用户鉴权、网络备份及网络管理等。网络分析员及应用或服务器支持应用小组应负责创建应用资料库。新应用可能要

30、求使用协议分析程序以及具备延迟模拟功能的WAN模拟程序来适当地划分应用要求的特征。这有助于确定必要带宽、应用可用性的最大延迟及抖动要求。只要您具备所需服务器,便可在实验室环境中开展这项工作。在VoIP等其他情况下,包括抖动、延迟及带宽在内的网络要求会很好地公布,且无需再进行实验室测试。应用资料库应包括以下项目: 应用名称称 应用类型型 新应用 业务重要要性 可用性要要求 使用的协协议和端端口 估计的用用户带宽宽 (kkbpss) 用户数量量和位置置 文件传输输要求(包包括时间间、量及及端点) 网络故障障停机影影响 延迟、抖抖动及可可用性要要求应用资料料库的目目标是了了解应用用的商业业要求、业业

31、务关键键性以及及带宽、延延迟及抖抖动等网网络要求求。此外外,网络络公司还还应了解解网络故故障停机机的影响响。在某某些情况况下,您您可能需需要重启启应用或或服务器器,这将将大幅度度延长总总的应用用故障停停机时间间。完成成应用资资料库后后,您可可将所有有网络功功能进行行对比,并并帮助调调节网络络服务水水平,使使其与商商业和应应用要求求相一致致。第4步:定定义可用用性及性性能标准准可用性性及性能能标准为为企业制制定业务务期望值值。可根根据不同同网络区区域或特特定应用用进行定定义这些些标准。还还可以确确定往返返延迟、抖抖动、最最大吞吐吐量、带带宽承诺诺及总体体可扩展展性等方方面的性性能。此此外,为为了

32、制定定业务期期望值,企企业还应应谨慎定定义每个个业务标标准,以以便使致致力于网网络工作作的用户户及ITT工作组组能够全全面了解解业务标标准以及及他们与与应用或或服务器器管理要要求的关关系。用用户及IIT工作作组还应应了解如如何测量量业务标标准。以以前服务务水平定定义步骤骤的结果果可以帮帮助制定定标准。这这时,网网络公司司应明确确了解当当前网络络所面临临的风险险和限制制因素及及应用行行为,并并进行理理论上的的可用性性分析或或制定可可用性基基准。1. 定义业务务标准适适用的地地理区域域或应用用领域,可可能包括括园区LLAN、本本国WAAN、外外联网及及合作伙伙伴连接接等。在在某些情情况下,企企业在

33、相相同区域域内的服服务水平平目标可可能有所所不同。这这对企业业或服务务器供应应商来说说并不罕罕见。这这时,它它们通常常基于各各自的业业务要求求制定不不同的服服务水平平标准。这这些在同同一地理理区域或或服务区区域中的的标准有有金牌、银银牌和铜铜牌之分分。2. 定义业务务标准参参数。可可用性及及往返延延迟是最最常见的的网络业业务标准准。根据据需要,还还可以包包括最大大吞吐量量、最低低带宽承承诺、抖抖动、接接受的错错误率以以及可扩扩展性功功能。当当审核用用于测量量方法的的业务参参数时要要特别谨谨慎。无无论参数数是否包包括在SSLA中中,公司司都应考考虑出现现问题或或业务不不一致性性时,如如何测量量并

34、证明明业务参参数的可可行性。完成对业业务领域域和业务务参数的的定义后后,您可可使用以以前步骤骤获得的的信息来来构建业业务标准准图。企企业还需需要定义义可能使使用户和和IT工作作组产生生混淆的的区域。例例如,往往返piing的的最长应应答时间间与在远远程位置置单击回回车键启启动特定定应用的的最长应应答时间间有很大大区别。下下表列出出了美国国采用的的性能目目标:网络区域可用性目标管理方法平均网络应答时间目标可接受的最常应答时间应答时间管理方法LAN99.99%受影响的用户时间5毫秒内10 毫秒往返ping应答WAN99.9%受影响的用户时间100毫秒内(往返ping)150 毫秒往返ping应答关

35、键WAN及外联网99.95%受影响的用户时间100毫秒内(往返ping)150 毫秒往返ping应答第5步:定义网网络业务务这是实实现基本本的服务务水平管管理的最最后一步步;它定定义您实实施用于于实现服服务水平平目标的的被动/主动流流程和管管理功能能。最终终文件通通常被称称作“运行支支持计划划”。大多多数应用用支持计计划只包包括被动动支持要要求。在在高可用用性环境境中,公公司必须须考虑采采用主动动的管理理流程,以以便在网网络故障障发生前前对其进进行隔离离并加以以处理解解决。总总的来说说,最终终文件应应: 描述用于于实现服服务水平平目标的的被动和和主动流流程 介绍业务务流程的的管理方方式 介绍测

36、量量业务目目标和业业务流程程的方式式本部分将将描述许许多服务务供应商商和企业业均需考考虑的主主动和被被动业务务定义的的实例。构构建服务务水平定定义的目目标是创创建满足足可用性性及性能能目标的的业务。为为了实现现上述目目标,公公司必须须构建业业务,并并谨记当当前的技技术限制制因素、可可用性预预算及应应用资料料库。特特别是,公公司应定定义并构构建始终终能够在在可用性性模式规规定的时时间内快快速确定定并排除除故障的的业务。公公司还必必须定义义可快速速识别并并解决潜潜在业务务问题的的业务,如如果忽略略这些问问题,将将对可用用性及性性能产生生负面影影响。实实现理想想的服务务水平非非一朝一一夕之事事。专业

37、业水准低低、当前前流程限限制或人人员不合合格等缺缺点将妨妨碍公司司实现理理想的标标准或目目标,即即使在完完成对以以前业务务步骤的的分析后后也是如如此。没没有一种种方法可可将所需需服务水水平与理理想目标标准确匹匹配。为为了适应应现实情情况,公公司应测测量业务务标准及及用于支支持业务务标准的的业务参参数。如如果没有有达到业业务目标标,公司司应利用用业务测测量标准准来帮助助了解问问题。在在许多情情况下,可可适当增增加预算算以改进进支持业业务,并并使这些些改进功功能成为为实现理理想业务务目标的的必要条条件。企企业可能能会逐步步进行多多次调节节(包括括业务目目标或业业务定义义),以以使网络络业务与与商业

38、要要求保持持一致。例如,当目标远远高于99.9%可用性时,企业可能只实现了99%的可用性。在服务及支持测量标准方面,企业代表发现硬件替换约需要24小时,远远高出最初的估计的4小时。此外,企业还发现主动管理功能受到忽视且故障的冗余网络设计没有及时修复。企业发现的问题还有缺乏实施改进的员工等。因此,考虑降低当前服务目标后,企业便投资购买实现理想服务水平所需的其他资源。业务定义应同时包括主动和被动支持定义。被动定义规定企业如何解决根据用户投诉或网络管理功能中确定已经发生的问题。主动定义描述企业如何确定并解决潜在的网络问题,包括修复故障的“备用”网络组件、错误检测、容量门限问题及升级问题等。以下提供主

39、动与被动服务水平定义实例。被动服务水平定义以下的服务水平领域通常使用帮助台数据库统计数据进行测量并定期审计。下表显示企业故障严重程度的实例。请注意:此表不包括处理新业务请求的方式,这项工作可通过SLA或其他应用资料库编制及性能假设分析来完成。如果通过相同的支持流程进行处理,新业务请求可以数据严重级别5。严重级别1严重级别2严重级别3严重级别4严重的业务影响LAN用户或服务器部分停机严重的WAN站点故障停机网络功能的丢失或降级对业务造成严重影响,可能需要运行应变措施园区LAN故障停机; 5-99名用户受到影响国内WAN站点故障停机国际WAN站点故障停机严重影响性能某些特定的网络功能丢失或降级,如

40、:冗余丢失等园区LAN性能受到影响 LAN冗余丢失对企业无业务影响的功能查询或故障完成问题题严重性性级别定定义之后后,定义义或研究究创建业业务应答答定义的的支持流流程。总总的来说说,业务务应答定定义要求求采用分分级支持持结构,以以及帮助助台软件件支持系系统来利利用故障障票跟踪踪问题。同同时还应应为每个个优先级级故障的的应答时时间和解解决时间间、按优优先级划划分的呼呼叫数量量以及应应答解决决质量制制定测量量标准。定定义支持持流程可可帮助定定义公司司内部每每个支持持级别的的目标及及其任务务与责任任。这有有助于公公司了解解用于每每个支持持级别的的资源要要求及专专业技术术水平。下下表举例例说明了了分级

41、支支持结构构及其问问题解决决指导原原则。支持级别职责目标第1级支持专职帮助台支持接听支持电话、发放故障票、15分钟内解决问题、记录故障票并上报到第2级支持解决40%的入局呼叫第2级支持队列监控、网络管理、工作站管理为确定的软件故障发放故障票实施接听第1级、供应商的电话,并上报到第3级支持对呼叫负责,直到排障为止在第2级解决所有呼叫第3级支持必须立刻为第2级提供优先级为1的全部故障所需的支持同意在SLA解决期限内帮助解决所有第2级未排除的故障不直接对故障负责下一步是是确定业业务应答答及排障障业务定定义。它它为如何何快速排排障(包包括硬件件更换在在内)制制定了目目标。为为这个领领域制定定目标是是非

42、常重重要的,因因为业务务应答及及恢复时时间直会会接影响响网络的的可用性性。问题题解决时时间也要要与可用用性预算算保持一一致。如如果在制制定可用用性预算算时未将将大量高高严重级级别的故故障考虑虑在内,则则公司随随后将需需开展大大量工作作来了解解此类故故障的根根源及可可能的弥弥补方法法。详见见下表:问题严重级别帮助台应答第2级应答现场第2级硬件更换解决问题1立刻上报到第2级,网络运行部经理5分钟2小时2小时4小时2立刻上报到第2级,网络运行部经理5分钟4小时4小时8小时315分钟2小时12小时24小时36小时415 分钟4小时3 天3天6天除业务应应答及业业务排障障外,还还需制定定上报规规定。上上

43、报表有有助于确确保将可可用资源源集中用用于解决决严重影影响业务务的问题题。总的的来说,如如果分析析员集中中精力解解决问题题时,他他们很少少重视利利用其他他资源来来解决问问题。定定义何时时需要其其他资源源有助于于促进管管理层对对问题的的认识,并并有助于于促成未未来的主主动测量量或预防防性测量量。详见见下表:过去的时间严重级别1严重级别2严重级别3严重级别45分钟网络运行部经理、第3级支持、联网部主管1小时及时通知网络运行部经理、第3级支持、联网部主管及时通知网络运行部经理、第3级支持、联网部主管2 小时上报副总裁、及时通知主任及网络运行部经理4 小时向副总裁、主管、运行部经理、第3级支持提交根源

44、分析,向CEO通知未排除的故障上报副总裁,及时通知主管及网络运行部经理24 小时网络运行部经理5 天网络运行部经理迄今为止止,服务务水平定定义始终终集中在在运行支支持部门门如何在在问题发发生后对对其采取取被动措措施上。运运行部门门多年前前便制定定出了包包括上述述相似内内容的运运行支持持计划。然然而,该该方案中中忽略了了部门如如何识别别问题以以及他们们将识别别哪些故故障等内内容。比比较成熟熟的网络络公司试试图制定定预先确确定的网网络问题题百分率率目标来来解决这这个问题题,而不不是通过过用户故故障报告告或投诉诉来被动动地确定定故障。下表列出了公司对主动支持功能和被动支持功能的整体测量目标。网络领域

45、主动故障识别率被动故障识别率LAN80 %20 %WAN80 %20 %这为确定定更多的的主动支支持定义义开了一一个好头头,因为为它测量量起来很很简单、也也很容易易,尤其其在主动动检测工工具可自自动生成成故障票票。这还还有助于于将网络络管理工工具/信息集集中用于于主动排排障,而而不是在在故障发发生后被被动地查查找根源源。然而而,这种种方法的的主要问问题在于于它无法法定义主主动支持持要求。这这通常会会造成主主动支持持管理功功能间的的差距并并导致更更大的可可用性风风险。主主动服务务水平定定义更全全面的制制定服务务水平定定义方法法包括,更更详细地地解释如如何7 x 224全天天候地监监控网络络,以及

46、及运行部部门如何何7 xx 244全天候候对已定定义的网网络管理理站(NNMS)门门限做出出响应。鉴于管理信息站(MIB)数量的不确定性以及提供MIB的网络管理信息数量与网络的运行情况相关,因此这看上去是一项无法完成的任务。同时,完成这项任务需大量资源且代价非常高昂。不幸的是,这些缺点大大妨碍了我们对主动业务定义的实施,而这种实施从本质上来说非常简单轻松,且只适用于可用性或性能风险极大的网络。如果公司随后看到了基本主动业务定义的价值,那么只要采用分阶段实施的方法,就可以逐渐添加更多变量,但不会对业务产生重大影响。所有运行支持方案中均应包括第一个领域的主动业务定义。该业务定义只是简单阐述运行部门

47、如何识别不同网络区域中的网络或链路故障并对此做出响应。没有这个定义(或管理支持),公司可能遇到支持不稳定、无法达到用户期望等问题,最终会降低网络可用性。下表显示了公司如何针对链路/设备故障制定服务定义。该实例中的企业在每天的不同时段及网络区域方面有着不同的通知和响应要求。网络设备或链路故障检测方法5 x 8通知7 x 24通知5 x 8排障7 x 24排障核心LANSNMP设备和链路轮询陷阱NOC创建故障票、向负责LAN的人员发出寻呼自动向负责LAN的人员发出寻呼、 LAN负责人员为核心LAN队列创建故障票NOC在15分钟内派出LAN分析员、根据业务应答定义解决问题立刻研究并排除优先级1和2的

48、故障、优先级3和4的故障排队等候次日上午排除国内WANSNMP设备和链路轮询陷阱NOC创建故障票、向负责WAN的人员发出寻呼自动向负责WAN的人员发出寻呼、 WAN负责人员为核心WAN队列创建故障票NOC在15分钟内派出WAN分析员、根据业务应答定义排障立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等候次日上午排除外联网SNMP设备和链路轮询陷阱NOC创建故障票、向负责合作伙伴的人员发出寻呼自动向负责合作伙伴的人员发出寻呼,合作伙伴负责人员为合作伙伴队列创建故障票NOC在15分钟内派出合作伙伴分析员、根据业务应答定义排障立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等候次日上午排除其余的主主动服务务水平定定义

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理制度

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com