服务水平管理和服务水平协议SLA.doc-得力文库

资源描述

《服务水平管理和服务水平协议SLA.doc》由会员分享，可在线阅读，更多相关《服务水平管理和服务水平协议SLA.doc（55页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、服务水平管理和服务水平协议(SLA)服务水平管理和服务水平协议（SLA）服务水平管理概述网络公司一直以来都通过构建坚实网络基础设施及主动处理每个业务问题来满足不断扩展网络要求。当业务异常中断时，公司将构建新流程、管理功能或基础设施来防止此类故障再次发生。然而，由于快速变更及日益增长可用性要求，我们现在需要改进模式来预先防止意外故障并快速修复网络。许多服务供应商和企业一直都试图更好地定义服务水平以便实现商业目标。关键成功因素SLA关键成功因素用来定义支持成功构建可获得服务水平及维护SLA主要要素。要成为合格关键成功因素，流程或流程步骤必须可以改进SLA质量并从整体上提高网络可用性。关键成功因素还

2、应具备可测量性，以便使企业能够判断：与定义程序相比，它所取得成功程度。性能指标性能指标提供了公司测量关键成功因素机制。您通常需要每月审查一次，以确保服务水平定义或SLA运行良好。网络运行小组及必要工具组可实施以下测量标准。注意：对于没有SLA公司，我们建议您同时实施服务水平定义、服务水平审核及测量标准。性能指标包括：记录服务水平定义或SLA，包括可用性、性能、主动业务应答时间、排障目标及问题升级等。月度网络服务水平审核会议，审核对服务水平执行情况并实施改进。性能指标测量标准，包括可用性、性能、按优先级划分业务应答时间、按优先级划分排障时间以及其他可测量SLA参数。服务水平管理流程面向服务

3、水平管理高级别流程主要包括两组：1.定义网络服务水平 2.创建并维护SLA实施服务水平管理实施服务水平管理包括十六步，分为以下两个主要范畴：定义网络服务水平步骤1-6 创建并维护SLA 步骤7-16定义网络服务水平网络管理人员需要定义支持、管理并测量网络主要规则。服务水平为所有网络人员提供目标并可用作整体业务质量测量标准。您也可将服务水平定义用作网络资源预算工具以及投资于更高服务质量证据。它们还提供评估供应商及运营商表现方法。如果没有服务水平定义和测量，公司不可能制定明确目标。服务是否满意由用户决定，在应用、服务器/客户机运行或网络支持方面并无明显差距。由于企业对最终结果没有把握，因此很难作

4、预算。最终，网络公司在提高网络及支持模式方面都趋向于选择被动应答，而非主动预防方式。我们建议采取以下步骤来构建并支持服务水平模式：分析技术目标及限制因素。确定可用性预算。创建详细记录关键应用网络特征应用资料库。定义可用性、性能衡量标准及通用术语。创建服务水平定义，包括可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及上报途径。收集测量标准并监控服务水平定义。第1步：分析技术目标及限制因素开始分析技术目标和限制因素最佳方式是集体讨论或研究技术目标与要求。因为这些人都有特定业务目标，所以有时这有助于要求其他IT技术人员参与讨论。技术目标包括可用性级别、吞吐量、抖动、延迟、应答

5、时间、可用性要求、新特性推出、新应用推出、安全性、可管理性及成本等。随后，公司应研究限制因素，以便使用可用资源实现这些目标。您可为每个目标创建带有对限制因素解释工作表。最初看似大多数目标都无法实现。随后划分目标优先级或降低对仍可满足商业要求目标期望值。例如，您制定可用性级别可能是99.999%，或每年5分钟故障停机时间。实现这一目标存在大量限制因素，如硬件单点故障、远程位置中故障硬件平均修复时间(MTTR)、运营商可靠性、预先故障检测、高变更率及当前网络容量限制等。因此，您需要将这个目标调节到更加易于实现级别。下个章节中介绍可用性模式可帮您制定现实目标。您可能也考虑在限制因素相对较少网络领域提

6、供可用性。当网络公司公布业务可用性标准时，公司中各业务部门可能发现无法接受这个级别可用性。这自然而然引发对SLA讨论，或为可满足商业要求模式进行投资/做预算。确定所有限制因素或风险工作包括要实现技术目标。根据实现理想目标最大风险或影响方面划分限制因素优先级。这可帮助公司确定网络改进计划优先顺序，并确定解决限制因素难易程度。限制因素分三类：网络技术、故障恢复能力和配置生命周期方案，包括：规划、设计、实施和运行当前话务负载或应用行为网络技术、故障恢复能力及配置限制因素是指与当前技术、硬件、链路、设计或配置相关任何限制因素或风险。技术限制因素指技术本身造成任何限制。例如，当前没有一种技术允许冗

7、余网络环境中实现少于1秒聚合时间，而这恰恰是维持整个网络上话音连接关键。另一个例子是数据通过地面链路时原始速度，大约是100英里/毫秒。网络硬件故障恢复能力风险调查应集中在硬件拓扑、分级体系、模块化、冗余、MTBF及定义路径这几方面。网络链路限制因素应强调企业网络链路及运行商连接。链路限制因素可能包括链路冗余和多样性、媒介限制、布线基础设施、本地环路连接性以及长距离连接性。设计限制因素与网络物理或逻辑设计相关，包括从为设备可用空间到路由协议实施可扩展性等各个方面。您应在配置、可用性、可扩展性、性能及容量方面考虑所有协议和媒介设计。动态主机配置协议（DHCP）、域名系统（DNS）、防火墙、协议转

8、换及网络地址转换等网络业务限制因素也应列入考虑之列。生命周期方案定义用于实现解决方案统一部署、检测和修复故障、防止容量或性能问题以及配置一致性和模块化网络流程和管理。您需要认真考虑这个领域，因为专业技术和流程通常是导致不可用性最大影响因素。网络生命周期指规划、设计、实施和运行周期。在每个阶段中，您都必须了解性能管理、配置管理、故障管理及安全性等网络管理功能。思科NSA高可用性服务部（HAS）提供网络生命周期评估服务，确定与网络生命周期方案相关当前网络可用性限制因素。当前话务量或应用限制因素只是指当前话务和应用影响。不幸是，许多应用都带有大量需要慎重管理限制因素。当前应用抖动、延迟、吞吐量及带宽

9、要求通常带有许多限制因素。编写应用方式也可能产生一些限制因素。汇编应用资料库可帮您更好地了解这些问题；下文将介绍这一特性。研究当前可用性、话务、容量及性能还可帮助网络管理人员了解当前服务水平目标及风险。这一工作常通过名为网络基准制定流程来完成，该流程可帮您定义规定时段内（通常是一个月）平均网络性能、可用性或容量。这些信息通常用于容量规划和趋势分析，但也可用来了解服务水平问题。下面工作表使用了上述目标/限制因素方法来实现防止安全性攻击或拒绝服务攻击（DoS）目标。您也可使用该工作表来决定可最大限度地减少安全性攻击业务范围。风险或限制因素限制因素类型潜在影响可用DoS检测工具无法检测出全部DoS攻

10、击类型。技术/故障恢复能力高不具备对告警做出相应所需人员和流程。生命周期方案高当前网络接入策略未加执行。生命周期方案一般如果利用带宽拥塞来发动攻击，则当前低带宽互联网连接成为限制因素。网络容量一般帮助防止攻击当前安全性配置不完善。技术/故障恢复能力一般第2步：确定可用性预算可用性预算是期望在定义两点间出现、理论上网络可用性。准确理论信息可在多个方面发挥作用：公司可将其视为内部可用性目标，并且能够立刻定义偏离并进行补救。网络规划人员可使用这些信息来确定系统可用性，以确保设计满足商业要求。造成不可用性或故障停机因素包括软硬件故障、电源和环境问题、链路或运营商故障、网络设计、人为错误或缺乏流程等

11、。在评估网络整体可用性预算时，您必须严格评估上述所有参数。如果公司目前正在测量可用性，则可能不需要可用性预算。用可用性测量标准作为基准来评估服务水平定义使用当前服务水平。然而，您可将二者进行对比，以便了解潜在理论可用性与实际测量结果间差距。可用性指产品或业务在需要时投入运行可能性。参见以下定义：a.可用性1- (总连接中断时间) / (总服务连接时间)1- 总和(业务中断期间受影响连接数量 X 业务中断时间) / (运行连接数量X 运行时间)b.不可用性1-由以下因素造成可用性或总连接中断时间：软硬件故障、电源和环境问题、链路和运营商故障、网络设计、用户错误及流程故障等。c.硬件可用性首先需要

12、研究领域是潜在硬件故障及其对不可用性影响。要确定这方面影响，公司应了解所有网络组件MTBF以及MTTR，以确定两点间路径中所有设备潜在硬件问题。如果网络采用模块化和分级体系结构，则几乎任意两点间硬件可用性都是相同。MTBF信息可用于所有思科组件，并且可根据请求、向本地客户经理提供。Cisco NSA HAS项目还使用一种工具来帮助确定硬件可用性及网络路径，即使在系统中存在模块冗余、机底冗余及路径冗余时也可以使用这种工具。硬件可靠性一个主要因素是MTTR。公司应评估它们修复故障硬件速度。如果公司未制定备用方案，只依赖于标准Cisco SMARTnet? 协议，则潜在评估硬件更换时间为24小时。在

13、带有核心冗余但不带有接入。冗余典型LAN环境中，适当可用性是 99.99%，平均修复时间是4-小时。d.软件可用性下一个需要研究领域是软件故障。出于测量目，思科将软件故障定义为由软件错误引发设备冷启动。思科已经开发出许多流程来帮助了解软件可用性；然而，更新版本尚需一段时间进行测量，并且我们认为它可用性不及一般部署软件。IOS 11.2版(18)等一般部署软件经测量，证明具备99.9999%可用性。这个数字是基于修复时间为六分钟（路由器重新装载时间）思科路由器实际冷启动次数来计算。采用不同版本公司，可用性将随着复杂性增加、互操作性增强以及排障时间缩短略有降低。采用最新软件版本公司，不可用性将有所

14、提高。不可用性分配也相当广泛，这意味着客户将感觉到很高不可用性或接近一般部署版本可用性。e.环境和电源可用性您还必须考虑环境和电源可用性问题。环境问题与将设备保持在特定运行温度范围内冷却系统故障相关。当温度大大超过技术指标时，许多思科设备只是停止运转，而不会损害所有硬件。出于可用性预算目，您必须将电源考虑在内，因为它是造成本领域中不可用性主要原因。虽然电源故障是造成网络不可用性重要原因，但对它讨论还是受到限制，这是因为无法进行准确、理论上电源分析。企业必须基于所在地区经验、电源备份功能以及实施流程，对其设备电源可用性大约测量结果进行评估，以确保为所有设备提供具备一致质量电源。基于保守估计，我们

15、可以认为配备了备用发电机、不间断供电电源 (UPS)系统并采用合格电源实施流程企业，可实现高达六个九（99.9999%）可用性，而未配备这些系统企业，其可用性仅为 99.99%，或者说每年有36分钟故障停机时间。当然，您可根据公司观察或实际数据来调整这些数值，使其更真实地反映企业具体情况。f.链路或运营商故障链路和运营商故障是影响WAN环境中可用性主要因素。切记：WAN环境只是同企业网络遭遇同样可用性问题其他网络，包括：软硬件故障、用户错误及电源故障等。许多运营商网络都已经开始对系统进行可用性预算，但获得这些信息并不容易。切记，运营商可用性保证级别很少基于或根本不基于实际可用性预算。这些保证级

16、别有时只是用来提高运营商知名度营销和销售方法。在某些情况下，这些网络还公布看似相互突出可用性统计数据。切记，这些统计数据可能只适用于完全冗余核心网络，而不作为导致不可用性因素（不可用性由本地环路接入引起），本地环路接入才是WAN网络中不可用性主要因素。对WAN环境进行可用性评估应基于实际运营商信息以及WAN连接冗余级别。如果公司拥有多个大楼入口设施，冗余本地环路供应商、同步光网络 (SONET)本地接入、以及分布在多个地区冗余长途运营商，则WAN可用性将得到明显增强。电话业务是WAN环境中、非冗余网络连接相当准确可用性预算。使用类似于本文所描述可用性预算方法进行测量，电话业务端到端连接可用性

17、预算大约为99.94%。这种方法业已成功应用于数据环境中，结果基本相同，目前正被用作服务供应商有线网络中分组有线规程预算。如果将该数值用于完全冗余系统，则我们可以假定，WAN可用性会接近99.9999%。当然，由于成本及可用性问题，目前很少有哪家公司部署了分布在多个地区且完全冗余WAN系统，所以应使用适当判断方法测定这种功能。LAN环境中不太可能发生链路故障，然而，规划人员可能希望假定连接器断开或松动会引发短时间故障停机。对LAN网络而言，保守可用性估计约为99.9999%，或大约30秒故障停机/年。g.网络设计网络设计是影响可用性另一个主要因素。不可扩展设计、设计错误及网络聚合时间都会对可用

18、性产生负面影响。注意：出于本文目，我们将在下面篇幅中描述不可扩展设计或设计错误。网络设计被限定在可测量数值上（基于网络中导致话务重新路由软硬件故障）。这些数值通常被称作“系统故障切换时间”，并且是系统中自治愈协议功能影响因素。使用与系统计算相同方法便可计算可用性。然而，它只有在网络故障切换时间满足网络应用要求时才有效。如果故障切换时间可以接受，则不把它计算在内。如果故障切换时间不能接受，则计算时必须将其考虑在内，例如：估计或实际故障切换时间为30秒环境中下IP 话音(VoIP)。在这个例子中，用户只是挂断电话，并有可能重新拨叫。用户肯定会将这30秒看作是非可用时段，但在可用性预算时却未加考虑。

19、根据系统故障切换时间来计算不可用性时要着眼于理论软硬件可用性以及冗余路径，因为故障切换将出现在这个领域。您必须了解可能发生故障并导致冗余路径中出现故障切换设备数量，这些设备MTBF以及故障切换时间。一个简单例子就是，冗余相同设备中，每台设备MTBF为35433小时，故障切换时间为30秒。用35，433除以8766（年平均小时数，包括闰年），我们可以看出该设备每四年出现一次故障。如果使用30秒作为故障切换时间，我们便可以假设：由于故障切换，每台设备每年平均停机7.5秒。由于用户可能会跨两条路径，因此需要将此结果乘以2，即：每年15秒。当以秒/每年进行计算时，这个简单系统中由于故障切换引起可用性计

20、算结果为99.99999785%。由于可能出现故障切换网络中冗余设备数量，在其他环境中，这个数字可能还要略高些。h.用户错误和流程用户错误和流程可用性问题是造成企业和运营商网络中不可用性主要原因。约80%不可用性问题是由于无法检测错误、变化故障及性能问题造成。公司在制定可用性预算时，不愿意接受用户错误和流程引发不可用性是其他所有理论上不可用性四倍这一实施，然而，各种证据一致表明，这种情况存在于许多环境中。下面我们将详细阐述不可用性这个方面。由于您无法从理论上计算由用户错误和流程引发不可用性数量，我们建议您在制定企业力求完美可用性预算时不将其考虑在内。但企业必须了解其流程和专业技术水平中现在所面

21、临可用性风险。透彻地了解了这些风险及抑制因素之后，网络规划人员便有可能将这些问题引发一定数量不可用性考虑在内。Cisco NSA HAS项目深入研究了这些问题，并可帮助企业了解由于流程、用户错误或专业技术问题引发不可用性。i.制定最终可用性预算您可将以前定义所有领域可用性相乘来决定整个可用性预算。这种方法通常适用于任意两点间连接相类似同机种环境，如：分级体系模块化LAN环境或分级体系标准WAN环境等。这下面例子中，为分级体系模块化LAN环境确定了可用性预算。该环境为所有网络组件都配备了备用发电机和UPS系统，并对电源进行适当管理。企业未使用VoIP，也不希望将软件故障切换时间考虑在内。估算结果

22、如下：两个端点间硬件路径可用性= 99.99% 使用GD软件可靠性作为基准软件可用性= 99.9999% 带有备用系统环境和电源可用性= 99.999% 考虑LAN 环境中链路故障可用性= 99.9999% 未将系统故障切换时间计算在内可用性= 100% 认为不存在用户错误和流程缺陷可用性= 100%企业希望达到最终可用性预算是：0.9999 X 0.999999 X0.999999 X 0.999999 = 0.999896，或99.9896%可用性。如果我们将用户或流程错误引发潜在不可用性考虑在内，并假设其引发不可用性是技术因素引发可用性四倍，则最终可用性预算是99.95%。对这个例子分

23、析使我们了解到，LAN可用性在99.95%与99.989%之间。现在，这些数值能够用作网络公司服务水平目标。可以测量系统中可用性并确定上述六个领域分别引发不可用性百分率来计算其他数值。这使公司能够对供应商、运营商、流程和人员进行适当评估。这些数值也可用来设置业务期望值。如果您对99.95%与99.989%之间可用性不满意，可投资更多资源来获得理想可用性级别。网络管理人员了解每个特定可用性级别故障停机时间将大有帮助。计算任何可用性级别年故障停机时间（分钟）公式如下：故障停机（分钟）/年= 525600 （可用性级别 X 5256）如果可用性级别是99.95%，则结果是525600。(99.95

24、X 5256)，或者相当于222.8分钟故障停机。对于上述可用性定义，这等于网络中所有业务连接平均故障停机时间。第3步：创建应用资料库应用资料库可帮助网络公司了解并定义每个应用网络服务水平要求。这有助于确保网络支持每个应用要求及整体网络业务。当应用或服务器组指出网络存在问题时，应用资料库还可用作网络服务支持书面基准。最后，应用资料库可将性能及可用性等应用要求与真实网络业务目标或当前限制因素进行对比，来调节网络业务目标，使其与商业要求保持一致。这不仅对服务水平管理很重要，而且对整个网络设计也相当重要。每次向网络中添加新应用时都应创建应用资料库。您还可能需要在IT应用部门、服务器管理部门以及组网部

25、门间达成协议，以便为现有及全新业务创建应用资料库，完成用于商业应用及系统应用应用资料库。商业应用可能包括电子邮件、文件传输、Web浏览、医疗图象处理或制造等。系统应用可能包括软件分发、用户鉴权、网络备份及网络管理等。网络分析员及应用或服务器支持应用小组应负责创建应用资料库。新应用可能要求使用协议分析程序以及具备延迟模拟功能WAN模拟程序来适当地划分应用要求特征。这有助于确定必要带宽、应用可用性最大延迟及抖动要求。只要您具备所需服务器，便可在实验室环境中开展这项工作。在VoIP等其他情况下，包括抖动、延迟及带宽在内网络要求会很好地公布，且无需再进行实验室测试。应用资料库应包括以下项目：应用名称

26、应用类型新应用业务重要性可用性要求使用协议和端口估计用户带宽 (kbps) 用户数量和位置文件传输要求（包括时间、量及端点）网络故障停机影响延迟、抖动及可用性要求应用资料库目标是了解应用商业要求、业务关键性以及带宽、延迟及抖动等网络要求。此外，网络公司还应了解网络故障停机影响。在某些情况下，您可能需要重启应用或服务器，这将大幅度延长总应用故障停机时间。完成应用资料库后，您可将所有网络功能进行对比，并帮助调节网络服务水平，使其与商业和应用要求相一致。第4步：定义可用性及性能标准可用性及性能标准为企业制定业务期望值。可根据不同网络区域或特定应用进行定义这些标准。还可以确定往返延

27、迟、抖动、最大吞吐量、带宽承诺及总体可扩展性等方面性能。此外，为了制定业务期望值，企业还应谨慎定义每个业务标准，以便使致力于网络工作用户及IT工作组能够全面了解业务标准以及他们与应用或服务器管理要求关系。用户及IT工作组还应了解如何测量业务标准。以前服务水平定义步骤结果可以帮助制定标准。这时，网络公司应明确了解当前网络所面临风险和限制因素及应用行为，并进行理论上可用性分析或制定可用性基准。1. 定义业务标准适用地理区域或应用领域，可能包括园区LAN、本国WAN、外联网及合作伙伴连接等。在某些情况下，企业在相同区域内服务水平目标可能有所不同。这对企业或服务器供应商来说并不罕见。这时，它们通常基于

28、各自业务要求制定不同服务水平标准。这些在同一地理区域或服务区域中标准有金牌、银牌和铜牌之分。 2. 定义业务标准参数。可用性及往返延迟是最常见网络业务标准。根据需要，还可以包括最大吞吐量、最低带宽承诺、抖动、接受错误率以及可扩展性功能。当审核用于测量方法业务参数时要特别谨慎。无论参数是否包括在SLA中，公司都应考虑出现问题或业务不一致性时，如何测量并证明业务参数可行性。完成对业务领域和业务参数定义后，您可使用以前步骤获得信息来构建业务标准图。企业还需要定义可能使用户和IT工作组产生混淆区域。例如，往返ping最长应答时间与在远程位置单击回车键启动特定应用最长应答时间有很大区别。下表列出了美国采

29、用性能目标：网络区域可用性目标管理方法平均网络应答时间目标可接受最常应答时间应答时间管理方法LAN99.99%受影响用户时间5毫秒内10 毫秒往返ping应答WAN99.9%受影响用户时间100毫秒内(往返ping)150 毫秒往返ping应答关键WAN及外联网99.95%受影响用户时间100毫秒内(往返ping)150 毫秒往返ping应答第5步：定义网络业务这是实现基本服务水平管理最后一步；它定义您实施用于实现服务水平目标被动/主动流程和管理功能。最终文件通常被称作“运行支持计划”。大多数应用支持计划只包括被动支持要求。在高可用性环境中，公司必须考虑采用主动管理流程，以便在网络故障发生前对

30、其进行隔离并加以处理解决。总来说，最终文件应：描述用于实现服务水平目标被动和主动流程介绍业务流程管理方式介绍测量业务目标和业务流程方式本部分将描述许多服务供应商和企业均需考虑主动和被动业务定义实例。构建服务水平定义目标是创建满足可用性及性能目标业务。为了实现上述目标，公司必须构建业务，并谨记当前技术限制因素、可用性预算及应用资料库。特别是，公司应定义并构建始终能够在可用性模式规定时间内快速确定并排除故障业务。公司还必须定义可快速识别并解决潜在业务问题业务，如果忽略这些问题，将对可用性及性能产生负面影响。实现理想服务水平非一朝一夕之事。专业水准低、当前流程限制或人员不合格等缺点将妨碍公司实

31、现理想标准或目标，即使在完成对以前业务步骤分析后也是如此。没有一种方法可将所需服务水平与理想目标准确匹配。为了适应现实情况，公司应测量业务标准及用于支持业务标准业务参数。如果没有达到业务目标，公司应利用业务测量标准来帮助了解问题。在许多情况下，可适当增加预算以改进支持业务，并使这些改进功能成为实现理想业务目标必要条件。企业可能会逐步进行多次调节（包括业务目标或业务定义），以使网络业务与商业要求保持一致。例如，当目标远远高于99.9%可用性时，企业可能只实现了99%可用性。在服务及支持测量标准方面，企业代表发现硬件替换约需要24小时，远远高出最初估计4小时。此外，企业还发现主动管理功能受到忽视且

32、故障冗余网络设计没有及时修复。企业发现问题还有缺乏实施改进员工等。因此，考虑降低当前服务目标后，企业便投资购买实现理想服务水平所需其他资源。业务定义应同时包括主动和被动支持定义。被动定义规定企业如何解决根据用户投诉或网络管理功能中确定已经发生问题。主动定义描述企业如何确定并解决潜在网络问题，包括修复故障“备用”网络组件、错误检测、容量门限问题及升级问题等。以下提供主动与被动服务水平定义实例。被动服务水平定义以下服务水平领域通常使用帮助台数据库统计数据进行测量并定期审计。下表显示企业故障严重程度实例。请注意：此表不包括处理新业务请求方式，这项工作可通过SLA或其他应用资料库编制及性能假设分析来完

33、成。如果通过相同支持流程进行处理，新业务请求可以数据严重级别5。严重级别1严重级别2严重级别3严重级别4严重业务影响LAN用户或服务器部分停机严重WAN站点故障停机网络功能丢失或降级对业务造成严重影响，可能需要运行应变措施园区LAN故障停机； 5-99名用户受到影响国内WAN站点故障停机国际WAN站点故障停机严重影响性能某些特定网络功能丢失或降级，如：冗余丢失等园区LAN性能受到影响 LAN冗余丢失对企业无业务影响功能查询或故障完成问题严重性级别定义之后，定义或研究创建业务应答定义支持流程。总来说，业务应答定义要求采用分级支持结构，以及帮助台软件支持系统来利用故障票跟踪问题。同时还应为每个优先

34、级故障应答时间和解决时间、按优先级划分呼叫数量以及应答解决质量制定测量标准。定义支持流程可帮助定义公司内部每个支持级别目标及其任务与责任。这有助于公司了解用于每个支持级别资源要求及专业技术水平。下表举例说明了分级支持结构及其问题解决指导原则。支持级别职责目标第1级支持专职帮助台支持接听支持电话、发放故障票、15分钟内解决问题、记录故障票并上报到第2级支持解决40%入局呼叫第2级支持队列监控、网络管理、工作站管理为确定软件故障发放故障票实施接听第1级、供应商电话，并上报到第3级支持对呼叫负责，直到排障为止在第2级解决所有呼叫第3级支持必须立刻为第2级提供优先级为1全部故障所需支持同意在SLA解决

35、期限内帮助解决所有第2级未排除故障不直接对故障负责下一步是确定业务应答及排障业务定义。它为如何快速排障（包括硬件更换在内）制定了目标。为这个领域制定目标是非常重要，因为业务应答及恢复时间直会接影响网络可用性。问题解决时间也要与可用性预算保持一致。如果在制定可用性预算时未将大量高严重级别故障考虑在内，则公司随后将需开展大量工作来了解此类故障根源及可能弥补方法。详见下表：问题严重级别帮助台应答第2级应答现场第2级硬件更换解决问题1立刻上报到第2级，网络运行部经理5分钟2小时2小时4小时2立刻上报到第2级，网络运行部经理5分钟4小时4小时8小时315分钟2小时12小时24小时36小时415 分钟4小

36、时3 天3天6天除业务应答及业务排障外，还需制定上报规定。上报表有助于确保将可用资源集中用于解决严重影响业务问题。总来说，如果分析员集中精力解决问题时，他们很少重视利用其他资源来解决问题。定义何时需要其他资源有助于促进管理层对问题认识，并有助于促成未来主动测量或预防性测量。详见下表：过去时间严重级别1严重级别2严重级别3严重级别45分钟网络运行部经理、第3级支持、联网部主管1小时及时通知网络运行部经理、第3级支持、联网部主管及时通知网络运行部经理、第3级支持、联网部主管2 小时上报副总裁、及时通知主任及网络运行部经理4 小时向副总裁、主管、运行部经理、第3级支持提交根源分析，向CEO通知未排除

37、故障上报副总裁，及时通知主管及网络运行部经理24 小时网络运行部经理5 天网络运行部经理迄今为止，服务水平定义始终集中在运行支持部门如何在问题发生后对其采取被动措施上。运行部门多年前便制定出了包括上述相似内容运行支持计划。然而，该方案中忽略了部门如何识别问题以及他们将识别哪些故障等内容。比较成熟网络公司试图制定预先确定网络问题百分率目标来解决这个问题，而不是通过用户故障报告或投诉来被动地确定故障。下表列出了公司对主动支持功能和被动支持功能整体测量目标。网络领域主动故障识别率被动故障识别率LAN80 %20 %WAN80 %20 %这为确定更多主动支持定义开了一个好头，因为它测量起来很简单、

38、也很容易，尤其在主动检测工具可自动生成故障票。这还有助于将网络管理工具/信息集中用于主动排障，而不是在故障发生后被动地查找根源。然而，这种方法主要问题在于它无法定义主动支持要求。这通常会造成主动支持管理功能间差距并导致更大可用性风险。主动服务水平定义更全面制定服务水平定义方法包括，更详细地解释如何7 x 24全天候地监控网络，以及运行部门如何7 x 24全天候对已定义网络管理站（NMS）门限做出响应。鉴于管理信息站（MIB）数量不确定性以及提供MIB网络管理信息数量与网络运行情况相关，因此这看上去是一项无法完成任务。同时，完成这项任务需大量资源且代价非常高昂。不幸是，这些缺点大大妨碍了我们对

39、主动业务定义实施，而这种实施从本质上来说非常简单轻松，且只适用于可用性或性能风险极大网络。如果公司随后看到了基本主动业务定义价值，那么只要采用分阶段实施方法，就可以逐渐添加更多变量，但不会对业务产生重大影响。所有运行支持方案中均应包括第一个领域主动业务定义。该业务定义只是简单阐述运行部门如何识别不同网络区域中网络或链路故障并对此做出响应。没有这个定义（或管理支持），公司可能遇到支持不稳定、无法达到用户期望等问题，最终会降低网络可用性。下表显示了公司如何针对链路/设备故障制定服务定义。该实例中企业在每天不同时段及网络区域方面有着不同通知和响应要求。网络设备或链路故障检测方法5 x 8通知7 x

40、24通知5 x 8排障7 x 24排障核心LANSNMP设备和链路轮询陷阱NOC创建故障票、向负责LAN人员发出寻呼自动向负责LAN人员发出寻呼、 LAN负责人员为核心LAN队列创建故障票NOC在15分钟内派出LAN分析员、根据业务应答定义解决问题立刻研究并排除优先级1和2故障、优先级3和4故障排队等候次日上午排除国内WANSNMP设备和链路轮询陷阱NOC创建故障票、向负责WAN人员发出寻呼自动向负责WAN人员发出寻呼、 WAN负责人员为核心WAN队列创建故障票NOC在15分钟内派出WAN分析员、根据业务应答定义排障立刻研究并排除优先级1和2故障、优先级3和4故障排队等候次日上午排除外联网SN

41、MP设备和链路轮询陷阱NOC创建故障票、向负责合作伙伴人员发出寻呼自动向负责合作伙伴人员发出寻呼，合作伙伴负责人员为合作伙伴队列创建故障票NOC在15分钟内派出合作伙伴分析员、根据业务应答定义排障立刻研究并排除优先级1和2故障、优先级3和4故障排队等候次日上午排除其余主动服务水平定义可分成两类：网络错误和容量/性能问题。只有少数网络公司拥有这两个领域服务水平定义。因此，这些问题常被忽视或无法得到统一处理。这对某些网络环境影响可能不大，但高可用性环境一般都需要一致主动业务管理。网络公司希望实现主动业务定义原因很多，主要是他们尚未基于可用性风险、可用性规划及应用问题对主动业务定义进行要求分析，致使

42、主动业务定义要求及优势不明确，这主要是因为需要更多资源。第二个原因是要平衡能够利用现有及新定义资源来实施主动管理数量。但生成这些告警就可能对可用性或性能产生严重影响。您还必须考虑事件关联管理或流程，以确保不就同样问题生成多个主动故障票。最后一个原因在于：创建一组全新主动告警经常会生成以前未检测出初始信息流。运行部门必须为解决这些最初问题以及增加短期资源做好准备，以便解决这些以前未检测出问题。第一类主动服务水平定义是网络错误。网络错误还可细分为系统错误（包括软硬件错误）、协议错误、媒介控制错误、准确性错误及环境警告。制定服务水平定义首先要要大体了解如何检测出此类问题、由谁负责解决问题以及故障影响

43、。必要时在服务水平定义中添加特定信息或问题。您可能还需要在以下领域开展更多工作以确保成功定义：第1、2和3级支持责任利用运行部门能够有效开展主动工作量来平衡网络管理信息优先级按要求进行培训以便确保支持人员可以有效地处理定义告警确定事件关联方法以确保不为同样问题生成多个故障票记录特定信息或告警，以帮助识别属于第1级支持级别事件下表是用于网络错误服务水平实例，帮助您明确了解谁负责发送主动网络故障告警、如何确定故障以及故障影响。根据上文所述，公司尚需开展更多工作以确保成功。故障类型检测方法门限采取行动软件故障（软件造成故障停机）每天都使用系统日志查看程序审核系统日志信息由第2级支持完成发生

44、任何优先级0、 1和2故障发生100多起优先级3（或更高）故障审查问题、创建故障票并在新问题出现或问题需要特别注意时派出人员解决硬件故障（硬件造成故障停机）每天都使用系统日志查看程序审核系统日志信息由第2级支持完成任何第0、 1和2优先级别故障发生发生100多起优先级3（或更高）故障审核问题、创建故障票并在新问题出现或问题需要特别注意时派遣人员解决协议错误(只适用于IP路由协议)使用系统日志查看程序每日审核系统日志信息由第2级支持完成发生任何优先级0、 1和2故障发生100多起第3优先级（或更高）故障审核问题、创建故障票并在新问题出现或问题需要特别注意时派出人员解决媒介控制故障 (只限于FDD

45、I、POS及快速以太网)使用系统日志查看程序每日审核系统日志信息由第2级支持完成任何第0、 1和2优先级别故障发生发生100多起优先级3（或更高）故障审核问题、创建故障票并在新问题出现或问题需要特别注意时派出人员解决环境信息（电源和温度）使用系统日志查看程序每日审核系统日志信息由第2级支持完成任何信息对新问题创建故障票并派遣相关人员解决问题准确度错误（链路输入错误）每五分钟进行一次SNMP轮询NOC受理门限事件输入或输出错误任何链路上、每5分钟出现一次错误对新问题创建故障票并派出第2级支持人员解决问题另一类主动服务水平是性能及容量。真正性能和容量管理包括例外情况管理、基准制定与趋势分析以及假设

46、分析。服务水平定义只定义需要调查或更新性能及容量例外门限以及平均门限。随后，可以以某种方式将这些门限应用到三种性能和容量管理流程中。容量及性能服务水平定义可细分成几个类别：网络链路、网络设备、端到端性能及应用性能。制定这些领域服务水平定义需要具备与设备容量、媒介容量、QoS特征及应用要求特定领域相关渊博技术知识。出于这个原因，我们建议网络设计师通过供应商输入信息制定与性能和容量相关服务水平定义。与网络错误相似，为容量和性能制定服务水平定义首先应大体了解如何检测此类故障、由谁负责排障以及故障影响。必要时向服务水平定义中添加特定信息或问题。您可能还需要在以下领域开展更多工作以确保成功：明确了解应

47、用性能要求基于业务要求及总成本，对公司重要门限值进行深入技术研究预算周期以内和以外升级要求第1、2和3级支持责任利用运行部门能够有效开展主动工作量平衡网络管理信息优先级及危急程度按要求进行培训以便确保支持人员了解信息或告警，并可有效地处理所定义情况确定事件关联方法以确保不为同样问题生成多个故障票记录特定信息或告警，以帮助识别属于第1级支持事件下表是面向链路使用情况服务水平定义实例，帮助您明确了解谁负责发送主动网络故障告警、如何确定故障以及故障影响。公司仍需开展上面定义更多工作以确保成功。网络领域/媒介检测方法门限采取行动园区LAN骨干及分配链路五分钟进行一次SNMP轮询核心及分配链路上RMON例外陷阱每五分钟使用率为50%通过例外陷阱实现9

展开阅读全文