监测系统如何降低分布式服务器机房和远程网络配线间中.pdf

上传人:qwe****56 文档编号:74650489 上传时间:2023-02-27 格式:PDF 页数:11 大小:1.15MB
返回 下载 相关 举报
监测系统如何降低分布式服务器机房和远程网络配线间中.pdf_第1页
第1页 / 共11页
监测系统如何降低分布式服务器机房和远程网络配线间中.pdf_第2页
第2页 / 共11页
点击查看更多>>
资源描述

《监测系统如何降低分布式服务器机房和远程网络配线间中.pdf》由会员分享,可在线阅读,更多相关《监测系统如何降低分布式服务器机房和远程网络配线间中.pdf(11页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 监测系统如何降低分布式 服务器机房和远程网络 配线间中的人为错误作者 Dennis Bouley 服务器机房和远程网络配线间发生的意外事件令许多 IT经理们彻夜难眠。他们中的大多数人都能历数一些惊险的事件,由于运气不济、人为失误或仅仅是因为对系统不够熟悉,而无奈地导致服务器机房宕机。本白皮书将透过对此类意外事件的分析,就基本的监测系统如何帮助降低这些意外事件的发生可能性方面提出一些建议。简介 2简单还是复杂?2导致宕机的人为错误的性质 4意外事件 4监测系统组件 5其它意外事件 8结论 8资源 9 版本 1 点击内容即可跳转至具体章节 目录第 103 号白皮书 摘要 白皮书现收录于施耐德电气

2、白皮书资料库 由施耐德电气数据中心科研中心数据中心科研中心发表,DCSCSchneider-E 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 2 许多 IT 经理抱怨他们的分布式服务器机房和远程网络配线间常常会发生意外宕机。对这些意外事件分析后,不难发现存在一个共性:信息匮乏。这种信息掌握上的资源匮乏使得时常会出现一些人为失误从而导致宕机。这是因为,操作人员和管理员没有获得可供其使用的实时数据,这会带给他们很大的压力,导致人为失误不可避免。请看下面这两个统计数据:据估计,仅在美国地区1,就有 290 万个服务器机房和

3、网络配线间 在上报的数据中心停电事件中,有 70%以上是由人为失误2直接导致的 本白皮书将详细介绍分布式服务器机房和远程网络配线间中常见的宕机事件,并就整合录像监控和传感器的监测与自动化软件如何降低小型分布式环境中因人为失误引起的故障可能性方面提出一些建议(见图图 1)。每当计划在网络配线间和服务器机房等小型远程计算环境中应用监控系统时,总会涉及两大问题。第一个是安装方面的问题。即考虑安装监测系统的工作有多复杂?换言之,收集受监测设备的属性信息以及输入这些信息需要多长时间?(假设在多个地方安装了数百台设备)?系统如何对摄像头、空调、UPS 和热传感器等设备加以识别以及如何生成 IP 地址信息以

4、便于将这些设备的状 1 IDC,新一代数据中心的构建、规划和运营,Michelle Bailey,2008 年 2 Uptime 协会,数据中心物理基础设施的 Tier 标准:运营的可持续性,2010 年 简介 简单还是复杂?图 1 可通过多层智能监控 减少人为错误 液体探测器闭路电视摄像头干接点摄像头湿度传感器门禁传感器管理设备管理设备远程管理控制台温度传感器摄像头UPS颗粒物传感器监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 3 态信息进行回传?第二个问题涉及的是未知工作量的确定,即偏远地点中的供电、制冷和环境监

5、测设备何时需要更换的问题。例如,如何对升级至新的固件以及如何更改温度阈值?在过去的几年间,监测软件包发展迅速,目前,用户可以选择自行安装软件或申请协外协服务,以获得安装协助。通常情况下,用户注册外协服务并成功运行需要 1-2 天的时间。监测软件包的交付形式可以是分配/下载代码或包含预装软件的机架式服务器。该系统可以安装在远程地点或中央数据中心内(例如,对数十个或数百个网络配线间进行管理)。管理服务器通电后,客户端会下载到笔记本电脑中,如此一来,操作人员便可以开始确定供电、制冷和环境监测设备以及需要加以监测的人为活动。大多数现代化 UPS、制冷系统和安防摄像机的标准配置均包括通信所需的网络接口卡

6、(NIC)。操作人员需要确定受监测设备所用的 IP 地址或 IP 地址范围。相关范例如图图 2 所示。随后,一些系统可以自动搜索网络并确定所有受监测的供电、制冷和安全设备的位置。“自动识别”设备的功能可以大大简化系统安装和开机时面临的挑战。一旦“发现”远程设备,该系统将开始进行监测。此外,一些监测和自动化系统还允许按地点、按地点内的某行或设备类型对设备进行分组(例如,对所有制冷设备、PDU、仪表、摄像头等设备进行分组)。分组操作使用户能够为该组设置策略和阈值。通用阈值参数包括温度、湿度、开关状态指示(如机柜门禁控制)。超出阈值时,将会触发告警。这些告警将通过电子邮件或文本信息发送至系统管理员。

7、必须注意的是,只有远程环境中发生的重大变化才会触发告警。如果不然,管理员可能会在一小时内收到数份告警。而这时,管理员可能会对这些告警变得“麻木”并且不予理会。因此,这就牵涉到在这之间寻求一种微妙的平衡,让系统管理员认为每一份发送给他们的告警都是有意义的或至关重要的。部署现代化监测系统后,可以大大简化服务器机房或网络配线间固件更新等的升级工作。数据中心经理无需再派人员到远程地点进行固件升级的安装工作。许多监测系统均具有执行批量配置的功能,因此,可通过网络集中发送所需进行的变更。图 2 设置多台设备IP地址简单地来说就是输入一串数字(右侧截图示例来自于施耐德电气旗下APC的英飞中央管理应用程序)监

8、测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 4 与大型关键任务数据中心相比,分布式服务器机房和网络配线间的投资成本与所耗费的精力相对较少。大型中央数据中心须聘请专家而且通常需要配备最新的安全技术,此外,还须留有充足的内置冗余。但反观分布式服务器机房和远程网络配线间,其工作人员须身兼数职,其中一项工作就是负责密切监控网络配线间或服务器机房。这些空间的安防措施一般相对较少,与大型复杂的空间相比,它们的意外宕机更为频繁。不管如何精心策划服务器机房或网络配线间,这些意外宕机风险始终难以避免。一些 IT 经理认为他们做好了万全

9、准备。他们对服务器机房的设计引以为傲。然而,看似无害的技术人员或监控人员由于对现场情况不够了解,可能在不到 5 秒钟的时间就将您的全盘计划毁于一旦。在下文中列出的意外事件将说明缺少简单易用的监测和自动化系统可能会导致网络配线间和服务器机房宕机。在这些环境中,并无工作人员值守,或者现场的工作人员无法向系统管理员发送故障信息。延迟一小时发现制冷故障对于全面避免停电故障关系重大。快速、实时的告警使管理员能够监控所发生的变化,以避免服务中断。人为失误造成的意外事件汇总如下:负责管理其它分支机构远程服务器机房的系统管理员入内追查机房内服务器发生故障的原因。他发现,改造工程承办商在施工过程中使用了热缩塑料

10、包包装机架,希望服务器能够防尘。对于此项举措,承建商并没有通知 IT 人员,因此,所有服务器在运行时均处于被包裹状态,导致服务器过热并自行关停。当高级业务经理无法登录互联网时,他决定亲自解决此问题。他走进服务器机房,将网线从路由器插座中拔出,直接接到他的笔记本电脑上上网,从而绕过了所有防火墙服务和加密保护程序,如此一来,整个系统可能会受到外界病毒和其它恶意软件的攻击。作为维修工作的一部分,水暖工直 接在 Exchange 服务器上方的天花板上钻了一个洞,然后草草地修补了导管接头。在半夜,导管开始漏水。按惯例,水会流向天花板上的洞,滴落至下方的 Exchange 服务器中,导致服务器永久性损坏。

11、清洁工被派来清扫服务器机房。他们发现不仅服务器机架粘满灰尘,机架内部也遍布尘埃;机柜门是半开着的。清洗工按部就班,用玻璃清洗剂清洁机架和服务器的内部。没有人告诉他们确切的清洁方法。导致宕机的人为错误的性质 意外事件 PowerEnergyWaste图 3“暗中酝酿的意外”一词被用来形容小型远程服务器机房再适当不过了 电力电力能源 浪费 能源 浪费 空气污染 空气污染 人员人员烟雾烟雾泄漏泄漏温度 与湿度 温度 与湿度“分散的”物理威胁“分散的”物理威胁 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 5 服务商在卤化烷

12、防护区作业。他在点燃丙烷焊炬之前并未通知任何人,且未关闭卤化烷系统。服务商关闭 PDU,以便将断路器添加到 PDU 上。PDU 正在通过分支向关键服务器供电。许多进入到服务器机房的人甚至不了解机房的操作禁忌。当设计监控系统主要用作限制远程服务器机房中的人为失误的发生时,必须考虑四个关键组件:录像监控、传感器、智能机架插座以及监测和自动化软件。表表 1 将提供本节所述的解决方案的概要。录像监控与传感器 对于上述情形,监测和自动化系统有何作用?可扩展的监控和自动化系统现已推出,这些系统具有收集、组织和发送关键告警和监控录像的功能。相关范例如图图 4 所示。通过监测供电和制冷设备、机柜的正面和背面以

13、及环境,这些系统可以即时生成故障通知,快速评估情况,并提供可能会对 IT 系统的可用性产生不利影响的关键基础设施事件的解决方案。在以上所列举的沟通不畅的例子中,请思考监控和自动化系统如何发挥作用:物理基础设施和自动化系统辅助摄像机监控系统,监控行内移动的人为活动,记录运动探测器被启动的时间。因此,即使没有 IT 人员到场,比如承建商包装服务器的行为,也将被记录在案并向经授权的管理员发送告警。在查看了相关视频之后,管理员可以发出“终止”指令,从而避免宕机事故的发生。此外,监测和自动化系统还可以通过低电流干触点输出开关的开合来开启或关闭设备。可通过此方式控制机柜的开关(见图图 5)。可手动执行输出

14、继电器动作,或将它配置为自动告警动作,以对阈值事件或其他告警做出响应。以清洁工进行清洁为例,当得知他们将在下班后开始清洁之后,对该系统进行编程,以便在下午 6:00 后锁定机柜。可由经授权的人员手动或远程打开机柜,但是其他人不得打开机柜,直到第二天一早为止。如果服务器机房支持信用卡交易,那么,摄像系统的意义更加重大。支付卡行业(PCI)规范准则的合规性成为了一个重要的问题。一些州政府要求,每当资料外泄时,企业应当通知客户。随监测系统组件 图 4 由移动探测器触发的录像监控示例,用以限制人为错误的发生(示例屏幕截自施耐德电气旗下APC的英飞中央管理应用程序)监测系统如何降低分布式服务器机房和远程

15、网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 6 着时间的推移,被认为属于个人信息的数据的定义将扩及信用卡号码。一旦信用卡信息被归类为个人信息,那么,惩罚性措施将会迫使企业接受被忽视的/不存在的安全做法。在将来,将直接向被确认为遵守 PCI 规范准则、安全性高的企业颁发财政奖励。录像监控是 PCI 规范准则的要求之一。摄像头管理系统通常可用于跟踪进入到服务器机房或远程网络配线间内的设施管理人员、服务商、安保人员、监测人员或其他人员。该系统可确定在机房内活动的人员及时间,而且可以监测在机房内活动的人员是否拔掉现有设备的电源或接通新设备的电源。可对摄像管理系

16、统进行编程,当它检测到任何活动时,可将相关数据记录下来。另一方面,管理员可能需要远程登录到系统中,启动与机房中活动人员邻近的摄像头,并观察其行为。事实上,一些系统配有喇叭,因此,管理员可以透过笔记本电脑的麦克风传出声音,以向相关人员发出指令或警告(例如,“任何情况下都请勿触摸红色按钮!”)。智能机架插座 智能机架插座是安装在机架背面内侧的长形细条状电源插座(见表表 1)。这些设备也被称为“机架式配电单元”,可通过授权用户远程接通和切断锁定式设备的电源来对它们加以管理。通过快速重启设备,可最大限度地减少宕机时间,而且无需再派遣专业人员前往远程站点重启设备。此外,这些设备还允许用户为每一个插座配置

17、电源的开启或关闭顺序。设定顺序可以方便用户预先确定设备打开的次序,以确保其他依赖于此设备的装置能够正常运行。在开机时使用机架级智能配电单元,还将有助于避免设备同时启动后初始电流过大而可能出现的电路过载,进而导致供电负载减少。对于过载电路,监测系统可以通过图表显示平均用电量和峰值用电量以及使用计量型机架式PDU(智能机架插座)测量实际耗电量来预防过载。因此,系统管理员可以掌握每一个机架的用电量并就将在确定其他设备的具体安装位置时做出明智的决定。图 5 远程控制机架安全性,以尽可能避免非例行访问 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103

18、 号白皮书 版本 1 7 监测与自动化软件 管理和自动化系统可向管理员提供大量数据,以减少因人为失误造成的宕机事故。下表列出了业内用于服务器机房和远程数据配线间的监测与自动化管理系统具备的一些功能:解决方案组件 作用 优势 产品图示 监测与自动化 告警 设备状态 报告 配置 控制 当诸如温度和湿度等条件超出可接受的水平时,用户设置的阈值将通过文本信息、电子邮件或系统记录生成告警 生成多层级历史数据报告,以尽快确定问题的发展趋势 具有一次性向类似的设备批量配置类似的系统特性(例如机柜门锁、温度阈值)的功能 可通过远程笔记本电脑重启吊顶设备 录像监控设备 监测人类活动 按活动或告警存储录像 检测和

19、记录活动情况,为录像记录配置门禁或环境告警,从而加快根本原因的分析速度 保存错误或安全漏洞检测数据,防止此类事故再次发生 智能机架插座 服务器的远程启动与关闭 测量功耗 确保在长时间的停电过程中维持数据的完整性 远程管理插座,使用户能够关闭未使用的插座(防止过载)或接通/切断锁定设备的电源(最大限度地减少代价高昂的宕机事故而且无需前往现场检测设备)允许用户为每一个插座配置电源开启或关闭的次序这将有助于避免同时开启设备后电流过大而可能导致电路过载和负载减少。传感器 门锁、机柜门锁、液体检测、温度监测、空气质量监测 监测是否有未经授权的人员通过门禁设备入内 检测是否有水或湿度是否过高 探测烟雾和颗

20、粒物 监测关键位置上的温度 表 1 解决方案概要 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 8 告警与通知告警与通知 在系统中设置的告警用作触发器。例如,如果机架底部的温度阈值被设置为62 F(16),那么,超过此阈值时将会生成告警。该告警将会以用户设定的多种方式发出告警。可以电子邮件、文本信息、系统记录或手机铃声等形式发送告警。复杂的告警内容如将服务器机房内最后四小时的温度曲线图以电子邮件的形式向黑莓手机发送。简短的告警内容如写明“某机柜门未经授权打开了 2 分钟以上”的信息以电子邮件的形式发送。设备状态设备状

21、态 基本监测系统配置包括软件和专用的物理服务器。该服务器将用作可将资料导入到所有已配置的服务器机房设备中的中央资料库。可收集传感器和摄像头的信息并进行分类,以用作系统的配置文件和阈值。监测内容可以相当详尽。例如,由于机架各个位置的温度差异甚大,因此,每个机架可配备三个温度传感器,机架底部、中段和顶部各配一部。此外,状态告警对于电池监测意义重大。单个电池发生故障可能会导致关键负载损耗。应当尽快更换故障电池,但是,往往没有人跟踪远程站点中的 UPS 电池的使用状况。与可能会导致配线间或服务器崩溃的电池故障相比,更换一两个电池的成本是最低的。基本监测可避免这些事故。报告分析报告分析 由监测系统收集的

22、数据可以被转换成自定义报告,以供 IT 管理员审核。在过去,为了确定远程服务器机房闲暇时段的温度,管理员只能依赖于保安人员或其他外部人员读取相关数据并通过温度计手动记录墙壁上的温度信息。如今,管理员可以查看历史资料并认识到,在夜间,温度会波动 12C(10F)。通过查看 48 小时、1 周或更长时间间隔段的报告,管理员可以轻松确定问题,然后要求楼宇基建部门尽快解决问题(如果服务器机房全部或部分由楼宇的空调系统提供制冷)。IT 机房监测系统收集的数据可以记录下该问题而且表明这可能是问题恶化的前兆。从安全角度出发,由系统生成的报告也可以帮助 IT 管理员快速确定进入特定机架中的人员及其逗留时间。以

23、零售 POS 终端为例,监测系统可以检测现场的 UPS 和生成有关每一台 UPS 负载的报告。如果 IT 管理员认为,所有的 UPS 都应该维持在 50%负载,那么,监测系统可以轻松确定超过此限值的 UPS。然后,管理员可以即时确定支持“非法”负载的 UPS 有哪些,并且在零售 POS 系统发生故障之前发出“终止”指令。批量配置批量配置 初始安装之后,所有链接到中央监测与自动化系统上的设备的数据将被导入到该系统中,以便管理员日后进行配置或批量变更(一项变更可能会对多台设备产生影响)。以服务器机房机柜上的门锁为例。不需要单独配置各个机柜门锁。如果管理员设定了一个同时作用于 50个机柜门的安全配置

24、,那么只需启用一项,便可同时适用于 50 个机柜门(正面和背面)。控制控制 管理员感觉到获得详尽的监测与自动化系统数据比以往来得轻松许多。例如,系统可以映射电源路径和物理系统之间的关系和依赖性,这样一来,即使发生问题,像过去一样争分夺秒地查找问题的根源所在的场景将不会再现。此外,一些系统还可以根据可用的电源和网络端口提供新设备的最佳安装位置的建议。这就避免了因机架意外停电而引起的问题。此外,该系统还可以用图表说明机架级设备故障的后果,以便即时确定对关键业务应用产生的影响,使管理员能够提前制定计划,以防问题发生,从而最大限度地减少宕机次数。更好地控制环境、更多的告警以及更多的历史数据将有助于营造

25、压力更小的环境。如果在录像监控和集中监测与自动化方面进行了投资,那么,新增的温度控制、湿度控制、露点温度数据和其他环境告警的耗资甚少。环境发展趋势的评估和录像监控数据的审核可帮助管理员防患于未然,从而最大限度地减少人为失误。供电和制冷系统极易因对这些系统认识不足所导致的人为失误而受损。下文所举例子将详述所涉及的一些风险。在一次事故中,由于机柜顶部堆积的卫生纸包装盒过多,使得空气流通受阻,导致 UPS过热。为临时项目建立的小型服务器机房位于办公楼的楼上。负责构建该机房的团队力图在符合相关规范的前提下以经济的成本完成装置安装。由于国产空调具有符合机房设备的散热要其它意外事件 然后,管理员可以即时确

26、定支持“非法”负载的 UPS有哪些并且在零售 POS 系统发生故障之前发出“终止”指令。“”监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 9 求的热定额,因此,他们通过这些空调对机房进行制冷。不久之前,由于硬件故障,他们拨打了维修电话。工程师来到现场并发现计算机机房的温度约为 43C(110F)。不幸的是,安装队伍将空调的进风口和出风口安装在同一个小型机房内。在服务器机房或网络配线间内活动的人员总是会不由自主地寻找那些未被使用到的电源插座。但是,将未经许可的设备插到电源插座中可能会不同存在的问题导致许多服务器机房脱机

27、。真空吸尘器和钻孔机便是其中比较能说明此类问题的例子。在一次事故中,由于钻孔机短路而导致断路器跳闸,并引起了接地故障,而接地故障造成了服务器机房大面积宕机。某大型零售商店的员工均不了解服务器机房或网络配线间的运营方式。收银员上班后发现收银机发生故障。总部建议他们停用 UPS,改用市电给系统供电,直到接收到更换电池。收到电池之后,总部不得不派遣专业工作人员到门店安装电池。该门店当天损失了数千美元的交易额,如果停电,损失可能更大。使用 POS 机需要面临的另一大问题是如何维持零售业务的正常运行。每当系统宕机时,必须重新校准商品称重所使用的秤 这将大大延长宕机时间,因此,这变成了一大难题。经调查,I

28、T 经理发现,零售门店的员工“非法地”将诸如电暖气和风扇等设备插入到了支持POS 的 UPS 上。由于该系统旨在于处理 POS 终端的正常电力负载,因此,因意外的额外负载造成的过载将会导致该系统宕机。由于 IT 管理员无意间致使已插满插头的电源板过载,服务器机架受损。除了本白皮书所述的因人为失误造成的宕机事故,负责管理远程服务器机房的人员多半经历过更多的类似事故。幸运的是,现在业界推出了许多监测工具,这些工具将有助于减轻担心这些远程环境意外宕机的操作人员的烦恼。监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 10 服务

29、器机房和小型远程网络配线间的使用频率较高,而且往往由于人为失误而宕机。这些小型数据中心的管理不仅耗时,而且问题层出不穷。这些设施很多都是无人值守的 IT 机房,很少受到监控。针对于此,我们推荐四大对策方案,即使用监测和自动化软件系统、录像监控技术、智能机架插座和传感器技术,从而大大减少这些小型环境中人为失误的发生频率。这些系统让了解情况的管理员掌握关键数据,他们可以远程管理和发现问题,防止宕机事故的发生。结论 Dennis Bouley是施耐德电气数据中心科研中心的高级战略研究员。他获得了罗得岛大学(University of Rhode Island)新闻专业和法语专业双学士学位,并获得了法国巴黎索邦大学(Sorbonne)的年度证书。他曾在全球关注数据中心 IT 和基础设施环境的期刊上发表了多篇文章并为绿色网格组织撰写了多份白皮书。关于作者 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 1 11 资源 点击图标打开相应 参考资源链接 关于本白皮书内容的反馈和建议请联系:数据中心科研中心 DCSCSchneider-E 如果您是我们的客户并对数据中心项目有任何疑问:请与您的 施耐德电气销售代表联系 联系我们 浏览所有 白皮书 浏览所有 TradeOff Tools 权衡工具

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 其他杂项

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com