加入收藏 设为首页 联系我们 欢迎光临本网站!

服务热线 010-63550645

专注于数据中心第三方验证测试服务行为公正、方法科学、结果准确、服务高效

联系我们
服务热线:010-63550645

邮箱:support@zcecs.com

地址:北京市西城区南滨河路27号贵都国际中心A座1111室

构建数据中心监控系统需要注意什么
来源:未知 发布时间:2016-12-28 10:43 点击:
     数据中心监控系统通常会关注计算机本身,比如监控系统系能、跟踪虚拟负载,对不可避免的服务器警告做出反应等等。但是现代数据中心需要更具全局的监控策略,以考虑环境温度和湿度等环境因素--不只局限在室内--而且还监控机架和服务器这样更细微的地方。现在我们来谈谈对环境有哪些关键的监控点,再讲讲环境监控有关的问题。

 数据中心环境监控的几个角度

  很多数据中心使用复杂的管理工具,但是很多工具不能检查环境内细微的情况,甚至有的管理者根本不管这些工具提供的数据。局部问题是有多种问题组成的。不可能用一个工具同时来检测所有系统的电压、风扇速度、温度、湿度等等。再其他情况,环境传感器的放置和可用性也可能不适合监控。还有一个问题是缺乏计划和协调性--IT管理员对数据中心环境缺乏应有的忧虑感。

  如果你要把数据中心的监控系统延伸到整个环境,那就花点时间看看下面的内容:

  1、监控温度。数据中心成长之后最大的问题就是热能密度。这使得设备级别的温度管理更加难办,因为机架密度(和相关机架热量)各有不同。结果我们发现,一块地方出现热点的同时,另一块地方出现冷点。安装网络连接的温度传感器能帮助管理员找到这些点,确保所有设备安全运行,早些知道哪些地方出问题,以便让管理员降温并转移负载。

  遵照旧版本的ASHRAE推荐的温度范围(64.4到80.6华氏度),或者新版本在TC9.9提出的标准都比较好。数据中心最佳实践中还推荐至少在每个机架上放一个传感器。如果环境中有冷/热通道配置,还可以在每个“热”的机架或一整行上放一个传感器。如果温度在提升,最好把传感器放得靠近机架顶部,因为那里温度普遍最高。还有一个建议是在一行的末端放置传感器,这样就可以检查溢出情况,防止热通道的热空气进入冷通道。

  2、对制冷的精确控制。大型企业的数据中心必须维护现有的制冷级别和空调。配置智能控制(通常这会把制冷和监控系统整合在一起),能帮助数据中心有效运行。只能控制的目标是让多种大型系统相互协调而非竞争。拿大型数据中心的湿度控制为例,我们假定因为某种原因,某个部件的传感器报告说湿度高,没有只能系统,该部件可能自己就执行补救进程。但是有了智能制冷系统,数据中心监控工具会先询问其他部件的湿度状态,如果其他部件在范围内,就检查整体情况看看级别有没有变正常。另外,它会警告管理员或者展开预设好的补救措施。

  3、液体和湿度检查。一个制冷机如果泄露进数据中心,可能会造成上千上万的损失,如果它对数据中心和关键业务硬件造成损害的话。会给企业的功能和生产能力带来损害。使用检查泄露传感器,可以检查泄露情况,发出警报来预防问题。建议泄露传感器安装在数据中心内任何能看到液体的地方。根据数据中心环境,传感器可以当做独立系统或者链接中心监控系统以简化管理。在大型环境中,冷区无处不在,传感器可以检查出冷凝区域和过度的试读。你的机架传感器阵列中如果有了有了湿度传感器,就能维持湿度控制的标准级别。盛液盘和液体径流的指定区域能抑制泄露的危险。

  湿度检查也能查过度干燥的地方,防止静电。干燥空气通常发生在自由空气侧冷却技术被数据中心采用。

 数据中心环境监控的几个角度(接上文)

  4、通过其他传感器整合环境。温度和试读/液体传感器只是智能数据中心环境监控的起步。很多地方需要消防警报。这些警报通常连接了建筑的灭火系统,它们也可以被整合进数据中心监控系统,让管理者发现火警立刻采取行动。

  同样也要用PDS(电力分配系统)监控能源,然后整合所得数据。能源监控可以支持持续评价数据中心PUE,帮助IT部门尽早介入能源错误。有的数据中心还检查整合智能UPS系统的数据,还能追踪UPS电池和告警情况。

  房间和机架通行传感器可以查出哪些人未经授权进入机房,在必要的时候还会召唤保安。至少简单的物理传感器可以记录开关门情况,缩小在特定时间的人员进出范围。

  5、管理告警。正常运行时间和能效是衡量环境监控的标准。因为查找错误,或提前检测来预防故障是数据中心的关键任务。管理良好集中的系统能让管理者很快应对紧急事件,保持高度正常运行。创建中心告警系统也对数据中心正常运行有很大意义。好的告警系统可以优先处理关键问题,对后果最严重的潜在时间优先对待。当配置好告警系统,要评价和指定每个报警对于业务和操作的影响。

  6、远程数据中心监控。远程监控能帮助组织时刻注意他们的后背环境,或者把监控管理工作外包出去。观察远程设施健康状况的能力能帮助IT管理者对紧急时间做出更快的回应,使环境回复正常。

  数据中心监控的最佳实践

  记住:数据中心监控架构需要定期维护和测试--就像任何设备一样。另外,适应数据中心的进化,不要把传感器放好了就不管。这里有一些关于数据中心环境监控的实践。

  1、测试和维护。所有传感器都得定期测试维护。不稳定或有问题的传感器必须及时替换。有一种测试方法是看其他类似传感器的报道。当一台机架内几个传感器报告同时报告同样温度,但是有一个传感器却与其他相异,那就得检查了,当然你也得看看是不是机架本身有问题。

  2、随时准备面对紧急状况。传感器本身不能防止紧急状况发生,所以你还要做好常规的计划。灾难恢复计划就得包含在内。你得知道数据中心运维团队是哪个,如何最快找到他们。当发生制冷故障,你得先找HVAC工程师。还得仔细描述问题。说道紧急故障,那可真是分秒必争。

  3、准备好后备计划。监控系统能设置不同级别的告警。如果数据中心是在托管环境,就得在服务级别的合同中指定紧急状况。托管商必须有意外事故的计划,以面对突然发生的问题。在私人数据中心里,总有传感器监控和告警系统运作。制冷装置可能会在紧急状况发生时保证本地后备部件--即使这意味这是用临时便携制冷设备。

  4、自动化恢复计划。有的监控系统整合了自动系统。一旦发生单独的机架事故,有的系统能关掉不必要的服务器。开发服务器通常好点很大,却不用在正常产品过程中运行。任何测试服务器如果不是必要的,都可以在紧急情况中关掉。

  随着数据中心进化,IT经理应该发掘更多自动化工具,来帮助环境长久运转。物理架构管理的自动化和中心化是数据中心设计运维的下一步。关键仍然在于策略性地保持正常时间。提前做好机房监控,IT管理员可以减少大量宕机危险。



tag标签:数据中心(990)监控系统(23)构建(3)注意什么(2)
北京中测信通科技发展有限公司 版权所有
京ICP备15039513号-1
服务热线:010-63550645 传真:010-63550645 邮 箱:support@zcecs.com
企业云:首选线路 备用线路
地址:北京市丰台区花乡高立庄616号新华国际中心D座3层315室