失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 数据中心常态与非常态的巡检策略

数据中心常态与非常态的巡检策略

时间:2022-07-16 09:47:03

相关推荐

数据中心常态与非常态的巡检策略

何以数据中心混得要用打卡的方式来强制巡检?巡检为何不是网红打卡?脸红。

是呀,你看看这日常巡检规定:运维人员逐个机房的对设施、设备、环境进行巡视检查,有时也做一些简单的测量,比如:温度、风速,电压、电流等。不同的数据中心机房,各单位有不同的巡检内容和巡检周期的规定,要求高的可能每隔2小时巡检一次,要求低一些的一天巡检一次。日常巡检占用我们大量的时间,我哪有空还刷微信玩游戏呀?况且多数数据中心的运维人员配置并不富余,我想做一些高大上的运维工作也抽不出空来。比如:对设备深度检测,对运行情况的分析和预测,培训和能力提升,预案研究和优化等等,ε=(´ο`*)))唉,就不一一列举了。

曾经呀,日常巡检,对及时发现数据中心已经存在的问题、隐患,有非常大的作用,但这种作用的效率比较低,并且基本没有预警和预防作用。因为那时的设备不够聪明智能,最多是干接点监控,没有信息上传。现在呀,机房监控系统非常完善,几乎所有的设备都已经接入到监控系统,设备的信息采集频率和速度非常高,机房环境等物理量采集,也是高采样密度。设备和机房的常用信息、必要信息都已经在监控系统可见,甚至有些设备的内部深度信息,也可以上传到监控系统,比如:UPS的内部直流母线电压、纹波,在日常巡检中是无法检测的,最多是在UPS的显示屏上需要较高权限才能看到,而通常不要求巡检人员这么细致地查看数据。你瞧,我在ECC一坐,什么信息都看得到,包括你刚才去了一趟茶水间。

因此,日常巡检的很多工作可以被监控系统替代,问题发现及时性、准确性也远高于运维人员的日常巡检,必须有你们运维人员去的巡检内容已大大减少啦。

多数时间,数据中心的设施和机房环境运行在一个稳定的状况,我们定义为常态。常态下的设施、设备运行数据没有太大的变化,输入、输出参数波动很小,机房环境参数也是一样,在极小幅的波动中平衡。比如机房温度,机房空调会根据检测的温度自动调整输出的风量和出风温度,从而将机房环境稳定在一个允许的范围内。因此,常态下的日常巡检,你们运维人员常觉得收获不大,从而逐渐形成麻痹思想和习惯,进而完全走过场,失去了日常巡检本来的目的和价值。因此,我们有必要重新检讨机房常态下的巡检策略,本真人认为,数据中心应该减少日常巡检,加强定期专项巡检和非常态巡检。减少日常巡检,不是减巡检内容、项目,是减频次,A级数据中心,每天24小时巡检1-2次,B级的数据中心1-2天巡检1次。

定期专项巡检,亟待加强

定期专项巡检,就是按专业、按机房区域划分和编制计划,每次巡检的内容相对集中于某一类或区域设备、设施。比如:对UPS供电系统的专项巡检,可以全面检查UPS的外部、内部,用红外成像仪扫描成像内部器件的温度,测量或查看UPS内部的母线电容的电压和纹波、逆变器输出的波形、谐波,输入端的波形,通过这些可以发现UPS是否有故障或隐患。专项巡检显然比日常巡检更深刻,因此有更高的价值。但专项巡检显然对运维人员的专业性有更高的要求,花费的时间也更多,故只能定期进行。本真人建议的专项巡检周期是1-3个月。

哦,那多有意义呀!对人民有价值的事,我就愿意做。

非常态巡检,需非常重视

我们定义非常态为脱离常态的运行情况,包括负载增减较大量或较大比例,重大变更,冗余变化等。负载的较大变化,必然带来整个系统的变化,设备的负载率变化,电缆载流量变化,接触点的温度变化;重大变更在数据中心运行中经常发生,也是问题多发原因,如,供电路径变化,原来备用回路变成了主用,备用回路的所有设备、线路都要经历考验,有一个环节出问题就影响很大面;制冷方式从冷机制冷变成了自然冷源,板换制冷,冷量可能不稳定或不充足,可能需要机械制冷来补充,冷机的启停次数增加,冷机故障率也增加;停电后电池短暂供电,电池可能有落后单体,导致供电时间不足,提前断电;市电供电变成了发电机供电,发电机的启动可能有问题、输出不稳定,运行不稳定等等。冗余变化,原来的冗余设备、冗余容量没有了,或减少了,应对突发故障的能力就降低了;或者冗余量增加,导致设备的平均带载率下降,引起输入、输出特性的变化,原来上下游匹配的系统变得不匹配。

可见,非常态是数据中心安全运行的最大威胁,是出问题最多的状态,非常态下,监控系统的作用没有降低,但监控系统有时也无能为力,无法提前预测和发现问题,这时就需要运维人员的及时介入。比如:UPS系统电池放电时,电池监控系统可以快速检测到每个单体电压的信息和变化,但基本不能检测到每个电池端子的温度变化,电池壳体的形态变化。如果有问题电池或端子未紧固,巨大的放电电流会导致电池着火,电池壳体爆裂,从而引发大的事故。这时,就需要运维人员在现场进行巡视检查,用红外成像仪快速检查每个单体温度变化。

因此,非常态需要运维人员重点巡检,以弥补监控系统的不足,及时发现和处置故障隐患。但多数数据中心的运维人员配置,没有按非常态来做,是按常态运维来做。认为非常态是少数情况,可以让运维人员加班加点来弥补,其实这是一个严重的误区。非常态的发生,通常不是一个点,而是一个面,很多关键点,有限的运维人员如何同时应付那么多关键点?比如:市电停电,切换到发电机供电,即使供电系统全自动模式,也需要运维人员及时到场查看,而不是等电没有供应上来,系统掉电了才去找原因。市电一掉,运维人员就需要立即到达各个环节点,UPS需要查看是否有供电中断,电池间需要人巡视电池,供电切换开关需要查看是否正常切换,市电开关是否跳闸分离,发电机需要查看是否正常启动供电,需要不停巡视检查。一套供电系统就牵涉到4-5个关键节点,需要4-5位电气人员,这时监控中心的人员需要全面监控,完全不可能支持到一线现场。因此,这时只有1-2位电气人员就无法应付全部局面,只能保重点,顾头不顾尾,难免控制不住异常的结果。

就是嘛,非常态时纵使我有三头六臂,也应付不过来。

天尊,您老给我多配几个助手呀!嗯,重要的事情说3遍,下面再说一遍:

巡检策略小结

适当减少常态巡检

增加专项巡检

非常态重点巡检

运维人员按非常态配置

小编推荐稿

认证 | 数据中心的毕业证书

运维人员该怎样管理?--纵论《数据中心设施运维管理指南》十二

消防安全警钟长鸣 --纵论《数据中心设施运维管理指南》十一

PUE指标能准确衡量数据中心能效吗?-关于POE指标的设想

数据中心为何在北上广深不受待见?

设计院工程师的地位为什么越来越低?

直击中国数据中心设施论坛-数据中心管理者闭门会议

当PUE成为一线城市数据中心建设入场券

IT负载率与数据中心规模

能耗指标与数据中心规模

中科仙络发布易捷维(Easy-Way)系列解决方案 全程助力数据中心运维

如果觉得《数据中心常态与非常态的巡检策略》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。