一、数据中心运行风险分析
综合不同的权威机构统计和分析,数据中心运行的风险主要有以下的因素:
二、数据中心电源系统故障案例及分析:
1、数据中心电源系统故障案例及分析——设计缺陷:
某单位UPS故障:UPS 出现告警信息“系统输出电压瞬时超限”,逆变器、整流器烧毁,同时UPS系统总输入开关跳闸,UPS跳旁路,但总开关跳闸,导致UPS系统整体宕机,设备掉电,业务停止服务。
UPS主路与静态旁路输入正确的接入方式
只设置一个总开关,每个机柜的PDU不带分路开关,当一个设备电源发生短路故障,引起总开关跳闸,导致其他的机柜同时掉电。
上下级开关设置不合理,上级开关容量小,下级开关容量大,发生电源故障时,跳上级开关
设计和施工缺陷:
市电中断,UPS电池放电,但时间不长,UPS显示电池电压低,自我保护关机,导致系统掉电。原因:UPS在六楼,由于承重问题,电池安装在地下室,超长的距离,电池连接电缆不满足要求,压降过大,导致UPS关机。
2.数据中心电源系统故障案例及分析------ 设计和施工缺陷:
施工安装钟出现线缆压接凌乱、螺丝松动、螺丝断裂等等问题,都是引发和造成日后运行中不可避免的故障
电缆接触不良的案列:投产后巡检发现配电柜由放电的声音,原因开关柜出现电缆未紧固。
施工缺陷案例二:开关的整定值没有按照设计要求设置,导致负载增加时,引发开关跳闸。
施工缺陷案例三:空调安装位置处于UPS的上方,冷凝水滴入UPS引发故障
3.数据中心电源系统故障案例及分析----天灾:
设备老化:
常见的配电设备老化引发的故障如下:
1、高低压设备
2、UPS、无功补偿、谐波治理等配电的大设备的电容器、整流、逆变器件;
3、变压器;
4、电力电缆、母线
电源故障案例一:变压器冒烟,原因:设备质量/设备老化/巡检不到位
有资料显示因蓄电池故障而引起UPS主机故障或工作不正常的比例大约占到50%以上,而且电池故障的后果是严重的。
电池故障案例二:
某一数据中心一套使用了5年的单机UPS系统,配套 一组12V 100AH电池。某日机房例行巡检时发现 UPS机房气味异常。进一步检查发现电池柜里的30 节电池已经全部鼓胀,电池单体表面温度80度左右, 同一层的8节12V 100AH电池已经完全粘在了一起。UPS主机无告警,面板显示电池电压405V,电流 10A,处于电池均充状态。
故障处理:断开电池开关,抽测电池单体电压,发现有的电压 11V,有的8V,还有个别6V的。鉴于电池组已经 损毁严重,只能整组更换。
问题:为什么UPS不告警?
为什么UPS面板电池电 压正常?
故障是如何一步步演化的?
如果没 有巡检人员及时发现会怎样?
故障分析:
1、从UPS面板上看,电池电压正常,电流处于充电限流点,不满足触发 UPS告警的条件,所以没有告警。UPS根据电池电压和电流来判断电池工作状态(浮充、均 充、放电)。
2、此案例中,电池挂UPS的母线,电池个别单体电压偏低(内部短路),造成整组离线电压偏低,在线状态下 的表现是电压不变(等于母线电压),电流变大。
3、如果没有巡检人员及时发现,可能会导致电池起火,进一步造成机房火灾。
案例三:电池失效故障:市电中断,UPS通过电池放电,但UPS无法正常工作,经检查电池工作超过五年,平时充放电测试不到位,加速电池的老化,导致放不出电。此类故障属设备老化+维护不到位
案例四:UPS故障,UPS常见的故障有:整流器故障、逆变器故障、充电器故障、控制器故障。举例:
1、机房外市电中断,UPS切电池供电,但UPS无法送电导致设备掉电。原因:经检查,充电器故障,无法给电池充电,电池长期处于缺电状态,导致UPS在市电停电时,无法正常工作。
2、UPS并机系统有一台故障时有引发另一台UPS保护,经检查未并机控制板故障所致。
3、2台120KVA的UPS并机系统,其中一台关机,电池开关跳闸,另一台工作正常。经检查是由于控制板检查到误告警信号,下发了关机和断开电池开关的命令,导致该UPS宕机。
此类故障属设备老化+维护不到位
案例四:UPS故障,UPS常见的故障有:整流器故障、逆变器故障、充电器故障、控制器故障。举例:
1、机房外市电中断,UPS切电池供电,但UPS无法送电导致设备掉电。原因:经检查,充电器故障,无法给电池充电,电池长期处于缺电状态,导致UPS在市电停电时,无法正常工作。
2、UPS并机系统有一台故障时有引发另一台UPS保护,经检查未并机控制板故障所致。
3、2台120KVA的UPS并机系统,其中一台关机,电池开关跳闸,另一台工作正常。经检查是由于控制板检查到误告警信号,下发了关机和断开电池开关的命令,导致该UPS宕机。
此类故障属设备老化+维护不到位
火灾原因:电池安装在地板下,电池发生短路,引起火灾,火势在空调送风的着用下迅速蔓延。
有线的机房这几年同样发生多起电池老化、平时检查、维护不到位的情况,同时又因为采购流程长,没有做好提前量,导致真真需要电池放电时放不出电。去年到今年白下路和泰州机房都出现了电池老化,采购跟不上,用新数据中心的电池救急。
电池故障和着火的原因:
线路老化引燃;线缆耐压不够,绝缘击穿;
线缆绝缘保护在安装或者其他移动中被铁皮划破未发觉;
控制系统失灵,过充严重;
电池配置或者负载突加,严重过放;
电池虚接触,高温未发觉;螺钉松动,内阻过大,放电发热导致火灾;
异物,小动物乱窜导致短路;
电池密封不严或者安装、搬运、维护中未发现壳体裂缝,漏液造成与电池架短路;
长期小电流浮充,电池内部失水,温度偏高;
使用维护不当,极板硫酸盐化严重,刺穿隔膜导致内短路或兼内阻过大引起热失控;
电池生产质量问题,内部极板短路或汇流排脱焊;
逆变器、整流器故障导致蓄电池直接短路,又无直流保护;
自动化水平不够,人员又不够给力;
维护人员素质不足,维护不到位;
电源引发的灾难:
需要思考的问题:发生火灾为什么消防没有起作用?
1、现有的消防报警是温感+烟感,当烟雾的浓度和起火的温度要达到一定的条件时才触发报警,实际上已经有明火。在自动模式下,还有30秒的延迟,才启动灭火,一是确认报警的真实性,二是人员的撤离。
2、为了防止误动作,大部分的消防系统均打在手动状态,当发生火情时,在判断和处置上反应不及时,操作不熟练,延误灭火时机
3、数据中心的火灾大部分都是发生在电池的短路、电容的击穿、大功率器件的损毁导致短路,大电流瞬间产生热和明火(就像电焊一样),现有的消防报警系统根本来不及反应。
4.数据中心电源系统故障案例及分析----人祸:
维护不到位:
案例一:机房投入运行后,未做防鼠措施,老鼠从电缆口进入UPS机柜,引起短路炸机,导致后端设备掉电
人为操作错误:“小问题引出大故障”的典型案列
案例二:某数据中心一台UPS故障,显示面板不能正常工作,但带载工作正常,通知维保厂商,但厂家维护工程师到场后,未做应急保护措施,打开显示面板一改锥下去造成UPS宕机。所有的服务器断电,业务中断。
案例三:市供电局对某数据中心高压供电线进行接驳切换,楼宇物业电路检修人员在检修线路过程中,发现后备柴油发电机启动,未判明原因即先后5 次强行关闭柴油发电机,导致UPS 电池耗尽宕机,全部网络和服务器设备掉电。1小时候恢复供电。
科技和厂商人员赶往机房进行应急处置,损坏一台HP的高端存储异常,抢修无效后,启动异地灾难恢复,将此台存储搭载的业务切换至异地灾备中心提供服务,柜面系统、企业网银、信柜面系统、企业网银、信用卡、资金管理系统陆续恢复对外服务,耗时12小时全面恢复业务。
案例四:机房外市电中断,值班人员网管发现网络传输设备掉电,而交换机正常,经进一步检查,传输设备掉电是由于值班人员误操作通信电源,导致传输设备掉电。
维护不到位:
电源故障五:事故背景
2016 年 4 月 22 日,某公司数据中心 UPS 升级改造过程中,造成供电中断,导致机房全部设备断电,系统宕机,73 家村镇银行的核心、银行卡、柜面、支付、网银、手机银行等业务全部中断,涉及全国 12 个省份,并造成部分服务器损坏,银行业务最长恢复时间达到 7 小时 32 分钟,同时还导致部分银行业金融机构的开发测试系统、灾备系统、生产业务系统相继中断。
起因描述
该数据中心的 4 台老旧 UPS 升级,先将 3 号和 4 号旧 UPS(400KVA)换新、由 1号和 2 号旧 UPS 为机房供电,而后再更新 1 号和 2 号 UPS,再此期间使用三台柴油发电机并机运行为 UPS 供电。柴发只带IT设备,空调仍然有市电供电。
问题一、UPS超载,切旁路运行
对本案:老旧的 UPS 因负载过高而切换到旁路只是时间长短的问题,老旧的设备其过载能力有所下降,就像人的能力一样,年轻的时候可以挑120斤的重担,到了60岁100斤不一定能挑的动。因此本案让UPS超载运行时不可取的。
问题二:柴油发电机组为什么会出现“失磁”报警,最后“脱磁”而退出供电?
原因有以下两种可能:
1、UPS时,UPS是工频机,带输出变压器,对发电机呈感性负载,UPS宕机后,发电机直接带IT负载,而IT设备是以非线性和容性为主,会使柴油发电机组容量减额。
2、谐波:谐波带来大量的热量损耗,降低发电效率,严重时甚至会烧毁机组。电枢中的谐波电流会使同步发电机输出电压产生畸变,严重降低电能质量 。畸变的输出电压不仅会干扰用电设备的正常使用,甚至也会使发电机的励磁系统无法正常工作,引起更为严重的后果(失磁)
因此:柴油发电机组出现“失磁”报警,最后“脱磁”而退出供电主要原因多半是容性负载+谐波。
问题三:认识不足,应急预案欠缺
1、风险认识不足:认为发电机比市电可靠:一般情况把大电网看作无穷大电源,可忽略其内阻。由设备产生的谐波电流对电网电压的影响较小。但是在柴发供配电系统中,其内阻较大,惯性小,抗谐波电流的能力弱。
2、选择错误的作业时间:更换UPS这样的高风险作业,其实完全可以放在业务量较低的夜间进行。而此次作业安排在白天,并且事前未向银行明确提示风险,银行准备不足,导致业务长时间不能恢复。如果可以去掉部分的开发测试环境,减少UPS负载,不至于UPS超载运行,UPS不超载,也不会引起UPS宕机切旁路。
3、缺少应急预案:供电故障是国内数据中心比较常见的灾难产生原因。而当UPS出现过载时,却没有迅速准确的应对措施,应该说是有缺陷的。如果有针对此场景的应急预案,从UPS开始报警到宕机的几十分钟里,迅速应对,完全有机会避免事故的发生。
维护不到位:缺少建康性检查、例行的检测、老化器件更换不及时,导致设备发生灾难性故障
缺少应急预案和演练:比如柴油发电机的带真负载的演练,往往当需要发电机带载时就掉链子。
安全措施不到位:比如没有冗余或容错保护、未做物理的隔离,一旦发生突发事件,央及全部。
发电机与UPS的配比:对高频UPS,一般UPS与发电机容量的配比为1:1.2~1.5,。对工频UPS,UPS与发电机容量的配比做到1:1.5~2.0,
但是在数据中心内的负载还是以非线性和容性为主,单方面增加柴油发电机组总容量不进行谐波抑制,效果并不理想。
三、数据中心电源系统风险防范对策
1.数据中心电源系统风险防范对策------认识到危害性
高昂的代价
损失大:硬件损失、客户数据损失
中断服务:少则2小时,多则8小时甚至更长
恢复时间长:数小时~数天
数据中心运行面临的问题:
2.数据中心电源系统风险防范对策------设计阶段
智能化:人工智能在数据中心作用-----环境监控
实时监控各设备的运行状态,发现异常及时预警,及时处理
智能化:人工智能------电池实时监测
防范于未然:人工智能------极早期烟雾检测
3.数据中心电源系统风险防范对策------运行防范(人防)
4.数据中心电源系统风险防范对策------运行防范(技防)
5.数据中心电源系统风险防范对策------运行(规防)