机房运维:核心机房电源中断应急预案

来源:微电流电池测试    发布时间:2024-06-02 02:35:52

  核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,***限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。

  1.机房电力是两路三相四线铜芯护套线.机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。

  4.机房现有设备机柜已编号,均通过不间断电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。

  5.运行中的UPS电源所带负荷,在逆变运作时的状态下能正常工作约4小时(已经过UPS放电测试)。

  1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及有几率发生的情况。

  2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。

  3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。

  ⑴值班网管监控到核心机房停电,***时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。

  要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。

  ⑵网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。接着进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是不是受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)

  ⑶实时监控设备及UPS工作情况,包括:电量下降情况,设备工作一般的情况,每15分钟通报一次电量情况。

  ⑴运维应急同事接到故障通告后,***时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。

  ⑴调度中心值班人员接到网管监控调度信息后,***时间将故障信息记录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。

  ⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行全方位检查处理。

  ⑴机房管理员***时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。

  ⑵工维应急小组组长接到时间后***时间往停电现场赶,同时进行发电应急小组成员调度,安排***时间到场工作开展,并升级通报告知主管领导,对口集团维护中心上报信息。

  ⑶工维应急小组成员接到停电时间后***时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事能够直接进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认能够直接进行发电操作后,按照发电操作流程进行发电恢复市电。

  ⑷网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。

  ⑴机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。

  ⑵发电前考虑4方面系统设备用电功率情况,为保障发电机带动的正常,不可以进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。

  ***步启动空调制冷系统的市电输入开关,运维应急小组成员重新再启动空调主机(空调因为市电恢复后要重新启动)观察空调制冷工作是否正常。

  第二步启动主UPS设备的市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。

  第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。

  第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。

  ⑷发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行做全面的检查,确保设备已经是运行正常。

  ⑸发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。

  ⑴网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是不是正常,在市电中断时UPS是不是已经开始进行供电保护。

  ⑵值班网管对机房中的所有设备做全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。

  ⑶停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境和温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。

  ⑷发现机房环境和温度大于26℃。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延长关键设备运行时间。

  2.油品的供应以应急小组成员通知后开始准备,协议要求是6小时内送货到场。

  3.只要进行发电一小时以上,则必须在停止发电后补充满油品,确保发电机随时都是满配油品保障中。

  4.油品的零购是属于公安部门的监管,所以分公司提前将资料向公安部门报备,在公司因为特殊原因有零购油品需求,在公安部门已经有分公司备案资料下,每次使用零购油品进行公安部门盖章申请。可以每时每刻进行购买。

  1.打开电力室和网络机房空调市电开关,并将调节温度设定为20℃。首先恢复机房制冷系统的正常工作。

  2.等供电稳定后(一般在恢复市电10分钟后),闭合主/备UPS设备空气开关,恢复给主/备UPS交流供电。观察并确认UPS转换为交流稳压和浮充状态。

  3.闭合客服系统的主空气开关,恢复客服系统的交流供电,并观察设备工作运行情况。

  4.观察10分钟后,确保所有网络及设备、UPS设备组工作稳定后,将发电机停止发电,并将情况报告给调度及主管领导。

  5.应急小组将发电的物资进行收拾整理存放好,并进行记录发电机的上班时间及油/水/电路的切断。机房的降温设备的关闭确认及物资收拾整理存放好。

  6.将处理情况做详细书面记录,请有关人员签字确认并报集团公司信息化系统管理平台上填写相关记录。

  对于柴油发电机来说,由于它不是日常的主要供电设备,所以日常的维护保养最重要的包含以下几个方面:

  2.定期清理检查进气过滤器,并在固定的周期来更换(或者根据现场的工况和进气过滤器的透气程度来更换);

  3.按时进行检查和清理电池组接线柱,保持接线.定期检查电池组的充电状态,保证良好的充电效果;

  8.冬天寒冷季节要确保机组预热装置正常工作,以便在需要启动发电机时能正常启动;

  从发生故障的电脑设备缝隙中将发霉的食物甚至死蟑螂清理出来,又或者被要求检查同事们在上班工作的时段当中浏览过哪些网上内容。而当你站在两英尺深的水中将通了电的服务器高高举起以尽力避免自身触电时、尝试安装一套通信连接设备而同时发现了自己慢慢的变成了狙击手瞄准镜中的目标时、或者是在与网络协议全力周旋的同时还要担心炸弹即将起爆时,我们可能才会对...

  在谈到机房布线系统的设计施工时,美国康普公司大中华区首席技术官吴建指出:“在机房建设阶段,我们当前并没有一个独立的标准来说明一个机房在设计施工全套工艺流程中需要做些什么。行业内较为流行的做法是‘最佳实践’。”机房设计施工的“最佳实践”其实就是包含了两个大的方面:一是前期设计(与产品无关),二是产品选型。

  数据中心机房多年来长期处在使用机房专用精密空调做为主要散热设备。随着计算机设备的更新换代,IT设备的功率密度慢慢的升高,机房面积慢慢的变大,机房的数量慢慢的变多,世界能源越来越紧张。在全球能源问题日趋突出的情况下,虽然机房空调制冷能效比有所提高,但所耗费的电能仍然太高,一直困扰着机房运营商与用户。

回到顶部