技術(shù)問(wèn)答

      數(shù)據(jù)中心停!電!!到底有多恐怖?

      2018-12-04
      0
       
      數(shù)據(jù)中心,停!電!了!數(shù)據(jù)中心停!電!!到底有多恐怖?
       
      幾乎每個(gè)數(shù)據(jù)中心行業(yè)內(nèi)的人聽(tīng)到這幾個(gè)字眼都會(huì)毛骨悚然!
       
      作為數(shù)據(jù)中心行業(yè),停電帶來(lái)的影響難以估量,不僅在財(cái)務(wù)方面損失甚重,而且還會(huì)影響企業(yè)在行業(yè)內(nèi)的信譽(yù)和形象。
       
      還記得2017年5月27日CBRE數(shù)據(jù)中心的停電事故嗎?雖然已經(jīng)過(guò)去18個(gè)月之久,但是現(xiàn)在想起來(lái)仍然惶恐。因?yàn)镃BRE數(shù)據(jù)中心停電事故的發(fā)生,英國(guó)航空公司的預(yù)訂、辦理登機(jī)手續(xù)系統(tǒng)、呼叫中心和移動(dòng)應(yīng)用程序受影響而無(wú)法使用,導(dǎo)致英國(guó)航空公司672個(gè)航班被取消,75000名乘客的航班被取消或延遲,預(yù)計(jì)損失超過(guò)1億英鎊。
       
      英國(guó)航空公司擁有Boadicea House和Comet House兩個(gè)數(shù)據(jù)中心,在停電事故中,Boadicea House首先受到影響,而作為備份數(shù)據(jù)中心的Boadicea House在事故中并沒(méi)有發(fā)揮作用,因此事故一直持續(xù)了三天時(shí)間。
       
      事后,經(jīng)英國(guó)航空公司調(diào)查,此次事故并不是因?yàn)榫W(wǎng)絡(luò)攻擊而是由于承包商意外封鎖數(shù)據(jù)中心電源造成的。
       
      除了英國(guó)航空公司停電事故之外,國(guó)外還有許多類(lèi)似的情況,例如,美國(guó)達(dá)美航空公司數(shù)據(jù)中心的電力中斷,造成高達(dá)1.5億美元的經(jīng)濟(jì)損失;美國(guó)“超級(jí)碗”賽場(chǎng)斷電,耽誤賽事日程等。
       
      然而,數(shù)據(jù)中心運(yùn)營(yíng)商所面臨的困難是確定停電的根本原因,因?yàn)殡娏χ袛嗟脑虮容^復(fù)雜,例如,服務(wù)器負(fù)載過(guò)重,導(dǎo)致系統(tǒng)崩潰;當(dāng)?shù)仉娏?yīng)商的供應(yīng)問(wèn)題,工作人員誤操作的人為因素等。
       
      為了確保數(shù)據(jù)中心停電事故再次發(fā)生,數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)該關(guān)注的最重要的問(wèn)題:
       
      1、可以隨著快速發(fā)展的電力系統(tǒng)遷移嗎?
       
      數(shù)據(jù)中心在不同發(fā)展階段,對(duì)電力需求也在變化。因此,能夠分析數(shù)據(jù)中心一段時(shí)間內(nèi)對(duì)電力的需求是非常重要的,以便更容易地進(jìn)行長(zhǎng)期預(yù)測(cè)。
       
      2、電源鏈?zhǔn)欠袷艿酵{?
       
      越來(lái)越多的數(shù)據(jù)中心連接到網(wǎng)絡(luò),除了機(jī)架中包含的終端和訪問(wèn)點(diǎn)之外,很多渠道可能會(huì)成為破壞網(wǎng)路犯罪行為的破壞途徑。
       
      此外,網(wǎng)絡(luò)違規(guī)行為甚至不需要通過(guò)電線(xiàn)和電纜來(lái)實(shí)施。狡猾的犯罪分子可能會(huì)進(jìn)入某個(gè)數(shù)據(jù)中心,破壞內(nèi)部的電力供應(yīng)。但是,不僅僅是外部的惡意人員所造成的危害,也要警惕數(shù)據(jù)中心內(nèi)部工作人員的行為。有些知識(shí)和經(jīng)驗(yàn)不足的工作人員在與接口進(jìn)行交互的過(guò)程中犯錯(cuò),也會(huì)造成不可估量的傷害。
       
      為了防止出現(xiàn)這種情況,運(yùn)維文檔和流程控制至關(guān)重要。采用更多的硬件不是防止災(zāi)難性停電的最佳選擇,事實(shí)上,添加額外的硬件實(shí)際上可能使控制情況更加糟糕。
       
      3、災(zāi)難恢復(fù)計(jì)劃是什么?記錄文檔了嗎?
       
      在不影響業(yè)務(wù)環(huán)境的情況下進(jìn)行斷電測(cè)試,實(shí)際上是采用虛擬開(kāi)關(guān)設(shè)備,這將允許數(shù)據(jù)中心運(yùn)營(yíng)商可以應(yīng)對(duì)最壞的情況,并實(shí)施恢復(fù)服務(wù)。
       
      數(shù)據(jù)中心工作人員總是假設(shè)他們的電源供應(yīng)鏈和電源備份系統(tǒng)是萬(wàn)無(wú)一失的,但是如果沒(méi)有故障安全測(cè)試,會(huì)認(rèn)為面臨什么樣的結(jié)果?
       
      電源故障模擬使數(shù)據(jù)中心運(yùn)營(yíng)商可能找到缺乏冗余的設(shè)施,并發(fā)現(xiàn)單點(diǎn)故障。但是,這需要文檔進(jìn)行記錄。因此,數(shù)據(jù)中心運(yùn)營(yíng)商在災(zāi)難性的電源故障之前,建立斷電測(cè)試機(jī)制并記錄其恢復(fù)過(guò)程。
       
      4、可以實(shí)時(shí)監(jiān)控操作嗎?
       
      數(shù)據(jù)中心運(yùn)營(yíng)商必須知道哪些設(shè)備現(xiàn)在在哪里,使用了多少電能。對(duì)于不斷增加基礎(chǔ)架構(gòu)的數(shù)據(jù)中心來(lái)說(shuō),這往往會(huì)很困難,因?yàn)檫@可能會(huì)對(duì)電源容量和電源分配產(chǎn)生巨大的影響。
       
      注意所有移動(dòng)部件的唯一有效方法是單一視圖。這種整體視圖具有實(shí)時(shí)監(jiān)控和警報(bào)的功能,使數(shù)據(jù)中心運(yùn)營(yíng)商能夠減輕風(fēng)險(xiǎn),并進(jìn)行更改以避免災(zāi)難發(fā)生。
       
      5、知道所有互連設(shè)備和系統(tǒng)的一切情況嗎?
       
      對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)至關(guān)重要的是,需要電力鏈記錄在一起,從進(jìn)入建筑物的電力,再通過(guò)UPS、PDU/提供給所有的機(jī)架設(shè)備。這意味著數(shù)據(jù)中心運(yùn)營(yíng)需要知道哪些與電力相關(guān)的設(shè)備,以及設(shè)備各自的相互依賴(lài)關(guān)系。這可以讓數(shù)據(jù)中心運(yùn)營(yíng)了解某些設(shè)備故障或脫機(jī)維護(hù)時(shí)的潛在影響。此外,還應(yīng)該了解每個(gè)電源鏈設(shè)備的狀態(tài)。
       
      可以通過(guò)采用數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理(DCIM)實(shí)現(xiàn)對(duì)電源管理。DCIM使數(shù)據(jù)中心運(yùn)營(yíng)能夠以最高的效率運(yùn)行數(shù)據(jù)中心,同時(shí)允許所有相關(guān)人員改進(jìn)整體運(yùn)營(yíng)情況,并識(shí)別漏洞,從而保持電源鏈的安全。
       
      部署的DCIM還可以讓數(shù)據(jù)中心運(yùn)營(yíng)全面了解自己的產(chǎn)品,通過(guò)共享實(shí)時(shí)數(shù)據(jù)和易于理解的圖表,消除IT和設(shè)施之間的通信孤島。
       
      由于數(shù)據(jù)中心停電的原因很多,嘗試用人工方法和電子表格來(lái)跟上基礎(chǔ)設(shè)施的所有變化是費(fèi)力的,并引起不可預(yù)見(jiàn)的風(fēng)險(xiǎn)。因此,必須采取適當(dāng)可行的方法和措施進(jìn)行管理。
      部分文章來(lái)源與網(wǎng)絡(luò),若有侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)刪除!

      推薦產(chǎn)品