使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件提高正常運(yùn)行時(shí)間所遵循的最佳實(shí)踐

      數(shù)據(jù)中心中斷的成本可能 是驚人的,數(shù)據(jù)中心專業(yè)人士報(bào)告說(shuō),大規(guī)模中斷的成本越來(lái)越高。最近的一項(xiàng)調(diào)查發(fā)現(xiàn),2020 年 16% 的停電造成的損失超過(guò) 100 萬(wàn)美元,高于 2019 年的 10%。40% 的停電造成的損失在 10 萬(wàn)至 100 萬(wàn)美元之間,高于 2019 年的 28%。

      使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件提高正常運(yùn)行時(shí)間所遵循的最佳實(shí)踐-南華中天

      不僅停機(jī)成本在增加,而且可預(yù)防的停機(jī)次數(shù)也在增加。2019 年,60% 的停機(jī)事件被認(rèn)為是可以預(yù)防的,到 2020 年,這一數(shù)字上升到 75%。電力和冷卻問(wèn)題是 50% 停電的原??因。

      遵循最佳數(shù)據(jù)中心實(shí)踐

      數(shù)據(jù)中心經(jīng)理需要遵循最佳實(shí)踐來(lái)減少這些可預(yù)防事件造成的停機(jī)時(shí)間。

      以下是成功的數(shù)據(jù)中心經(jīng)理使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理 (DCIM) 軟件提高正常運(yùn)行時(shí)間所遵循的 10 大最佳實(shí)踐:

      1. 利用計(jì)量設(shè)備的運(yùn)行狀況輪詢。 通過(guò)運(yùn)行狀況輪詢確保智能機(jī)架 PDU和其他計(jì)量設(shè)備正在運(yùn)行并可通過(guò)您的網(wǎng)絡(luò)訪問(wèn),這樣您就可以第一個(gè)知道您是否失去了對(duì)設(shè)備的監(jiān)控或停電。運(yùn)行狀況輪詢使您能夠立即收到有關(guān)設(shè)備已關(guān)閉的警報(bào),以便您可以快速做出反應(yīng)并在出現(xiàn)問(wèn)題之前恢復(fù)服務(wù)。
      2. 設(shè)置和監(jiān)控閾值。 最佳做法是監(jiān)控和接收智能 PDU 和其他計(jì)量設(shè)備的陷阱。然后,對(duì)您收集的數(shù)據(jù)設(shè)置警告和臨界閾值,以便輕松了解您的設(shè)備狀態(tài)。使用企業(yè)健康儀表板,通過(guò)易于理解的紅-黃-綠顏色編碼,一目了然地查看閾值違規(guī)情況。如果您有違規(guī)行為,請(qǐng)使用您的儀表板向下鉆取并查看導(dǎo)致這些警告或嚴(yán)重情況的確切警報(bào)。
      3. 使用趨勢(shì)圖查看隨時(shí)間的變化。 趨勢(shì)圖非常有用,因?yàn)榧词鼓€沒(méi)有違反閾值,您仍然可以看到功率或溫度讀數(shù)是否隨時(shí)間增加。這使您能夠在發(fā)生閾值違規(guī)和潛在事件之前主動(dòng)做出反應(yīng)。將您的圖表以每周自動(dòng)報(bào)告的形式發(fā)送給您的管理層,讓他們了解數(shù)據(jù)中心發(fā)生的事情。
      4. 遵循 ASHRAE 指南和濕度冷卻圖表。 通過(guò)冷卻圖表確保您的設(shè)備符合ASHRAE對(duì)溫度和濕度的建議,使您能夠在一個(gè)視圖中查看大量傳感器。然后,您可以立即識(shí)別哪些設(shè)備在推薦范圍之外運(yùn)行,并采取相應(yīng)措施以維持正常運(yùn)行時(shí)間。
      5. 使用熱圖延時(shí)視頻可視化溫度傳感器讀數(shù)。 將您的環(huán)境傳感器數(shù)據(jù)轉(zhuǎn)換為帶有延時(shí)視頻的水平或垂直熱圖,以在熱點(diǎn)損壞設(shè)備之前快速識(shí)別和消除熱點(diǎn)。
      6. 監(jiān)控機(jī)柜容量和冗余度。 創(chuàng)建一份每日?qǐng)?bào)告,突出顯示容量低且危險(xiǎn)地接近冗余要求之外的機(jī)架。
      7. 使用儀表板可以一目了然地查看運(yùn)行狀況、電源和冷卻情況。 遠(yuǎn)程數(shù)據(jù)中心管理儀表板非常有助于將數(shù)據(jù)轉(zhuǎn)化為易于共享的可操作信息,并支持?jǐn)?shù)據(jù)驅(qū)動(dòng)的協(xié)作。您應(yīng)該監(jiān)控的必備 KPI包括每個(gè)機(jī)柜的峰值功率負(fù)載、剩余電源容量天數(shù)、機(jī)柜電源故障轉(zhuǎn)移冗余、電源鏈斷路器利用率、每個(gè)機(jī)柜的最新溫度、每個(gè)機(jī)柜的 delta-T 和每個(gè)機(jī)柜的最高溫度。
      8. 監(jiān)控每個(gè)斷路器的容量。 使用自動(dòng)跟蹤每個(gè)斷路器連接處的功率的數(shù)據(jù)中心管理軟件,以確保不超過(guò)額定值。通過(guò)入口或出口儀表的實(shí)時(shí)讀數(shù),該軟件將防止您施加超過(guò)斷路器限制的負(fù)載。
      9. 三相負(fù)載平衡。 不平衡的電源會(huì)導(dǎo)致斷路器過(guò)早跳閘和高壓,從而縮短設(shè)備的使用壽命。設(shè)置三相電源的閾值以在設(shè)備違規(guī)時(shí)接收警報(bào)。然后,根據(jù)此信息采取行動(dòng)以保持所有階段的平衡并保持正常運(yùn)行時(shí)間。
      10. 模擬故障轉(zhuǎn)移并測(cè)試假設(shè)情景。 不要等到為時(shí)已晚才發(fā)現(xiàn)發(fā)生故障時(shí)會(huì)發(fā)生什么。使用 DCIM 軟件模擬故障轉(zhuǎn)移并確保 IT 設(shè)備始終可用。您還可以使用確定可用容量的報(bào)告來(lái)測(cè)試假設(shè)場(chǎng)景,以在發(fā)生故障時(shí)提供覆蓋范圍。

      使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件提高正常運(yùn)行時(shí)間所遵循的最佳實(shí)踐-南華中天

      不要等待數(shù)據(jù)中心中斷發(fā)生

      防止中斷的價(jià)值是巨大的。最好的數(shù)據(jù)中心經(jīng)理認(rèn)識(shí)到這一點(diǎn),并遵循這些最佳實(shí)踐來(lái)保持正常運(yùn)行時(shí)間。以他們?yōu)榘駱樱猛暾?DCIM 解決方案,實(shí)現(xiàn)一流的監(jiān)控和報(bào)告功能,您可能會(huì)為您的組織節(jié)省數(shù)百萬(wàn)美元。