世界在日常生活的各個方面都依賴于數(shù)據(jù)中心。為了滿足持續(xù)增長且看不到盡頭的空前高水平需求,大多數(shù)組織都無法接受停機時間。停機成本正在上升,40% 的企業(yè)報告說,僅一小時的停機時間就可能造成 100 萬至 500 萬美元的損失,這還不包括其他相關(guān)費用。大公司報告說,在高峰工作時間中斷每分鐘可能造成近 100 萬美元的損失。為了減輕此類財務(wù)挫折的風險,數(shù)據(jù)中心部署了其關(guān)鍵基礎(chǔ)設(shè)施的冗余組件。
什么是數(shù)據(jù)中心冗余?
數(shù)據(jù)中心冗余是一種用于解決停機問題的系統(tǒng),其中在基礎(chǔ)設(shè)施設(shè)計中包含額外的組件,使操作能夠在設(shè)備故障、公用事業(yè)故障或計劃維護的情況下恢復(fù)。
為什么數(shù)據(jù)中心冗余很重要?
數(shù)據(jù)中心冗余對于日常運營至關(guān)重要,因為它提供了彈性并有助于維持正常運行時間。
即使有一定程度的冗余,也可能會發(fā)生計劃外停機。停機造成的損害可能包括:
- 收入損失。僅在線運營的公司依賴于一致的正常運行時間。如果發(fā)生停機,客戶將無法購買或使用服務(wù),從而導(dǎo)致公司收入損失。
- 品牌美譽度。如果客戶在您的組織中不斷遇到用戶困難和停機時間,他們將開始將您的品牌與糟糕的服務(wù)聯(lián)系起來。讓您的客戶的購買過程和您的服務(wù)盡可能簡單與正常運行時間和冗余直接相關(guān)。
- 生產(chǎn)力下降。如果公司沒有為停機時間做好準備并且沒有投資于冗余基礎(chǔ)設(shè)施,則生產(chǎn)力會在停機期間停止。長時間的停機會產(chǎn)生嚴重的后果,并會影響通信、設(shè)備和員工效率。
- 支出。一些組織在 SLA 合同中包含了聲明在發(fā)生計劃外停機時需要賠償?shù)恼Z言。這對于使用托管數(shù)據(jù)中心的公司來說非常普遍,并且這些提供商同意嚴格的 SLA,以保證為其客戶提供最短的停機時間。
- 丟失數(shù)據(jù)。在停機期間,數(shù)據(jù)可能不受保護,并且可能存在破壞或竊取數(shù)據(jù)的網(wǎng)絡(luò)攻擊機會。
數(shù)據(jù)中心冗余是一項重要的措施,因為避免它和經(jīng)歷停機是昂貴的。停機一小時的平均成本從 140,000 美元到 540,000 美元不等,公司應(yīng)該考慮在為時已晚之前確保冗余。通過建立冗余,您的設(shè)施可以更快地恢復(fù),確保更可靠的操作。故障和故障發(fā)生的頻率可能比您想象的要高,積極主動會帶來回報。
例如,如果 PDU 發(fā)生故障,您將如何繼續(xù)為其供電的設(shè)備運行?您是否為故障轉(zhuǎn)移安裝了冗余設(shè)備,還是必須等到問題得到解決?在不嚴重影響您的組織的情況下,您可以承受多少停機時間?這些都是在問自己對裁員的投資是否值得時要考慮的問題。
數(shù)據(jù)中心的哪些關(guān)鍵組件需要冗余?
最建議具有冗余的基礎(chǔ)設(shè)施部分是:
- 力量。冗余機架 PDU、RPP/落地式 PDU、UPS 和發(fā)電機可確保 IT 設(shè)備在電源鏈的一側(cè)出現(xiàn)故障時仍然有電。市電也可以在雙饋電或雙變電站中提供,以防止市電故障。
- 冷卻。備用空調(diào)系統(tǒng)、HVAC、泵和冷卻器可使數(shù)據(jù)中心保持涼爽,并在冷卻設(shè)備出現(xiàn)故障時安全運行。
- 網(wǎng)絡(luò)。交換機、路由器和防火墻等冗余硬件可以確保在網(wǎng)絡(luò)流量急劇上升或 DDoS 攻擊時正常運行。
- 貯存。應(yīng)使用備份硬盤驅(qū)動器、磁帶驅(qū)動器、內(nèi)部和外部存儲以及管理軟件來保護有價值的數(shù)據(jù)。
如何衡量數(shù)據(jù)中心冗余?
根據(jù)組織的正常運行時間要求、設(shè)施的規(guī)模和基礎(chǔ)設(shè)施的承受能力,可以使用不同的架構(gòu)設(shè)計和冗余級別。雖然擁有完全冗余的數(shù)據(jù)中心在某些情況下可能很有價值,但在其他情況下卻極其昂貴且效率低下。
為了衡量數(shù)據(jù)中心的冗余度,字母 N 被認為是衡量單位。N 表示設(shè)施以 100% 容量運行所需的特定設(shè)備的實例數(shù)。N 本身不提供任何冗余。為了實現(xiàn)冗余,數(shù)據(jù)中心管理人員從添加到 N 的各種模型中進行選擇。
數(shù)據(jù)中心冗余的級別是:
- N+1。N+1 是一種簡單的冗余設(shè)計,因為它包含 N 代表特定組件的任何數(shù)字加上一個額外的數(shù)字。這個額外的設(shè)備是可以添加到 N 設(shè)計中的最低級別的冗余,因為它只提供一個額外的資源。N+1 是公認的設(shè)計標準,通常建議為需要的四個設(shè)備增加一個設(shè)備。2018 年,Uptime Institute 報告稱,約51% 的運營商受訪者擁有 N+1 冷卻設(shè)備設(shè)計,41% 擁有 N+1 電源設(shè)備配置。
- N+2。N+1 模型很有用,但有時需要更多冗余。在這種情況下,設(shè)施可能會采用 N+2 設(shè)計,即在基線上部署兩個額外的設(shè)備單元。N+2 冗余設(shè)計比其他復(fù)雜設(shè)計更具成本效益。
- 2N。2N 數(shù)據(jù)中心架構(gòu)設(shè)計產(chǎn)生了一個完全冗余的設(shè)施,具有主要基礎(chǔ)設(shè)施和備份設(shè)備的鏡像系統(tǒng)。使用此模型,如果整個系統(tǒng)崩潰,將有一組額外的基礎(chǔ)架構(gòu)能夠繼續(xù)運行并支持全部 IT 負載。這可以幫助數(shù)據(jù)中心大大降低停機風險,但成本高昂且難以部署。
- 2(N+1)。對于需要最高級別冗余和容錯計劃的數(shù)據(jù)中心,有一個 2(N+1) 架構(gòu)設(shè)計。此設(shè)計是 2N 和 N+1 系統(tǒng)的組合。這是部署成本最高的計劃,但實際上是防故障的,因為它可以支持多個故障,并且在整個主系統(tǒng)出現(xiàn)故障的情況下仍然提供 N+1 冗余。這種模式可能適用于無法承受絲毫中斷或任何停機的可能性的公司。然而,冗余設(shè)計并不是萬能的,數(shù)據(jù)中心經(jīng)理在選擇合適的冗余度之前應(yīng)該考慮安裝、財務(wù)成本和維護保養(yǎng)。
- 3N/2。三對二冗余模型提供與 2N 幾乎相同的可靠性,并且僅絞合約 50% 的容量,使成本更接近 N+1 系統(tǒng)。這種模型非常復(fù)雜,因為它需要三個不同的 UPS 系統(tǒng),其中每個單獨的系統(tǒng)都可以備份一個單獨的系統(tǒng),并且?guī)眍~外的管理挑戰(zhàn)。
冗余如何影響數(shù)據(jù)中心層級?
數(shù)據(jù)中心的冗余量直接關(guān)系到Uptime Institute 在其認證過程中授予的數(shù)據(jù)中心層級。有四個具有特定標準的標準化層,特別是每年允許多少停機時間和冗余級別。根據(jù)您的業(yè)務(wù)需求和預(yù)算,其中一層將最適合您。
一級數(shù)據(jù)中心通常最適合預(yù)算較低的小型企業(yè)。這些組織可能沒有大量的流量和數(shù)據(jù)存儲需求,并且可以比其他層級承受更多的停機時間。在這種情況下,數(shù)據(jù)中心不需要冗余。
對于中小型企業(yè),效率和冗余需求略有提高,使第 2 層非常適合。第2 層數(shù)據(jù)中心包括部分冗余,例如 N+1 模型,但仍以比其他更高層更低的成本運行。
通過Tier 3認證的大型數(shù)據(jù)中心還需要至少內(nèi)置一個 N+1 冗余系統(tǒng)。這一級別的風險更高,組織必須能夠在不關(guān)閉或中斷操作的情況下對設(shè)備進行維護,使冗余成為必要性。
最高級別的認證是Tier 4 數(shù)據(jù)中心。此層級適用于在任何時候都無法承受最短停機時間的企業(yè)級企業(yè)和政府實體。對于需要幾乎 100% 正常運行時間的公司,完全容錯的冗余系統(tǒng)(如 2N 或 2(N+1) 設(shè)計)是有益的。
并非每個層級和級別的冗余都適合每個組織。重要的是要了解您的業(yè)務(wù)需要多少正常運行時間以及您可以在數(shù)據(jù)中心容量上花費多少。如果您是中小型企業(yè),2N 模型過于復(fù)雜且昂貴。投資于不需要的備用設(shè)備只會占用空間并增加維護成本。另一方面,大型組織需要確保他們獲得足夠的冗余。N+1 設(shè)計不適合需要最高正常運行時間的公司。在選擇您的設(shè)施需要多少冗余時,請務(wù)必考慮您組織的預(yù)算、正常運行時間要求、業(yè)務(wù)目標和風險承受能力。
使用 DCIM 軟件確保冗余的 3 種方法
當您擁有合適的工具時,確保數(shù)據(jù)中心冗余和保持正常運行時間會很容易。數(shù)據(jù)中心基礎(chǔ)設(shè)施管理 (DCIM) 解決方案是記錄冗余和提高數(shù)據(jù)中心正常運行時間的行之有效的方法。
DCIM 軟件幫助確保冗余的三種方式包括:
- 故障轉(zhuǎn)移模擬。故障轉(zhuǎn)移是指主系統(tǒng)出現(xiàn)故障,輔助系統(tǒng)自動接管。借助 DCIM 軟件,您可以在數(shù)據(jù)中心模擬故障轉(zhuǎn)移,以確定在故障轉(zhuǎn)移場景中哪些機架和設(shè)備存在風險。然后,您可以主動采取措施確保這些機架具有冗余電源。
- 電源電路走線圖。通過電路軌跡圖和 3D 可視化,您可以看到從設(shè)備電源一直到地板 PDU 的多個冗余電源電路中的每個節(jié)點和連接。
- 健康投票。確保您的設(shè)備正常運行并且您可以通過網(wǎng)絡(luò)輕松訪問它非常重要。DCIM 軟件允許對您的智能 PDU和其他計量設(shè)備進行高質(zhì)量的健康監(jiān)測。如果設(shè)備出現(xiàn)故障,您將立即收到警報,以便您可以在出現(xiàn)更大問題之前快速做出反應(yīng)并恢復(fù)服務(wù)。
此外,通過使用 DCIM 軟件降低停機的可能性和嚴重程度,您甚至可能會發(fā)現(xiàn)您需要的冗余更少,從而可以降低成本。