減少計算機系統(tǒng)停機時間應該是每家公司的頭等大事,因為您的服務出現(xiàn)故障將產(chǎn)生毀滅性的財務成本 - 失去業(yè)務或支付 SLA - 并且還會破壞您的聲譽。了解冗余和彈性之間的區(qū)別并使用托管數(shù)據(jù)中心是明智之舉,并且可以成為保護您的系統(tǒng)免受意外停機的極具成本效益的安全網(wǎng)。
彈性和冗余通常可以互換使用,但不了解它們的區(qū)別意味著很難就如何保護系統(tǒng)做出重要決定。您的 IT 是您公司的生命線,如果不保護它會破壞您業(yè)務的每一個元素,因此準確了解正在實施的內(nèi)容非常重要。
定義了冗余和彈性
冗余——指當主要設備或基礎設施出現(xiàn)故障時數(shù)據(jù)中心必須接管的備份設備級別。
彈性——指數(shù)據(jù)中心在出現(xiàn)設備故障或其他任何干擾正常運行的情況下繼續(xù)運行的能力。
冗余和彈性是相似的,都處理同一個主題,但它們之間的關鍵區(qū)別在于冗余是關于特定設備的容量,而彈性是關于整個數(shù)據(jù)中心能夠繼續(xù)運行。
使討論更加復雜的是,數(shù)據(jù)中心的冗余越多,它們的彈性就越大。盡管如此,還有其他因素有助于提高彈性,例如每天 24 小時在現(xiàn)場配備工作人員并從一開始就防止設備故障。
與數(shù)據(jù)中心運營商交談時,請確保他們解釋其彈性聲明背后的原因。如果他們聲稱具有高度彈性而沒有解釋他們的裁員,你應該懷疑。如果您想切入正題,在考慮數(shù)據(jù)中心時,請直接查看它們與某些設備的冗余水平,這將以 N 為單位表示。
冗余表示為 N
N –是一個計量單位,它是保持數(shù)據(jù)中心運行所需的冗余設備數(shù)量。例如,如果一個數(shù)據(jù)中心可以依靠一臺發(fā)電機運行,那么一臺發(fā)電機就是一臺 N。關于冗余和 N 要記住的是,對于每個數(shù)據(jù)中心,N 將是不同的值,因為它始終與數(shù)據(jù)中心的要求成正比。
N 的一些常見示例包括:
N = 保持數(shù)據(jù)中心運行所需的最少設備
N+1 = 保持數(shù)據(jù)中心運行所需的設備和一臺額外的設備
2N = 保持數(shù)據(jù)中心運行所需的最低設備數(shù)量翻倍
N 越高,數(shù)據(jù)中心的彈性就越大,因為它會增加在數(shù)據(jù)中心開始限制其運營之前可能發(fā)生故障的設備數(shù)量。
確保您所說的任何數(shù)據(jù)中心都為您提供了它們在滿負荷時的冗余 N 值,而不是它們當時的容量。否則,您可能會在被告知他們將提供 2N 冗余的合同時簽訂合同,但一年后——當數(shù)據(jù)中心中有更多服務器時——他們實際上提供的冗余比這要少。
數(shù)據(jù)中心內(nèi)的冗余和彈性示例
數(shù)據(jù)中心的不同元素需要不同的冗余設備,但所有這些冗余都需要到位,以使數(shù)據(jù)中心具有可接受的彈性水平。所有這些冗余應滿足的最小值為 N。
1. 電源
主電源故障是計算機系統(tǒng)發(fā)生故障的最常見原因之一,因此適當?shù)碾娫慈哂鄬τ跀?shù)據(jù)中心來說是絕對必要的。電源冗余有兩個要素:UPS(不間斷電源)用于在主電源出現(xiàn)故障時保持所有服務器供電,以及發(fā)電機在主電源恢復之前提供無限供電。
UPS 實際上是大型電池,主電源被饋送到數(shù)據(jù)中心,因此當出現(xiàn)電源故障時,電池會耗盡,保持一切供電,直到可以打開發(fā)電機。除了 N 之外,了解數(shù)據(jù)中心的 UPS 能夠為服務器供電多長時間以及數(shù)據(jù)中心在現(xiàn)場保留多少發(fā)電機燃料也很重要。
2. 冷卻
無論數(shù)據(jù)中心采用何種冷卻方法——無論是空調機組、冷卻塔,還是浸沒式冷卻——它們的冷卻冗余仍然可以用 N 表示,這將使您了解其冷卻的彈性。影響他們恢復能力的另一個重要因素是數(shù)據(jù)中心的冷卻系統(tǒng)出現(xiàn)問題的頻率,如果他們經(jīng)常依賴冗余,那么這是一個危險信號。
3. 連接性
一個數(shù)據(jù)中心應該鋪設多條線路將它們連接到互聯(lián)網(wǎng),實現(xiàn)大于 N 的冗余分數(shù)。要真正實現(xiàn)良好的彈性水平,這些線路應該在地理上是多樣化的,這樣如果其中一個損壞了,另一個就不會了。不會受到影響,因為它位于不同的位置。
權衡不同數(shù)據(jù)中心的冗余和彈性
您需要權衡的最終因素是整個數(shù)據(jù)中心的彈性。冗余是彈性的最大貢獻者,但請記住,一個領域的冗余不會提供所有彈性。例如:如果冷卻系統(tǒng)出現(xiàn)故障,備用發(fā)電機將無法保護您的服務器免于過熱。您需要準確計算出如何比較不同數(shù)據(jù)中心的優(yōu)點,但請記住不要被令人印象深刻的探測設備所蒙蔽,因為最大的正常運行時間是唯一重要的事情。