網絡和系統管理員是任何 IT 組織的骨干。它們為所有 IT 資源(無論是網絡、SD-WAN、服務器、應用程序還是虛擬和云資源)提供關鍵監控和支持。在與數百名網絡和系統管理員合作后,我們確定了最有效的 7 個關鍵習慣。
1. 避免數據泛濫
典型的網絡或系統管理員每天會收到多達 200 個警報。其中多達 80% 可以在正常工作時間內觸發。這意味著在 10-12 小時的工作日內平均需要對 160 個警報進行分類。這大約每 5 分鐘發出 1 個警報!
這些警報中的大多數要么是冗余的,要么是較低優先級的,并且可以很容易地進行分類。但是,對它們進行分類仍然需要時間和人工。分類冗余和低優先級警報的任務不僅繁重,而且對網絡管理員的工作也有不利影響。
- 大量的警報和通知擠占了網絡管理員必須執行的最重要任務。這反過來又會導致響應時間變慢、錯過最后期限和客戶不滿意。
- 網絡或系統管理員的工作質量受到影響。
- 他們的生活質量受到的影響更大。
最有效的網絡和系統管理員已經意識到,為了讓他們的團隊變得高效和有用,他們必須直面這個問題。他們的解決方案:
- 減少警報(有關減少警報的有用建議,請參閱此博客文章:對網絡和系統管理的Oxymoron攻擊)。
- 自動分類剩余警報。換句話說,盤點一周左右收到的所有警報,然后在您的監控/警報平臺中建立業務規則,使冗余和低優先級的警報靜音。
2. 部署單一窗格的玻璃儀表板
在任何給定時間,網絡或系統管理員必須監控至少 10 到 12 種不同類型的資源。正如我們上面提到的,這些包括網絡、SD-WAN、服務器工作負載、應用程序以及虛擬化和云資源。最重要的是,每個資源都有自己的工具。例如,網絡使用 Zabbix 和 Xymon 等網絡管理系統,虛擬化服務器工作負載使用 vCenter 等工具,應用程序使用 APM(New Relic 和 AppDynamics),以及 Meraki 等云資源對其硬件有自己的獨立視圖。
每個工具都有自己的儀表板。許多人聲稱提供“單一窗格”(SPOG)視圖。但是,并非所有人都符合要求。理想情況下,單塊玻璃應展示以下三個特征:
- 被監控元素的清晰和明確的狀態。
- 快速輕松地深入了解問題狀況。
- 最低限度甚至沒有“照顧和喂養”要求。
例如,這里是一個真正的 SPOG 應該能夠產生的示例屏幕截圖。只有少數工具可以聲稱是真正的 SPOG。該領域流行的產品包括 IBM Tivoli、EMC Smarts 和OmniCenter。(我們目前正在撰寫一篇方便的博客文章,以幫助您確定您的 SPOG 是否真的是 SPOG。所以請在不久的將來注意這一點。)
3.自動化可重復的任務
詢問任何網絡或系統管理員他們大部分時間是如何度過的,您會得到的最常見答案是:滅火。
這些人也承認,最緊迫的問題歸結為三件事:
- 大量冗余警報。
- 大量的新資源需要管理。
- 人為錯誤。
我們已經解決了上面的冗余警報問題。對于剩下的兩個,自動化是關鍵。最有效的網絡和系統管理員會毫不留情地將所有他們可以做的任務自動化。然而,在他們開始之前,他們需要弄清楚兩個基本的事情:
- 要自動化什么?
- 如何實現自動化?
令人驚訝的是,確定要自動化什么幾乎和如何做一樣復雜。那么,最有效的網絡和系統管理員如何構建他們的自動化優先列表?嗯,首先要了解他們的日?;顒涌梢苑譃樗拇箢悾?/p>
- 重要且緊急的任務——您會發現這些項目在所有網絡和系統管理員的日常生活中都很常見,例如響應警報。
- 不重要,但緊急任務——到目前為止,這里最常見的活動是處理來自網絡和系統管理員負責的無數設備和應用程序的冗余和誤報警報。
- 重要但不緊急的任務——在這個類別中的項目不是“放棄一切”任務,但在大多數情況下,網絡和系統管理員最有資格處理的事情;例如容量規劃、新工具的部署和升級、為管理決策支持生成報告以及管理基礎架構
- 不重要且不緊急的任務——列表中的最后一項是通常屬于網絡或系統管理員權限范圍內的活動,但當其他與基礎設施相關的火災發生時,它們會被推到優先級列表中。此處的示例包括跟蹤設備元數據(例如序列號)和支持合同狀態,以及補丁管理和新設備供應。
4. 使用模板
今天,每分鐘都有新資源上線。為確保它們符合您的信息系統政策,所有資源應:
- 配置方式相同。
- 遵循相同的監控規則。
- 統一通知利益相關方。
- 使用一致的閾值和條件發出警報。
- 以同質的方式報告。
最有效的網絡和系統管理員認識到這些指令的重要性并部署基于模板的解決方案來解決它們。一個很好的例子是監視 Microsoft SQL 服務器上的內存使用情況。眾所周知,MS SQL 系統將使用分配給它們的所有內存。因此,您需要一個適用于 SQL Server 基礎架構的不同模板,而不是運行中間件應用程序的 MS Windows 服務器。您的 SQL 服務器具有其他地方沒有的特殊操作參數。
模板化并不容易。您必須了解每個模板化資源/工作流程的模式。您還必須將您的公司政策和期望構建到開發的模板中。最后,所有模板都必須自動進行版本控制、保存和備份。
5. 加速根本原因分析
如果您已經在使用到目前為止列出的技術,那么您很可能已經消除了 50-60% 的潛在問題。您也很可能已經被公認為高效的網絡或系統管理員,您的同行可能會向您尋求幫助和建議。但是,當您向他們提供建議并討論 IT 將在未來 5 年內經歷的變革理念時,又發現了另一個資源故障。它的狀態變為紅色,警報開始出現。但是,因為您已經消除了 80% 的冗余警報,并且自動執行了普通管理員必須執行的大量分類工作,所以您知道這個問題不是誤報.
整個團隊現在都在競相尋找根本原因?;ㄔ诮獯a問題上的每一分鐘都意味著多一分鐘的中斷。你不喜歡它。你的老板不喜歡它。而且,最重要的是,您的客戶不喜歡它。但是,作為一名有效的網絡或系統管理員,您還有一張王牌。幾分鐘之內,您就可以準確地知道如何以及在何處查找問題并執行根本原因分析。
除了自動化,最有效的網絡和系統管理員明白,能夠訪問正確的工具,不僅可以顯示統一的儀表板,還可以一鍵向下鉆取,是成功和讓客戶滿意的關鍵(也是讓經理滿意的關鍵) )。結合適當的單層玻璃,這些工具非常有效,每周可以為您節省 10-15 小時?。ㄟ@就像每個工作周都有一天的空閑時間?。┻@是一個單擊向下鉆取功能應該如何工作的示例。
6.對需要大量護理和喂食的工具說不
正如我們前面所討論的,典型的網絡或系統管理員有大約 10-12 種工具可供他們用來監控他們的 IT 資源。其中至少有一些可能需要幾個月的時間來配置、部署和定制。而且,供應商通常不會提及支持其工具所需的大型復雜基礎設施。最有效的網絡和系統管理員了解此類工具的兩個重要方面:
- 它們的部署和管理成本很高。
- 對于他們所有的花里胡哨,他們的能力不會超過 20-30% 將被使用!
那么,他們如何將這一龐大的工具列表縮減為最高效的工具呢?簡單地說,最有效的網絡和系統管理員會問供應商一個關鍵問題,“管理您的管理系統的成本是多少?”然后他們無情地踢出任何有問題的產品。
“違規產品”是指任何違反現代管理平臺四項原則的 IT 管理軟件。
- 零成本部署。
- 沒有管理/維護成本。
- 一站式解決方案。
- 提供真正的單一窗格視圖。
7. 使用預測性和規范性報告和分析
對于網絡和系統管理員擁有的所有工具,用戶仍然經常報告故障。之所以會發生這種情況,是因為所有監控工具都超出了資源最終用戶以外的其他人設置的閾值。即使是大多數網絡或系統管理員也無法完全控制他們必須使用的所有工具的所有閾值。
這會導致以下兩種情況之一:
- 如果閾值設置得太高,至少有一些用戶會在警報消失之前遇到問題。
- 如果閾值設置得太低,系統可能會生成數百個無意義的警報。
最有效的網絡和系統管理員明白解決方案不是簡單地調整警報閾值。相反,他們制定了一個全面的策略,從報告失敗到預測失敗。他們是怎么做到的?通過部署具有內置預測 報告功能的解決方案。
使用來自過去負載、閾值和可用資源的數據,預測報告引擎應用機器學習 (ML) 算法來確定是否存在真正的故障可能性。這是一組預測報告的一個很好的例子。我們之前已經介紹過預測報告,甚至提出了解決方案。但是,請注意,這仍然是一項不斷發展的技術。
結論
那是很多信息。但是,如果付諸實踐,這七個習慣可以讓你的團隊從優秀變成優秀!如果您了解更多技術或希望我們更詳細地解釋任何內容,請在下面發表評論。擁有您所需的工具來做您想做的事。