事件管理如何發展以及人工智能 (AI) 如何幫助團隊更聰明地工作,而不是更努力地工作。事故會給組織帶來一系列問題,從臨時停機到數據丟失。如果做得好,事件管理可以提供一種高效且有效的方法來修復各種事件,幾乎不會造成中斷,并使組織為下一次事件做好更充分的準備。
事件管理植根于 IT服務臺,長期以來一直是IT 運營 (ITOps)與最終用戶之間的主要接口。隨著技術的進步并變得更加復雜,組織看待事件響應的方式也隨之改變。它已經遠遠超出了幫助用戶解決問題的范圍,成為保持應用程序持續正常運行和加速持續改進工作的過程。
什么是事件管理?
事件管理是 IT 運營和 DevOps 團隊用來響應和解決可能影響服務質量或服務運營的計劃外事件的過程。事件管理旨在識別和糾正問題,同時保持正常服務并最大限度地減少對業務的影響。
IT 事件管理
公司 IT 運營中的事件管理(通常稱為ITIL事件管理)解決了可能影響服務和業務運營的范圍廣泛的問題,從筆記本電腦崩潰或打印機錯誤到 Wi-Fi 連接問題和網絡停機。
ITSM(IT服務管理)框架下的事件管理是ITSM服務模型的一個方面。IT 的事件管理不是專注于創建系統和技術,而是更多地以用戶為中心,旨在保持系統在線和運行——無論是應用程序還是端點(例如,傳感器或臺式計算機)。
事件與服務請求
在 ITSM 中,IT 部門扮演著各種角色,包括解決出現的問題。這些問題的嚴重性是事件與服務請求的區別。簡單地說,服務請求就是用戶要求提供某些東西,例如建議或設備。服務可包括請求協助重置密碼或為臺式計算機獲取額外內存。另一方面,事件更為緊急,表明存在需要解決的潛在錯誤。
事件與問題
事件是導致服務中斷的單個計劃外事件,而問題是服務中斷的根本原因,它可以是單個事件,也可以是一系列級聯事件。不同之處在于補救措施以及響應者如何解決問題。事件響應是被動的。IT 部門收到警報并處理事件。但是,在解決問題時,IT 團隊會找出根本原因,然后進行修復。問題管理采取積極主動的方法,查看各種類型的事件和出現的模式,以了解如何預防未來的事件。
DevOps 事件管理
DevOps團隊專注于尋找更有效的方法來構建、測試和部署軟件,這在一定程度上需要快速解決事件。與 ITIL 事件管理一樣,DevOps 事件管理旨在在不中斷運營的情況下解決問題。例如,DevOps 團隊可能會監控較差的平均故障間隔時間 (MTBF) 指標,這可能表明存在需要調查的潛在問題。
由于 DevOps 植根于持續改進,因此非常注重事后分析和透明的無責備文化。目標是提高整體系統性能,更快地解決未來的事件,并防止未來的事件發生。與當今的 IT 團隊一樣,DevOps 可以使用自動配置、事件優先級排序和支持人工智能 (AI) 的根本原因分析工具來確保正常運行時間,首先解決最緊迫的事件,并更快地學習如何修復和預防未來的問題。
事件管理流程
組織通常會創建一個事件管理流程,記錄響應團隊應采取的事件順序。每個人都應該知道哪些工作人員負責處理事件,解決問題所需的時間,何時將事件升級到下一個級別以及如何記錄事件以及解決問題的方式。
定義流程后,事件管理工作流程通常如下所示:
- 識別事件:無論是最終用戶向服務臺提交票證還是自動警報系統將問題通知團隊,響應團隊都需要一種方法來接收系統內的問題報告。
- 記錄事件并對事件進行分類:這包括將報告輸入事件記錄系統并分配優先級,包括應由哪個級別的員工處理。例如,1 級事件通常由經驗不足的新員工處理,而 2 級和 3 級事件的解決難度越來越大,需要最有經驗的響應人員。
- 控制問題:如果是安全事件,響應團隊必須迅速采取行動控制問題,無論是 DDoS 攻擊還是數據泄露。在所有情況下,團隊都必須確保事件不會傳播并進一步影響系統。
- 診斷事件:這是進行故障排除的地方。響應團隊可以使用知識庫或ChatOps工具來建議可能的原因并節省時間。
- 解決事件:一旦確定原因,團隊就會著手解決事件,無論是配置額外的內存還是解決網絡中斷。
- 關閉并審查事件:事后審查是在當今數字環境中提高可靠性和可用性的一個重要方面。這些數據不僅增加了組織的機構知識,而且還可以用于機器學習和支持AI的工具,以幫助更快地識別事件,甚至在可能發生事件時創建通知。
為什么要使用事件管理?
所有組織都需要解決問題和解決事件。這就是他們保持業務運轉的方式。但擁有有效的事件解決工具和團隊也有明顯的好處,這些工具和團隊可以在不對業務造成重大中斷的情況下快速做出反應。這些好處包括:
- 更快地解決問題:事件管理工具、自動化和AIOps幫助團隊識別問題并快速解決問題。這反過來又通過讓團隊專注于核心業務運營而不是持續不斷的救火來提高效率。
- 更好的用戶體驗:當事件在第一時間得到正確修復并且修復速度更快時,它可以提高最終用戶的服務質量。這始于一個清晰且易于使用的服務中斷報告系統,并在處理事件時繼續進行良好的溝通。
- 更高的運營效率:事件響應創建了一個系統,在這個系統中,問題有明確的解決途徑,并有助于隨著時間的推移建立制度知識。這些知識——要么由員工掌握,要么集成到由人工智能驅動的自動化系統中——有助于記錄重要的績效指標(例如,平均解決時間 (MTTR)),有助于確保組織保持高水平的服務。
- 更深入的洞察力:借助有效的事件管理系統,團隊可以更快地解決重大事件并提取洞察力以進行根本原因分析。當團隊成員記錄過去的事件是如何解決的時,他們就開始創建一個劇本來解決未來類似的問題。
- 滿足 SLA:服務級別協議 (SLA) 定義公司需要向客戶提供的服務級別。因此,事件響應和管理在滿足 SLA 中定義的指標和關鍵績效指標 (KPI) 方面發揮著關鍵作用。
事件管理工具和自動化
IT 運營日益復雜,部分原因是組織在日常業務運營中依賴的許多應用程序,這使得事件響應工具和自動化比以往任何時候都更加重要。
以下是一些最常見的事件管理工具:
- 監控工具:幫助識別中斷、觸發警報和診斷事件。監控工具還可以通過釋放 DevOps 團隊來更好地管理軟件生命周期來降低成本。
- 服務臺:用戶提交工單、與服務臺團隊聊天、監控工單進度和執行一些自助服務任務的地方。通常,服務臺通過一個管理系統運行,該系統支持關鍵事件管理任務,例如優先級排序和分類。
- AlOps?平臺:使用日志和歷史數據,AIOps 可以為更好的決策制定、更智能的資源分配和更快的事件響應提供上下文。使用 AIOps 進行事件管理的公司報告稱,IT 成本和 MTTR 降低了 50%。
- VDocumentation:自動記錄環境變化的腳本,使記錄事件以進行事后分析變得容易。例如,團隊可以將 PowerCLI 腳本設置為按月運行以記錄事件以進行更深入的分析。