IT人工智能馴服IT混亂

      與許多其他行業一樣,信息技術 (IT) 正在利用機器學習 (ML) 和人工智能 (AI) 的最新進展來解決 IT 管理領域中存在數十年的問題。歷史可以教給我們很多東西,通過深入研究多年積累的 IT 數據,我們可以找到有意義的見解并用它們來指導未來。然而,在現代 IT 中,典型組織需要監控的設備和服務的絕對數量,計算范式的復雜性;而且,生成的數據量遠遠超過人類能夠掌握的數據量。

      在當前的全球大流行中,擁有可靠的 IT 環境對幾乎所有組織都至關重要。如果前面段落中的內容與您相關,您可能已經聽說過 AI for IT Operations 或“?AIOps?”一詞。作為 IT 基礎設施監控領域的行業領導者,相信有一種系統的方式來設計和實施 AIOps。下圖從我們的數據科學家的角度展示了對 AIOps 的愿景:

      IT人工智能馴服IT混亂-南華中天

      AIOps 的總體主題是從混亂中建立秩序——采用的方法稱為DAPA:蒸餾、分析、預測和行動。

      從噪聲中提取信號

      IT 警報可以來自基礎架構中的任何位置,而且很少有事件僅發出一個警報。設備、服務和應用程序是共生的,一個小小的變化就可能引發數據海嘯。為了最大限度地減少連鎖反應并徹底查看數據,同時仍然能夠從噪聲中識別導入單,可以利用分類、聚類和時間序列分析等算法來更深入地了解每條數據以及它們之間的關系他們。

      基于這種更深入的理解,降噪可以將主要信號從擴展的波中分離出來,并且只顯示重要信息。還可以訓練 ML 或 AI 模型以了解受監控資源的維護模式和季節性變化,從而抑制誤報。

      信號加權是另一種可以應用的分析技能。通過將每個信號與權重相關聯,系統可以按重要性級別對信息進行排序,并將注意力集中在更嚴重的問題上。

      分析混亂以獲得結構

      模型 IT 基礎架構很復雜。在物理基礎設施上可以有多種抽象,例如虛擬化和容器化。一套計算能力的調試和退役可以在幾分鐘甚至幾秒內完成,計算能力的虛擬移動性可以輕松超越服務器集群或數據中心的邊界。

      資源聚類可以從被監控資源的元數據中學習,對資源進行啟發式分類。拓撲發現將進一步連接相關資源,并勾勒出物理資源、虛擬化或業務用例的整體結構。通過應用時間序列分析,Event Correlation可以根據事件的邏輯關系將事件拼接在一起,并以更有條理的方式呈現。

      通過學習過去來預測未來

      當發現某種事件的模式時,因果關系分析可以繞過許多笨拙的分步分類,并指出問題最可能的根本原因。Trending Prediction可以自信地提供預測,并主動提出預防措施。

      以周到的計劃行事

      劇本自動化是 IT 運營的終極夢想。但是,在完全理解問題并仔細評估各種修復的相關性之前,無法實現深思熟慮的解決方案。無需手忙腳亂,解決方案組裝旨在從過去的事件和解決方案中學習,召集相關解決方案并評估每個解決方案或某些解決方案組合的有效性。最后,機器智能和人類智能將在Playbook Automation中融合,并及時執行建議的解決方案。