如何保證AIOps的成功實施?

      如何在 IT 監控中建立可持續的 ML/AI 實踐

      隨著越來越多的人在家工作以及 IT 基礎架構的日益復雜,了解利用機器學習 (ML) 和人工智能 (AI) 改進 IT 運營的最佳方法非常重要。ML 和 AI 已承諾給 IT 運營帶來顛覆性變化,許多組織已經決定采用人工智能進行 IT 運營 (AIOps) 或很快采用。然而,實施和部署 AIOps 仍然非常具有挑戰性。在這里,我們想提供一些技巧來確保成功實施 AIOps。

      如何保證AIOps的成功實施?-南華中天

      如何保證 AIOps 的成功實施?

      提示 1:數據是金

      ML 和 AI 都以對數據的渴望而聞名。沒有辦法高估數據對成功實施 AIOps 的重要性。IT 監控工具都包含豐富的設備和事件指標,但數字資產庫存、組織結構和工作流信息等其他數據可以顯著增強 AIOps 的有效性。

      提示 2:數據質量仍然很重要

      就像數據的數量一樣,數據的質量同樣重要。盡管 ML 和 AL 模型比傳統的分析方法更能容忍噪聲,但“garbage in,garbage out”這句老話在大多數情況下仍然成立。虛假的警報、過時的信息和雜亂無章的數據只會帶來更多的混亂而不是清晰。數據質量,例如準確的時間戳和新鮮度,可以為總體 AIOps 旅程奠定良好的基礎。

      技巧 3:區分實時和非實時分析

      組織數據的一個技巧是將實時數據與非實時數據區分開來。與批處理相比,實時分析需要一整套不同的管道來處理,因此一般來說,在存儲、處理和預測方面將實時數據與非實時數據分開是一種很好的做法。當實時數據過時時,可以將其合并為非實時數據,為最新的實時數據留出空間。

      提示 4:特征工程與模型訓練同樣重要

      特征工程是通過附加標簽、應用不同維度的分類或分組、或應用 PCA(主成分分析)等為數據帶來更多結構的工作。雖然特征工程不直接生成預測,但它帶來的結構數據集將極大地影響模型訓練的效率、訓練模型的有效性以及模型的迭代速度。

      如何保證AIOps的成功實施?-南華中天

      提示 5:人類經驗仍然很重要,但需要編纂

      機器學習和人工智能非常強大,但它們并不能取代人類智能。相反,它們的定位是增強人類智能。IT行業積累了大量的最佳實踐,在歷史上曾多次拯救過我們。這種人類知識的最佳實踐一旦被編纂,對于 ML 和 AI 模型來說是學習和放大的寶貴資產。

      技巧 6:從較少的因素開始,逐漸增加復雜性

      許多高級機器學習模型可以考慮大量因素并構建非常復雜的模型。有了這種“超級大國”的便利,人們往往傾向于將盡可能多的數據轉儲到機器中,然后讓機器來處理海量的數據。然而,更多的數據并不總是等于更好的結果。沒有紀律地將數據轉儲到機器模型中只能產生復雜的信號。建議從 PCS 認為最重要的簡單模型和限制因素開始。簡單的模型可以揭示監測的主要趨勢,并且很容易被人腦所理解。通過一小部分因素獲得的洞察力,可以通過添加更多因素或與另一個模型連接以進行更高級的分析來增強模型。

      技巧 7:不要依賴一個模型,而是并行運行多個模型

      沒有一種模型是萬能的。一些模型擅長信息簡化,而另一些模型可能擅長信息增強。不同的模型可以從同一組數據中獲得不同的見解。訓練和部署多個模型有助于提供 360 度數據視圖。不要建立一個包含所有因素的巨型模型,而是建立一個由小模型組成的森林,它們共同可以更強大且更易于管理。

      提示 8:預測很重要,解釋也很重要

      機器模型的一個固有缺點是很難解釋數據之間的因果關系。但是,了解警報和事件的根本原因對于 IT 運營至關重要,而這正是人類智能可以發揮作用的地方。可以為模型迭代輸入人工評論或歷史干預,并使模型越來越可解釋。

      如何保證AIOps的成功實施?-南華中天

      提示 9:不要構建黑盒,而是讓工具具有交互性

      與解釋的主題相關,最好建立一個可以在需要時獲得人工干預的流程,并選擇調整后的前進路徑。經驗豐富的 IT 運營商可以在它們仍然迫在眉睫時挑選一些早期信號,并在可能的情況下建議最佳捷徑。對人類預感增強的大量數據進行機器分析可能是驚人的,應該構建工具來適應這種組合。

      提示 10:數據驅動的思維方式與數據一樣重要

      最后但同樣重要的是,在組織中擁有數據驅動的思維方式對于 AIOps 部署的成功至關重要。圍繞數據從數據生成、存儲、細化到回收建立一個規范的流程將最終保證 AIOps 的成功和持續改進。