什么是AIOps?我們?nèi)绾沃贫ˋIOps策略?

      IT 運營數(shù)據(jù)逐年增長。一些估計表明,IT 運營團隊的平均運營數(shù)據(jù)量每年會增加一倍或三倍。這場洪水的結(jié)果是,IT 團隊正在尋找他們能找到的任何方法來理解所有這些數(shù)據(jù)。許多團隊將 AIOps 作為他們解析和分類所有這些事件的解決方案。AIOps 并不適合每個組織,但它非常適合許多組織。在這篇文章中,我們將討論 AIOps 是什么以及它的承諾。我們還將討論如何制定在您的組織中利用 AIOps 的策略。

      什么是AIOps?我們?nèi)绾沃贫ˋIOps策略?-南華中天

      什么是 AIOps?

      在構(gòu)建 AIOps 策略之前,您首先需要了解 AIOps 到底是什么。從高層次上講,AIOps是使用人工智能來增強 IT 運營。您可能聽說過DevOps 哲學(xué),它試圖通過將開發(fā)和運營團隊融合在一起來釋放速度和質(zhì)量。DevOps 團隊的目標(biāo)是更快地交付更好的軟件。那太棒了!但這是有代價的。正如我們上面提到的,運營活動正在以越來越快的速度擴展。在更多服務(wù)器上運行的更多應(yīng)用程序的更多版本使有關(guān)您的應(yīng)用程序和服務(wù)以及服務(wù)器的數(shù)據(jù)越來越多。

      AIOps 是對這種不斷增長的增長的回應(yīng)。AIOps 建議您可以將這種操作事件的大數(shù)據(jù)方法與機器學(xué)習(xí)相結(jié)合,而不是試圖減少事件的數(shù)量,以消除噪音并專注于對您的業(yè)務(wù)最重要的事件。

      擁有人工智能戰(zhàn)略意味著什么?

      如果您的團隊今天沒有 AI 策略,那么您很可能會在未來幾年內(nèi)開發(fā)一個。人工智能解決了許多傳統(tǒng)上被認(rèn)為相當(dāng)困難的計算問題。人工智能的新用途每天都在出現(xiàn),但經(jīng)典應(yīng)用包括圖像識別和文本解析等。雖然傳統(tǒng)計算側(cè)重于嚴(yán)格的邏輯,但人工智能的現(xiàn)代使用更傾向于模式匹配之類的東西。

      然而,人工智能應(yīng)用程序有一個缺點:它們的計算成本很高。雖然有多種AI 方法,但每種方法的基石都是從一大堆數(shù)據(jù)中訓(xùn)練出一個 AI 模型。AI 計算通常需要專用的專用硬件和大量計算資源,例如 CPU 內(nèi)核和內(nèi)存。確實,當(dāng)今所有主要的云提供商都提供了專用 AI 硬件的選項。你需要一個策略來了解你將如何處理你的 AI 采用。制定人工智能戰(zhàn)略意味著至少要回答以下三個問題:

      • 我們采用人工智能會產(chǎn)生什么商業(yè)價值?
      • 我們將使用哪些數(shù)據(jù)來訓(xùn)練我們的 AI 模型?
      • 我們?nèi)绾沃牢覀兊?AI 模型何時產(chǎn)生了高質(zhì)量的結(jié)果?

      我們?nèi)绾沃贫?AIOps 策略?

      就像我們之前提到的,每個 AI 策略都需要回答至少三個問題。您的 AIOps 策略也不例外。幸運的是,因為我們將這種 AI 參與的范圍限制在 IT 運營,這使得回答這些問題變得更加容易。讓我們來看看它們,在我們進(jìn)行的過程中,我們將對每個問題進(jìn)行更多探索。到最后,您應(yīng)該對如何自己回答這些問題有了一個很好的了解,從而使您能夠很好地制定自己的 AI 策略。

      什么是AIOps?我們?nèi)绾沃贫ˋIOps策略?-南華中天

      采用 AIOps 會產(chǎn)生什么商業(yè)價值?

      這個問題是第一位的,因為它是迄今為止最重要的問題。就像采用任何其他新技術(shù)一樣,您應(yīng)該認(rèn)真思考采用 AIOps 為您的公司帶來的價值。正如我們所指出的,人工智能硬件和采用并不是一項廉價的工作。雖然它無疑是一項很酷的技術(shù),但 AI 就像任何其他類型的軟件應(yīng)用程序一樣。它只回答您知道如何提出的問題,因此您要確保您提出的問題是有價值的。

      采用 AIOps 策略的團隊通常希望消除大量操作事件和日志的噪音。通常,這些集成是由噪音太大且信號不足的運營團隊領(lǐng)導(dǎo)的。他們正在尋找確定哪些事件表明服務(wù)器崩潰或惡意入侵者危害應(yīng)用程序等事情。如果您正在處理此類問題,AIOps 可能非常適合您。但 AIOps 不僅僅是一個更高級的監(jiān)控系統(tǒng)。訓(xùn)練有素的 AIOps 系統(tǒng)可以在故障發(fā)生之前識別出導(dǎo)致故障的模式。同一系統(tǒng)還將識別系統(tǒng)中可能需要查看的奇怪行為。AIOps 模型可以了解哪些事件需要路由到哪個團隊,從而減少冗余和噪音。

      簡而言之,AIOps 策略旨在讓您的運營團隊更有效、更高效。如果這是您的運營團隊可以使用的東西,那么制定 AIOps 策略對您的公司來說可能是一個不錯的舉措。

      我們將使用哪些數(shù)據(jù)來訓(xùn)練我們的 AI 模型?

      這是一大堆人工智能策略失敗的部分。人工智能無疑是很酷的技術(shù),但它的好壞取決于你用來訓(xùn)練它的數(shù)據(jù)。雖然您可以嘗試使用無監(jiān)督機器學(xué)習(xí)等技術(shù)在沒有明確定義的數(shù)據(jù)集的情況下訓(xùn)練機器學(xué)習(xí)模型,但您可能會發(fā)現(xiàn)很難得出高質(zhì)量的結(jié)論。實際上,您需要努力識別用于訓(xùn)練 AI 模型的數(shù)據(jù)。這意味著要花時間手動仔細(xì)研究操作事件和日志并對其進(jìn)行分類。這種工作非常耗時,但需要構(gòu)建一個好的人工智能平臺。

      這是可以提供幫助的地方。AIOps:Autopilot模型利用了 20 年的現(xiàn)有運營數(shù)據(jù)。已經(jīng)完成了對事件進(jìn)行分類的艱苦工作,讓新客戶很容易進(jìn)入并在第一天就開始享受 AIOps 集成的好處。

      如果您不選擇在現(xiàn)有模型上構(gòu)建 AIOps 平臺,請記住您需要大量數(shù)據(jù)來有效地訓(xùn)練模型。一旦你開始訓(xùn)練,訓(xùn)練階段也會有相當(dāng)大的開銷。預(yù)計您還需要一段時間才能準(zhǔn)備好使用新的 AIOps 平臺。

      什么是AIOps?我們?nèi)绾沃贫ˋIOps策略?-南華中天

      我們?nèi)绾沃牢覀兊?AI 模型何時產(chǎn)生高質(zhì)量的結(jié)果?

      機器學(xué)習(xí)的一個典型問題是過度擬合,或者訓(xùn)練一個效果很好的模型——只要它只查看您的樣本數(shù)據(jù)。當(dāng)您制定 AIOps 策略時,您正在尋找的 AI 集成不僅僅適用于您已有的數(shù)據(jù)。畢竟,您不會僅僅為接下來的 6 或 12 個月制定 AIOps 策略。您正在考慮一個更廣泛的時間表,并且您需要您的技術(shù)隨著組織的發(fā)展而發(fā)展。

      調(diào)整 AI 模型的方法是在數(shù)據(jù)上對其進(jìn)行訓(xùn)練,然后在新數(shù)據(jù)上放松。您會很快注意到該模型在某些事情上做得很好,而在某些事情上做得很差。在操作方面,它可能正確識別一些關(guān)鍵事件,但完全錯過了其他事件。所以,你做任何軟件團隊都會做的事情:迭代。正如我們所指出的,迭代 AI 模型意味著收集大量不同的數(shù)據(jù),然后花費 CPU 時間對其進(jìn)行分析以開發(fā)模型。當(dāng)你這樣想時,不斷迭代模型聽起來很痛苦。好消息是,隨著模型的成熟,您將花費更少的時間對其進(jìn)行迭代。

      雖然您可以通過在項目早期識別運營數(shù)據(jù)源來將其中的一些工作推到左側(cè),但您不會遇到所有問題。您的 AIOps 策略應(yīng)包括迭代模型和識別被忽視的數(shù)據(jù)源所花費的時間。此外,您的策略應(yīng)包括定期測試具有新數(shù)據(jù)的模型,以確保模型返回您期望的結(jié)果。您知道您的模型產(chǎn)生高質(zhì)量結(jié)果的唯一方法是定期測試它們。如果沒有這些高質(zhì)量的結(jié)果,您只是在浪費 CPU 周期。

      您的 AIOps 策略是什么?

      到目前為止,您應(yīng)該對基本的 AIOps 策略大綱有了一個很好的了解。你可能不知道每一個細(xì)節(jié)。您可能需要咨詢您的團隊,以確定 AIOps 是否適合您的運營。但是,如果您能回答這三個大問題,那么您就成功了。如果其中一些問題似乎難以回答,可以為您提供幫助。AIOps:Autopilot 平臺簡化了數(shù)據(jù)收集和模型訓(xùn)練。我們擁有數(shù)十年的數(shù)據(jù),并且我們已經(jīng)多次迭代我們的模型。我們已經(jīng)看到了幾乎所有內(nèi)容,因此如果您需要幫助構(gòu)建您的 AIOps 策略,我們很樂意交談。