為什么將AI注入到IT運營(yíng)中比數據本身更多的是數據

2020-07-07 13:34:05    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻

我與之交談的幾乎每個(gè)CIO都大膽地宣稱(chēng)他們的企業(yè)是“數據驅動(dòng)的企業(yè)”。但是,畢馬威會(huì )計師事務(wù)所(KPMG)最近進(jìn)行的 全球CEO前景 調查卻截然不同:全球67%的CEO(美國的這一數字躍升至78%)表明,他們忽略了由CIO /他們提供的數據驅動(dòng)的分析和預測模型IT團隊,因為這與他們自己的經(jīng)驗相矛盾;他們根據自己的直覺(jué)做出了重大的企業(yè)決策。

忽略了數據驅動(dòng)的見(jiàn)解而遵循直覺(jué)的CEO

為什么將AI注入到IT運營(yíng)中比數據本身更多的是數據

雖然結果有些令人震驚,但可以很容易地解釋它。首先,盡管企業(yè)生產(chǎn)的數據量足夠多,但是數據仍然在業(yè)務(wù)單元,域,平臺和實(shí)現(例如云與私有數據中心)之間非常分散。根據Forrester的說(shuō)法,多達73%的公司數據未用于分析和見(jiàn)解。難怪首席執行官僅使用總數據的27%生成的模型就獲得了可怕的結果!其次,大多數當前的預測模型僅使用歷史數據,而不使用流(實(shí)時(shí))數據。這兩個(gè)重要因素導致預測的準確性不高。首席執行官如果不信任模型,就無(wú)法做出決策,因為他們業(yè)務(wù)的成敗取決于他們做出的決策。

更多數據可以帶來(lái)更好的預測

盡管是IT運營(yíng)使其他企業(yè)AI計劃保持平穩運行,但實(shí)施AI以改善其自身的運營(yíng)速度卻很慢。原因之一是上述數據零散。當向AI / ML模型提供部分數據時(shí),您只會(huì )獲得企業(yè)的部分視圖。另一個(gè)主要原因是因為當前大多數AI / ML實(shí)施都是為了創(chuàng )新,并且通常由BU資助。傳統上,企業(yè)將IT視為成本中心,因此他們不愿意花錢(qián)來(lái)使用AI來(lái)改善運營(yíng)。但是,隨著(zhù)大量的數據,以及當前的大流行病產(chǎn)生了更多的未連接的遠程數據,這種感覺(jué)在開(kāi)始淹沒(méi)Ops團隊時(shí)發(fā)生了變化。IT運營(yíng)團隊正在達到一個(gè)臨界點(diǎn),要處理的數據過(guò)多,這是AI的理想方案。這是AI和ML的最佳選擇。人工智能在大量數據上蓬勃發(fā)展。實(shí)際上,向AI算法饋送的數據越多,模型就越好。

傳統上,IT運營(yíng)團隊多年來(lái)一直監視IT基礎結構監視(ITIM)和網(wǎng)絡(luò )性能監視與診斷(NPMD)層。在過(guò)去的十年中,應用程序性能管理(APM)幫助提高了每個(gè)應用程序的可見(jiàn)性。但是,即使所有這些系統都表明它們正常工作,客戶(hù)仍會(huì )根據位置,連接類(lèi)型(移動(dòng)/互聯(lián)網(wǎng)),所使用的緩存/ CDN提供程序的類(lèi)型等而遇到問(wèn)題?,F代應用程序及其組件的復雜性加載到客戶(hù)視圖中會(huì )使其變得非常復雜。數字體驗監視(DEM)的概念已獲得可見(jiàn)性,可以專(zhuān)門(mén)監視,分析和優(yōu)化客戶(hù)體驗。但是,它們更像是監視工具,而不是診斷工具。

AIOps(IT運營(yíng)中的人工智能)解決方案可以幫助解決此問(wèn)題。一個(gè)好的AIOps解決方案應該能夠從多個(gè)來(lái)源獲取數據,消除噪聲,關(guān)聯(lián)事件序列并基于歷史數據和實(shí)時(shí)數據的組合產(chǎn)生可行的見(jiàn)解。

數據采集

可以說(shuō),這是最重要的一步。不僅需要將歷史數據饋送給AI進(jìn)行模型創(chuàng )建,而且還需要將實(shí)時(shí)數據饋給AI進(jìn)行推理和更新模型。僅像過(guò)去那樣收集日志或SNMP并不能提供企業(yè)的全面情況。收集盡可能多的信息,包括事件,日志,時(shí)間序列數據,應用程序數據,性能數據,利用率數據等。新的基于事件的范式轉移到發(fā)布/訂閱或基于事件的消息傳遞。盡管這些消息非常重要,但它們對于收集實(shí)時(shí)數據以提供企業(yè)的完整視圖并做出準確的預測絕對至關(guān)重要。大多數基于云的系統,無(wú)論是基于容器的還是基于虛擬機的,都通過(guò)API提供大量信息。

收集結構化,半結構化和非結構化數據。盡管現有的BI和分析系統在處理非結構化數據時(shí)遇到困難,但AI還是喜歡它。它可以解析幾乎所有內容,包括音頻,視頻,文本文件,圖像,配置文件,文檔,PDF文件等。

最后,大多數團隊忘記將配置記錄,變更管理系統,CMBD等作為等式的一部分。這對于每天有時(shí)會(huì )推動(dòng)多個(gè)發(fā)布周期的敏捷團隊尤其重要。除非IT運營(yíng)團隊意識到最近的變化,否則他們將浪費大量時(shí)間試圖找出問(wèn)題的根本原因。

數據質(zhì)量和數據攝取

AI存在數據質(zhì)量問(wèn)題。創(chuàng )建AI / ML模型時(shí),“垃圾填埋,垃圾填埋”是非常正確的。您的算法有多好或數據科學(xué)家有多好都無(wú)關(guān)緊要。如果您沒(méi)有提供足夠的質(zhì)量數據,那么您將一無(wú)所獲。當企業(yè)收集大量數據時(shí),它仍然是不完整,不正確和/或不一致的。您還需要收集相鄰和相關(guān)的數據。您可能會(huì )認為它們無(wú)關(guān)緊要,但是對于A(yíng)I使用看似無(wú)關(guān)的數據所能找到的東西,您會(huì )感到驚訝。一個(gè)例子是,當NASA衛星破裂時(shí),IBM的AI工程師和NASA科學(xué)家找到了一種方法,可以利用太陽(yáng)光以98%的準確度來(lái)計算紫外線(xiàn)強度。我最近寫(xiě)了一篇關(guān)于此的文章,可以在這里看到。

如果您與數據科學(xué)家交談,他們會(huì )告訴您他們花了多少時(shí)間準備數據。他們多達80%的時(shí)間用于準備數據,而不是分析數據或創(chuàng )建和微調模型。

數據分類(lèi)和標簽

數據需要正確分類(lèi),分類(lèi)和標記,以便AI / ML從中學(xué)習。對于監督學(xué)習模型尤其如此。在訓練,驗證和調整模型之前,這是重要的一步。標簽的準確性和質(zhì)量是最重要的兩件事。準確性衡量的是標簽與真實(shí)情況之間的接近程度,或與您的企業(yè)事實(shí)和/或實(shí)際條件匹配的程度。質(zhì)量與用于模型的整個(gè)數據集的標注準確性有關(guān)。當您結合使用自動(dòng),外包和內部標簽工作時(shí),尤其如此。所有組都會(huì )在整個(gè)數據集中一致地標記嗎?

數據清理

如果使用偏差數據訓練AI模型,則無(wú)疑會(huì )產(chǎn)生偏差模型。我寫(xiě)了一篇有關(guān)如何避免這種情況并使您的數據失偏的文章。原始數據可能包含隱性偏見(jiàn)信息,例如種族,性別,出身,政治,社會(huì )或其他意識形態(tài)偏見(jiàn)。消除它們的唯一方法是分析不平等并在創(chuàng )建模型之前對其進(jìn)行修復。如果不從數據中消除歧視性做法,該模型將傾向于產(chǎn)生有偏見(jiàn)的結果。

僅當數據來(lái)自經(jīng)驗證,權威,經(jīng)過(guò)驗證和可靠的來(lái)源時(shí),才應包括在內。來(lái)自不可靠來(lái)源的數據應該完全消除,或者在輸入模型時(shí)應給予較低的置信度。另外,通過(guò)控制分類(lèi)精度,可以以最小的增量成本來(lái)大大減少辨別力。這種數據預處理優(yōu)化應集中在控制區分,限制數據集中的失真和保留實(shí)用程序上。

資料儲存庫

考慮到數據的數量,速度和種類(lèi),用于數據存儲和數據管理的傳統現場(chǎng)解決方案不適用于數字本機解決方案。許多公司已采用數據湖解決方案來(lái)解決此問(wèn)題。盡管單個(gè)集中的數據源可以提供幫助,但需要對其進(jìn)行適當的安全保護,管理和定期更新。它應該能夠無(wú)縫處理結構化和非結構化數據。

結論

人工智能需要大量數據。正如我最喜歡的《短路》中的角色Johnny V(基于A(yíng)I的機器人)說(shuō):“我需要更多的輸入……”。如果您的高管要基于此做出重大的企業(yè)決策,請確保為AI提供正確數量和質(zhì)量的數據。如果沒(méi)有,他們將忽略您的模型輸出/建議并做出自己的決定,從而最大程度地降低您的價(jià)值,并最終使您獲得數字化和改善業(yè)務(wù)所需的資金。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。