機器學(xué)習具有巨大的潛力 但必須正確實(shí)施才能使其有用

2019-07-30 14:55:05    來(lái)源:    作者:

機器學(xué)習是一種特殊類(lèi)型的算法,可以從數據中學(xué)習并進(jìn)行預測。當我們從各種來(lái)源收集更多數據時(shí),機器學(xué)習可以使預測更合適。但是,還有一些陷阱需要仔細檢查。

什么是機器學(xué)習?

在深入討論這個(gè)主題之前,了解機器學(xué)習實(shí)際上是非常重要的。它是人工智能的一個(gè)分支,專(zhuān)注于通過(guò)計算學(xué)習和識別所提供數據的模式。它現在用于創(chuàng )建可以在許多復雜算法的幫助下自行決策的機器。

使用機器學(xué)習算法,機器將能夠通過(guò)探索現實(shí)世界獲取知識,了解不同的事物,詢(xún)問(wèn)有關(guān)他們獲得的知識的問(wèn)題等等。這些功能有助于機器思考,理解和同樣,甚至從周?chē)h(huán)境中學(xué)習,找到每個(gè)概念背后的邏輯,預測并相應地做出預測。

機器學(xué)習如何運作

這個(gè)概念實(shí)際上并不是很新的。機器學(xué)習只不過(guò)是一組算法,可以從給定的數據池中學(xué)習并根據它進(jìn)行預測。數據和預測的準確性齊頭并進(jìn),因此有了更多數據,我們可以獲得更準確的預測。

因此,它不需要任何預定義的規則來(lái)管理其操作。這個(gè)概念以連續的方式運作。它會(huì )在一組數據上自動(dòng)應用許多不同類(lèi)型的復雜算法,以獲得更好的結果。這種連續和迭代的循環(huán)有助于仔細分析周?chē)h(huán)境,預測某個(gè)問(wèn)題的正確解決方案,并最終做出正確的決策。

為什么機器學(xué)習如此重要

對此的答案在于幾個(gè)因素,這是使這一概念成功的主要原因。我們來(lái)看看這些因素:

機器學(xué)習中使用的數據

如今,借助于數據庫管理的新技術(shù),可以以更低的成本收集大量數據。使用這些系統的公司不必考慮要保留哪些數據以及應刪除哪些數據。這曾經(jīng)是一個(gè)非常重要的問(wèn)題,因為過(guò)去與當前情況無(wú)關(guān)的數據可能有助于在未來(lái)做出重大決策。但是對于像Hadoop這樣的數據庫系統,數據存儲變得非常容易。這個(gè)龐大的數據庫有助于算法準確地預測決策的結果。

計算進(jìn)步

根據摩爾定律,計算技術(shù)也在逐步推進(jìn)。IBM,NVIDIA等公司正在開(kāi)發(fā)一些創(chuàng )新來(lái)改進(jìn)計算方法。這些進(jìn)步有助于創(chuàng )建以更好的方式處理數據的計算技術(shù)。

復雜的算法

這個(gè)因素完全取決于數據和計算技術(shù)。隨著(zhù)數據管理和計算管理領(lǐng)域的蓬勃發(fā)展,通過(guò)算法探索領(lǐng)域的各種方式也傾向于做同樣的事情。這些算法的主要工作是尋找不同類(lèi)型的模式,分析它們,并為利益相關(guān)者提供重要指導,以便在更短的時(shí)間內做出正確的決策。它還有助于降低做出這些決定所產(chǎn)生的成本。

當這些因素得到優(yōu)化時(shí),它們有助于合成大量數據并將碎片數據編織成一個(gè)來(lái)源。這種綜合信息可以加速未來(lái)結果的表現。Google使用先進(jìn)的計算技術(shù)并具有存儲數據的語(yǔ)料庫。幾十年來(lái),當它在圖像識別方面遇到問(wèn)題時(shí),他們轉而采用機器學(xué)習算法,并在短短幾個(gè)季度內對其進(jìn)行了改進(jìn)。

機器學(xué)習的優(yōu)點(diǎn)

每個(gè)業(yè)務(wù)流程都可以從數據綜合中獲益,因為每個(gè)流程都有不同的部門(mén),這些部門(mén)都有自己的數據集。當這些數據以有意義的方式并在合理的時(shí)間段內連接在一起時(shí),企業(yè)就可以做出正確的決策并進(jìn)一步發(fā)展。

但是,在固定的時(shí)間范圍內,個(gè)人或團體無(wú)法合成這些龐大的數據池。機器學(xué)習是這些領(lǐng)域的佼佼者,因為它是利用隱藏在大數據中的潛在客戶(hù)的理想方式。它可以從無(wú)關(guān)數據的語(yǔ)料庫中提取信息,而人為干預可忽略不計。它在機器上運行,僅由存儲的數據驅動(dòng)。與在新數據到來(lái)時(shí)改變結果的傳統方式不同,機器學(xué)習從數據中學(xué)習并在變化和增長(cháng)的數據集上蓬勃發(fā)展。這是一種發(fā)現隱藏在數據集中的不同模式的方法。

有什么陷阱?

理想情況下,執行這一概念應該會(huì )以指數方式帶來(lái)增長(cháng),但實(shí)際上這一概念也有一些因素可能會(huì )破壞增長(cháng)。這些因素將在下面討論。

黑盒子

算法的一些方法被稱(chēng)為黑盒子,取決于數據的奇異點(diǎn)和對過(guò)程的理解。通常,黑匣子是一種系統或算法,只能根據所采用的輸入和所提供的輸出來(lái)查看。這些算法或系統不提供內部工作或其背后的邏輯的視圖,因此僅提供不透明(黑色)。眾所周知,這些問(wèn)題會(huì )給組織帶來(lái)技術(shù)和文化問(wèn)題。

如果黑盒方法在數據經(jīng)歷重大變化時(shí)表現不佳,那么由于缺乏理解,系統可能處于危險之中。很難解釋為什么模型失敗,它可以大大改變組織的增長(cháng)。

選擇最合適的算法

沒(méi)有主算法用作機器學(xué)習的標準并且知道所有內容,因此算法選擇過(guò)程非常重要。在異常檢測,分割,分析和模式匹配等不同領(lǐng)域,沒(méi)有算法可以完美。

目前有許多算法和許多不同的方法,每種方法都有自己的優(yōu)點(diǎn)和缺點(diǎn),并且有特定的用途。選擇錯誤的算法工具可以增加成本而不是降低成本,因此理解算法的每個(gè)特征并根據環(huán)境使用最佳特征非常重要。解決這個(gè)問(wèn)題的最好方法是一起使用許多不同的算法,讓計算和框架決定使用哪個(gè)算法和何時(shí)使用。

技術(shù)債務(wù)

關(guān)于編程的技術(shù)債務(wù)是指經(jīng)常選擇易于在短期內實(shí)施的代碼而不是最佳整體解決方案的情況。它通常是一種非常糟糕的編程方法,因此代碼可以繼續發(fā)展更深層次的問(wèn)題,這被稱(chēng)為債務(wù)。

這些系統隨著(zhù)時(shí)間的推移會(huì )積累技術(shù)債務(wù),因為它們本質(zhì)上不是自我優(yōu)化的。技術(shù)債務(wù)可以通過(guò)許多不同的方式展示自己,例如管道密集,糾纏,未申報的客戶(hù),隱藏的反饋循環(huán),未使用的數據依賴(lài)性等。它們可能導致混淆和意外結果,并且可能大大降低系統的性能。這可以通過(guò)雇傭數學(xué)家和工程師來(lái)平衡計劃算法以減少這些債務(wù)來(lái)解決。

人類(lèi)的偏見(jiàn)

算法的選擇由人完成,因此可能有偏差。這可能導致選擇不正確的算法的情況。

例如,一個(gè)團隊成員都畢業(yè)于同一所學(xué)校,他們傾向于選擇同一套算法。因此,最好為您的團隊注入不同類(lèi)型的算法,或者將多種不同的算法結合在一起。

未來(lái)是什么?

在新的和不斷發(fā)展的技術(shù)的幫助下,我們的世界正在慢慢地改變自己。機器學(xué)習將通過(guò)在決策過(guò)程中提供足夠的幫助來(lái)指導駕車(chē)到達目的地。它不僅有助于降低公司成本,還可以通過(guò)考慮所有調查和數據來(lái)顯示提高業(yè)務(wù)質(zhì)量的正確方法。它顯示了在未來(lái)提供更好解決方案的有希望的特征。

摘要

機器學(xué)習是一個(gè)吸引了大量關(guān)注的概念,很可能不辜負所有的炒作。它具有很強的變革性,因此可以處理任何業(yè)務(wù)的任何工作流程。任何以正確方式整合此服務(wù)的組織都將獲得顯著(zhù)的收益。然而,了解硬幣的兩面以便正確地整合它也是非常重要的。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。