目標驅動(dòng)系統模式是人工智能(AGI)的關(guān)鍵嗎?

2020-06-01 10:32:24    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻

自從人工智能誕生以來(lái),研究人員一直試圖通過(guò)讓機器與人類(lèi)玩游戲來(lái)測試機器系統的智能。人們通常認為,人類(lèi)智慧的標志之一是能夠創(chuàng )造性地思考,考慮各種可能性并在制定短期決策時(shí)牢記長(cháng)期目標。如果計算機可以像人類(lèi)一樣玩困難的游戲,那么它們肯定可以處理更復雜的任務(wù)。從1950年代開(kāi)發(fā)的具有早期跳棋功能的機器人到如今具有深層學(xué)習能力的機器人,在象棋,圍棋和DOTA等游戲中甚至可以擊敗世界上最好的玩家,可以找到謎題解決方案的機器的想法早已古老。 AI本身,如果還不算老的話(huà)。

目標驅動(dòng)系統模式是人工智能(AGI)的關(guān)鍵嗎?

因此,組織開(kāi)發(fā)的AI的核心模式之一就是目標驅動(dòng)的系統模式,這是有道理的。像其他AI模式一樣,我們看到這種形式的人工智能用于解決一系列常見(jiàn)問(wèn)題,這些問(wèn)題原本需要人類(lèi)的認知能力。在這種特定模式下,機器要解決的挑戰是找到問(wèn)題的最佳解決方案的需求。問(wèn)題可能是找到穿過(guò)迷宮的路徑,優(yōu)化供應鏈或優(yōu)化駕駛路線(xiàn)和空閑時(shí)間。無(wú)論有什么特殊需求,我們在這里尋找的力量都是通過(guò)反復試驗來(lái)學(xué)習,并確定解決問(wèn)題的最佳方法的想法,即使這不是最顯而易見(jiàn)的。

通過(guò)反復試驗加強學(xué)習

增強學(xué)習是最有趣但使用最少的機器學(xué)習形式之一。 與監督學(xué)習的方法(其中機器通過(guò)人為訓練,具有良好標簽的數據進(jìn)行培訓來(lái)學(xué)習)或無(wú)監督的學(xué)習方法(其中機器嘗試通過(guò)發(fā)現信息集群和其他分組來(lái)學(xué)習)不同,強化學(xué)習嘗試通過(guò)嘗試性學(xué)習來(lái)學(xué)習。錯誤,使用環(huán)境反饋和總體目??標來(lái)迭代成功。

在不使用AI的情況下,組織依靠人類(lèi)來(lái)創(chuàng )建基于程序和基于規則的系統,以指導軟件和硬件系統如何操作。如果計劃和規則在管理資金,員工,時(shí)間和其他資源方面可能有些有效,那么它們就會(huì )變得脆弱而僵化。這些系統僅與人類(lèi)制定的規則一樣強大,并且機器根本沒(méi)有真正在學(xué)習。而是將人的智力納入規則中才能使系統正常工作。

另一方面,目標學(xué)習型AI系統只有很少的規則,需要通過(guò)迭代來(lái)學(xué)習該系統如何獨立工作。這樣,AI可以完全優(yōu)化整個(gè)系統,而不必依賴(lài)于人類(lèi)設定的易碎規則。目標驅動(dòng)的系統已證明其價(jià)值,表明系統找到解決挑戰性問(wèn)題的“隱藏規則”的超強能力。在必須進(jìn)行資源優(yōu)化的領(lǐng)域中,由目標驅動(dòng)的系統多么有用就不足為奇了。

AI可以有效地用于場(chǎng)景模擬和資源優(yōu)化。通過(guò)將這種通用方法應用于學(xué)習,可以將支持AI的系統設置為優(yōu)化特定目標或方案,并找到許多解決方案,其中一些對于他們更具創(chuàng )造力的人類(lèi)同行甚至都不是很明顯。這樣,盡管目標驅動(dòng)的系統模式?jīng)]有像其他模式(例如識別,預測性分析或對話(huà)模式)那樣被廣泛實(shí)施,但在廣泛的行業(yè)中潛力卻是巨大的。

在金融領(lǐng)域,基于強化學(xué)習的目標驅動(dòng)系統正在用于“機器人咨詢(xún)”等用例,“機器人咨詢(xún)”利用學(xué)習來(lái)識別可滿(mǎn)足個(gè)人特定需求的儲蓄和投資計劃。目標驅動(dòng)系統模式的其他應用已用于交通信號燈系統的控制中,從而找到了控制交通信號燈而不引起中斷的最佳方法。供應鏈和物流行業(yè)的其他用途是尋找包裝和交付貨物的最佳方法。進(jìn)一步的用途包括幫助訓練物理機器人,創(chuàng )建使機器人可以運行和跳躍的機制和算法。

目標驅動(dòng)系統甚至被用于電子商務(wù)和廣告中,以找到商品的最佳價(jià)格并自動(dòng)進(jìn)行廣告空間的出價(jià)。目標驅動(dòng)系統甚至在制藥行業(yè)中用于執行蛋白質(zhì)折疊和發(fā)現疾病的新方法和創(chuàng )新方法。這些系統能夠選擇最佳的試劑和反應參數,以獲得所需的產(chǎn)品,從而使其成為復雜而精致的藥物或治療過(guò)程中的資產(chǎn)。

目標驅動(dòng)的系統模式是人工智能(AGI)的關(guān)鍵嗎?

通過(guò)反復試驗學(xué)習的想法很有效,并且可以應用于任何問(wèn)題。值得一提的是,DeepMind是一家將機器變成現實(shí)的組織,該組織可以解決一臺曾經(jīng)被人類(lèi)打敗的機器而無(wú)法解決的問(wèn)題,該組織認為,強化學(xué)習型目標驅動(dòng)系統可能是解鎖機器人最終目標的關(guān)鍵。一臺可以學(xué)到任何東西并完成任何任務(wù)的機器。“一般情報”的概念就像人類(lèi)的大腦一樣。人工智能(AGI)不再像今天所有現實(shí)世界AI系統那樣專(zhuān)注于狹窄的單一學(xué)習任務(wù),而是可以學(xué)習任何任務(wù)并將學(xué)習從一個(gè)領(lǐng)域應用于另一個(gè)領(lǐng)域,而無(wú)需進(jìn)行大量的重新培訓。

深心,該公司在英國成立,并于2014年被Google收購,旨在通過(guò)突破目標驅動(dòng)系統和其他AI模式的能力界限,解決一些最復雜的機器智能問(wèn)題。從專(zhuān)門(mén)為學(xué)習如何與人類(lèi)對手玩Go游戲而專(zhuān)門(mén)設計的AlphaGo開(kāi)始,該公司迅速擴展了AlphaZero,后者可以從頭開(kāi)始學(xué)習任何游戲。以前需要AlphaGo花費幾個(gè)月的時(shí)間來(lái)學(xué)習,現在A(yíng)lphaZero可以使用增強型學(xué)習在短短幾天內完成。從零開(kāi)始,以提高勝率的唯一目標,AlphaZero在所有100款測試游戲中均勝過(guò)AlphaGo。AlphaZero通過(guò)簡(jiǎn)單地對自己玩游戲并通過(guò)反復試驗來(lái)實(shí)現這一目標。通過(guò)這種簡(jiǎn)單的方法,通用學(xué)習系統不僅能夠創(chuàng )建模式,而且本質(zhì)上可以為提供給它的任何輸入設計最佳條件和結果??梢灶A見(jiàn),這成為DeepMind的最高榮耀,也是AI行業(yè)的圣杯。

自然,就像技術(shù)行業(yè)中的人們經(jīng)常使用新技術(shù)一樣,他們將想法轉向可能的實(shí)際應用。AlphaZero是利用當時(shí)可用的最佳技術(shù)創(chuàng )建的,例如機器學(xué)習和應用其他領(lǐng)域,例如神經(jīng)科學(xué)和行為心理學(xué)研究。這些技術(shù)被用于強大的通用學(xué)習算法的開(kāi)發(fā)中,也許我們距離AGI研究的真正突破可能還需要幾年的時(shí)間。

人工智能行業(yè)在機器學(xué)習研究方面處于一個(gè)十字路口。當今使用最廣泛的算法正在解決重要但相對簡(jiǎn)單的問(wèn)題。盡管機器已經(jīng)證明了它們能夠識別圖像,理解語(yǔ)音,查找模式,發(fā)現異常并做出預測的能力,但它們仍依賴(lài)于訓練數據和狹窄的學(xué)習任務(wù)來(lái)以任何精確度完成任務(wù)。在這種情況下,機器學(xué)習非常耗費數據,并且計算量很大。如果您有足夠復雜的學(xué)習任務(wù),則可能需要PB或更多的訓練數據,數十萬(wàn)美元的GPU密集型計算以及數月的訓練。顯然,僅靠暴力手段無(wú)法解決AGI。

目標驅動(dòng)的系統模式雖然今天已成為七個(gè)模式中最少實(shí)施的模式之一,但它可能是掌握數據和計算密集型知識的關(guān)鍵。目標驅動(dòng)的系統越來(lái)越多地在具有實(shí)際用例的項目中實(shí)施。因此,由于其潛在的前景,它是最有趣的模式之一。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。