世界上最先進(jìn)的視覺(jué)AI模型確實(shí)無(wú)法正確識別其中98%的照片

2019-07-26 15:02:32    來(lái)源:人工智能網(wǎng)    作者:

對人類(lèi)而言,這些答案顯而易見(jiàn)。然而,世界上最強大的圖像識別人工智能卻還無(wú)法解決上述難題。之所以會(huì )這樣,是因為每一張照片都經(jīng)過(guò)精心挑選,專(zhuān)門(mén)用來(lái)“欺騙”圖像識別技術(shù)。這些照片來(lái)自一套專(zhuān)門(mén)的數據集,其中的7000張照片由加州大學(xué)伯克利分校、華盛頓大學(xué)以及芝加哥大學(xué)的研究人員們共同整理完成。

加州大學(xué)伯克利分校計算機科學(xué)博士生、論文作者Dan Hendrycks表示:“目前的(機器學(xué)習)模型還不夠完善。雖然已經(jīng)有不少研究嘗試利用人工數據提升模型的能力,但我們發(fā)現,這些模型在面對某些真實(shí)數據(來(lái)自真實(shí)照片)時(shí)往往會(huì )出現嚴重且高度一致的錯誤判斷。

為了解釋這個(gè)問(wèn)題的重要意義,我們首先對圖像識別技術(shù)的發(fā)展做一下回顧。

過(guò)去幾年以來(lái),圖像識別工具已經(jīng)變得越來(lái)越好,識別速度也越來(lái)越快。這在很大程度上要歸功于斯坦福大學(xué)創(chuàng )建的,并且其規模仍在持續拓展的開(kāi)放數據集ImageNet。該數據集目前已經(jīng)包含超過(guò)1400萬(wàn)張照片,每張照片都配有“樹(shù)”、“天空”之類(lèi)的標記。這個(gè)龐大的數據庫成為人工智能重要的訓練素材集合,也可以作為新AI系統的參考基準,用于訓練系統進(jìn)行圖像識別。打個(gè)比方,它就像是一本專(zhuān)供幼兒學(xué)習新單詞的看圖學(xué)話(huà)繪本。目前,利用ImageNet訓練出的人工智能擁有極高的準確率,其物體識別精度可達95%,這一水平已經(jīng)優(yōu)于人類(lèi)的圖像內容分辨效果。

然而,解決這最后5%的準確度缺口是個(gè)巨大的挑戰。自2017年以來(lái),計算機在識別圖像的準確度方面一直比較羸弱。正因為如此,研究人員們才嘗試探索其中的原因——即計算機為什么無(wú)法解析某些特定圖像。

通過(guò)這套新的圖像集合,研究人員們以手工方式搜索Flickr(雅虎旗下的圖片分享網(wǎng)站),尋找可能會(huì )令AI軟件陷入混亂的照片。然后,他們利用由ImageNet數據集訓練而成的AI模型進(jìn)行測試,如果模型確實(shí)無(wú)法識別照片內容,則將其添加到這套名為ImageNet-A的新數據集內(很明顯,這個(gè)名稱(chēng)代表的就是反ImageNet之意)。在識別這7000張照片時(shí),AI的準確度從90%迅速降低至2%。是的,您沒(méi)有看錯,世界上最先進(jìn)的視覺(jué)AI模型確實(shí)無(wú)法正確識別其中98%的照片。

至于A(yíng)I系統為什么無(wú)法理解這些圖像,則是個(gè)相當復雜的問(wèn)題。

目前的AI訓練基本上就是把大量數據投入“黑匣子”當中——換句話(huà)說(shuō),我們只能根據最終結果來(lái)判斷其準確性。比如,如果“黑匣子”見(jiàn)過(guò)足夠多樣的樹(shù)木圖像,它就會(huì )開(kāi)始在新照片中認出樹(shù)木對象,而我們就認為訓練獲得成功(這類(lèi)重復任務(wù)被稱(chēng)為機器學(xué)習)。但問(wèn)題是,我們并不知道AI是依靠哪些指標識別樹(shù)木的——是形狀?顏色?背景?質(zhì)地?還是說(shuō)樹(shù)木具有某種人類(lèi)從未意識到的統一核心幾何樣式?對于這個(gè)問(wèn)題,目前科學(xué)家們也回答不了。

總而言之,AI能力的判斷由結果實(shí)現,而非通過(guò)推理過(guò)程實(shí)現。這意味著(zhù)我們可能會(huì )從AI當中發(fā)現種種令人意想不到的偏見(jiàn),而這又進(jìn)一步影響到AI系統在無(wú)人駕駛汽車(chē)或者刑事司法領(lǐng)域的實(shí)際應用。除此之外,這也意味著(zhù)圖像識別系統并不算是真正實(shí)現的智能化,而更像是一種強大的匹配工具。

構建ImageNet-A數據集,正是為了“欺騙”AI,從而總結為什么這些圖像會(huì )讓系統找不到正確答案。舉例來(lái)說(shuō),當AI錯把一張松鼠的圖片誤認為是海獅時(shí),其缺少深層智慧與推理能力的問(wèn)題就會(huì )被直接暴露出來(lái)。該系統可能僅依賴(lài)于這些動(dòng)物的紋理——而非對象的相對大小或形狀——進(jìn)行識別。Hendrycks表示:“那些需要根據物體形狀才能做出正確判斷的照片,似乎最有可能騙過(guò)AI模型。”

利用ImageNet-A,研究人員們成功從視覺(jué)AI當中找到7000個(gè)盲點(diǎn)。但是,這是否意味著(zhù)可以將這些圖像構建成新的訓練集,從而修復AI模型的這個(gè)大毛病?答案恐怕是否定的。Hendrycks指出,“由于現實(shí)世界中存在著(zhù)大量多樣性與復雜性因素,因此利用這些圖像進(jìn)行訓練可能無(wú)法教會(huì )模型如何真正可靠地管理全方位的視覺(jué)輸入信息。比方說(shuō),也許收集并標記1萬(wàn)億張圖像足以解決一部分模型盲點(diǎn),但當出現新的場(chǎng)景或者環(huán)境發(fā)生變化時(shí),以往修復的各個(gè)盲點(diǎn)可能會(huì )再次暴露出來(lái)。”

換言之,簡(jiǎn)單將更多照片添加到機器學(xué)習數據集當中,無(wú)法解決AI模型在邏輯層面的核心缺陷,畢竟總會(huì )出現計算機之前從未見(jiàn)過(guò)的圖像。那么,研究人員們該如何解決這最后5%的準確性空白?Hendrycks解釋稱(chēng),他們需要在現代機器學(xué)習范圍之外開(kāi)發(fā)出新的方法,從而創(chuàng )建起更加復雜的AI系統。而在他們實(shí)現這一目標之前,人類(lèi)仍然可以繼續保持一點(diǎn)小小的優(yōu)越感——截至當下,AI在某些方面仍無(wú)法與人類(lèi)相匹敵。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。