在哪里我們看到形狀 人工智能看到紋理

2019-08-02 16:19:56    來(lái)源:    作者:

你看一只貓的照片時(shí),你很可能會(huì )認出這只動(dòng)物是生姜還是條紋 - 或圖像是黑白,斑點(diǎn),磨損還是褪色。你可能也會(huì )發(fā)現寵物被蜷縮在枕頭后面或者以模糊的動(dòng)作跳到臺面上。幾乎在任何情況下,你都會(huì )自然地學(xué)會(huì )識別一只貓。相比之下,由深度神經(jīng)網(wǎng)絡(luò )驅動(dòng)的機器視覺(jué)系統有時(shí)甚至在識別固定條件下的貓時(shí)表現優(yōu)于人類(lèi),但是甚至有點(diǎn)新奇,嘈雜或顆粒狀的圖像可以完全拋棄這些系統。

德國的一個(gè)研究小組現在發(fā)現了一個(gè)意想不到的原因:當人類(lèi)關(guān)注圖像對象的形狀時(shí),深度學(xué)習計算機視覺(jué)算法通常會(huì )鎖定對象的紋理。

這一發(fā)現在5月舉行的國際學(xué)習代表大會(huì )上發(fā)表,強調了人與機器“思考”之間的鮮明對比,并說(shuō)明了我們的直覺(jué)如何誤導人工智能。它也可能暗示為什么我們自己的愿景會(huì )以它的方式發(fā)展。

與大象皮膚和飛機的貓由時(shí)鐘制成

例如,深度學(xué)習算法通過(guò)呈現具有數千個(gè)包含或不包含貓的圖像的神經(jīng)網(wǎng)絡(luò )來(lái)工作。系統在該數據中找到模式,然后用它來(lái)決定如何最好地標記它以前從未見(jiàn)過(guò)的圖像。網(wǎng)絡(luò )的架構在人類(lèi)視覺(jué)系統的架構上松散地建模,因為它的連接層讓它從圖像中提取越來(lái)越抽象的特征。但是這個(gè)系統通過(guò)一個(gè)黑盒子過(guò)程使得它能夠通過(guò)黑盒子過(guò)程得到正確的答案,人類(lèi)只能在事后解釋。“我們一直試圖找出導致這些深度學(xué)習計算機視覺(jué)算法成功的原因,以及導致它們脆弱的原因,” Thomas Dietterich說(shuō)道。,俄勒岡州立大學(xué)的計算機科學(xué)家,沒(méi)有參與這項新研究。

為此,一些研究人員更愿意研究當他們通過(guò)修改圖像欺騙網(wǎng)絡(luò )時(shí)會(huì )發(fā)生什么。他們發(fā)現,非常小的變化可能導致系統完全錯誤地標記圖像中的對象 - 而且大的變化有時(shí)可能無(wú)法使系統完全修改其標簽。與此同時(shí),其他專(zhuān)家通過(guò)網(wǎng)絡(luò )進(jìn)行了回溯,分析了個(gè)體“神經(jīng)元”在圖像中的響應,生成了系統所學(xué)習的特征的“ 激活圖集 ”。

但計算神經(jīng)科學(xué)家Matthias Bethge實(shí)驗室的一組科學(xué)家和德國蒂賓根大學(xué)的心理物理學(xué)家Felix Wichmann采取了更為定性的方法。去年,該團隊報告稱(chēng),當他們在由特定噪聲降級的圖像上訓練神經(jīng)網(wǎng)絡(luò )時(shí),在對經(jīng)歷過(guò)相同類(lèi)型失真的新圖像進(jìn)行分類(lèi)時(shí),它比人類(lèi)更好。但是這些圖像在以稍微不同的方式改變時(shí),完全欺騙了網(wǎng)絡(luò ),即使新的扭曲看起來(lái)與人類(lèi)的舊扭曲幾乎相同。

為了解釋這個(gè)結果,研究人員想到即使是很小的噪音水平,質(zhì)量變化最大。紋理似乎是明顯的選擇。“如果長(cháng)時(shí)間添加大量噪音,物體的形狀或多或少完好無(wú)損,” Bethge和Wichmann實(shí)驗室的研究生,該研究的第一作者Robert Geirhos說(shuō)。但是“圖像中的局部結構 - 當你添加一點(diǎn)噪音時(shí)會(huì )變得極其扭曲。”因此他們提出了一種巧妙的方法來(lái)測試人類(lèi)和深度學(xué)習系統如何處理圖像。

Geirhos,Bethge和他們的同事創(chuàng )造了包含兩個(gè)相互沖突的線(xiàn)索的圖像,其中一個(gè)物體取自一個(gè)物體,一個(gè)物體取自另一個(gè)物體:例如,用大象皮膚的裂紋灰色紋理著(zhù)色的貓的輪廓,或者制作熊鋁罐,或充滿(mǎn)重疊鐘面的飛機輪廓。提供了數百張這些圖像,人類(lèi)根據它們的形狀 - 貓,熊,飛機 - 幾乎每次都按照預期標記它們。然而,四種不同的分類(lèi)算法傾向于另一種方式,吐出反映物體紋理的標簽:大象,罐頭,時(shí)鐘。

“這正在改變我們對深度前饋神經(jīng)網(wǎng)絡(luò )的理解 - 開(kāi)箱即用,或者他們通常訓練的方式 - 進(jìn)行視覺(jué)識別,” 哥倫比亞大學(xué)計算神經(jīng)科學(xué)家Nikolaus Kriegeskorte說(shuō),他沒(méi)有參與研究。

奇怪的是人工智能首先看起來(lái)對紋理的偏好可能看起來(lái)很有意義。“你可以把紋理看作一個(gè)精細的形狀,”Kriegeskorte說(shuō)。系統鎖定的精細比例更容易:具有紋理信息的像素數遠遠超過(guò)構成對象邊界的像素數,網(wǎng)絡(luò )的第一步涉及檢測線(xiàn)條和邊緣等局部特征。“這就是紋理,” 多倫多約克大學(xué)的計算視覺(jué)科學(xué)家John Tsotsos說(shuō),他也沒(méi)有參與新的工作。例如,“所有線(xiàn)段的分組都以相同的方式排列。”

Geirhos和他的同事已經(jīng)證明,這些本地功能足以讓網(wǎng)絡(luò )執行圖像分類(lèi)任務(wù)。事實(shí)上,Bethge和該研究的另一位作者,博士后研究員維蘭德·布倫德?tīng)?Wieland Brendel)在5月的會(huì )議上提交的一篇論文中將這一點(diǎn)推向了家。。在這項工作中,他們構建了一個(gè)深度學(xué)習系統,在深度學(xué)習出現之前就像分類(lèi)算法一樣操作 - 就像一個(gè)“功能包”。它將圖像分割成微小的補丁,就像當前的模型一樣(就像Geirhos那樣)在他的實(shí)驗中使用)最初會(huì ),但是,然后,不是逐步整合這些信息以提取更高級別的功能,而是立即決定每個(gè)小補丁的內容(“這個(gè)補丁包含自行車(chē)的證據,該補丁包含證據一只鳥(niǎo)”)。它只是將這些決定加在一起以確定對象的身份(“更多補丁包含自行車(chē)的證據,因此這是自行車(chē)的圖像”),而不考慮補丁之間的全局空間關(guān)系。然而它能夠以驚人的準確度識別物體。

Brendel說(shuō):“這挑戰了深度學(xué)習與先前模型完全不同的假設”。“顯然......有一個(gè)飛躍。我只是建議這種飛躍并不像有些人所希望的那樣。“

根據約克大學(xué)和多倫多大學(xué)的博士后研究員Amir Rosenfeld的說(shuō)法, 他們沒(méi)有參與這項研究,但我們認為網(wǎng)絡(luò )應該做的和他們實(shí)際做的事情之間仍存在“巨大的差異”,包括他們的復制情況。人類(lèi)行為。

布倫德?tīng)柋磉_了類(lèi)似的觀(guān)點(diǎn)。他說(shuō),很容易假設神經(jīng)網(wǎng)絡(luò )將像人類(lèi)一樣解決任務(wù)。“但我們傾向于忘記還有其他方式。”

一個(gè)更加人性化的推動(dòng)

當前的深度學(xué)習方法可以將紋理等局部特征整合到更多的全局模式中,如形狀 “在這些論文中有點(diǎn)令人驚訝的是,并且非常引人注目地證明,雖然架構允許這樣做,但如果你只是訓練它(以對標準圖像進(jìn)行分類(lèi)),它就不會(huì )自動(dòng)發(fā)生,”Kriegeskorte說(shuō)。

Geirhos希望看到當團隊強迫他們的模型忽略紋理時(shí)會(huì )發(fā)生什么。該團隊采用傳統上用于訓練分類(lèi)算法的圖像,并以不同的樣式“繪制”它們,基本上剝離了它們有用的紋理信息。當他們在新圖像上重新訓練每個(gè)深度學(xué)習模型時(shí),系統開(kāi)始依賴(lài)于更大,更全局的模式,并且表現出更像人類(lèi)的形狀偏差。

當發(fā)生這種情況時(shí),算法在分類(lèi)噪聲圖像方面也變得更好,即使它們沒(méi)有經(jīng)過(guò)訓練來(lái)處理這些類(lèi)型的失真。“基于形狀的網(wǎng)絡(luò )免費提供更強大的功能,”Geirhos說(shuō)。“這告訴我們,對于特定任務(wù),只有正確的偏見(jiàn),在這種情況下,形狀偏差,對于推廣到新穎的設置有很大幫助。”

它還暗示人類(lèi)可能會(huì )自然地產(chǎn)生這種偏見(jiàn),因為即使在新奇或嘈雜的情況下,形狀也是一種更加健壯的方式來(lái)定義我們所看到的東西。人類(lèi)生活在一個(gè)三維世界中,在許多不同條件下從多個(gè)角度看物體,而我們的其他感官,如觸摸,可以根據需要促進(jìn)物體識別。因此,我們的愿景是優(yōu)先考慮形狀優(yōu)于紋理。(此外,一些心理學(xué)家已經(jīng)表明了語(yǔ)言,學(xué)習和人類(lèi)形態(tài)偏見(jiàn)之間的聯(lián)系:當幼兒接受訓練時(shí),通過(guò)學(xué)習某些類(lèi)別的單詞來(lái)更多地關(guān)注形狀,他們后來(lái)能夠開(kāi)發(fā)出更大的名詞或對象詞匯量比未接受培訓的孩子多。)

Wichmann說(shuō),這項工作提醒人們“數據會(huì )產(chǎn)生比我們認為的更多的偏見(jiàn)和影響”。這不是研究人員第一次遇到這個(gè)問(wèn)題:面部識別程序,自動(dòng)招聘算法和其他神經(jīng)網(wǎng)絡(luò )以前已被證明對意外特征給予了太多的重視,因為他們接受訓練的數據存在根深蒂固的偏見(jiàn)。從他們的決策過(guò)程中消除那些不必要的偏見(jiàn)已經(jīng)證明是困難的,但Wichmann說(shuō)新的工作表明它是可能的,他覺(jué)得這是令人鼓舞的。

然而,即使是Geirhos關(guān)注形狀的模型也可能被圖像中的過(guò)多噪聲或特定的像素變化所擊敗 - 這表明它們距離實(shí)現人類(lèi)視覺(jué)還有很長(cháng)的路要走。(同樣,Tsosenos 實(shí)驗室的研究生Rosenfeld,Tsotsos和Markus Solbach 最近也發(fā)表研究表明機器學(xué)習算法不能像人類(lèi)那樣察覺(jué)不同圖像之間的相似性。)不過(guò),通過(guò)這樣的研究,“你“這些模型尚未捕捉人類(lèi)大腦重要機制的位置,”Kriegeskorte說(shuō)。并且“在某些情況下,”Wichmann說(shuō),“或許查看數據集更為重要。”

Sanja Fidler多倫多大學(xué)的計算機科學(xué)家沒(méi)有參加這項研究,他同意了。“這取決于我們設計聰明的數據,聰明的任務(wù),”她說(shuō)。她和她的同事正在研究如何給予神經(jīng)網(wǎng)絡(luò )輔助任務(wù)可以幫助他們完成主要功能。受Geirhos調查結果的啟發(fā),他們最近訓練了一種圖像分類(lèi)算法,不僅可以識別物體本身,還可以識別哪些像素是其輪廓或形狀的一部分。網(wǎng)絡(luò )在常規對象識別任務(wù)中自動(dòng)變得更好。“只要完成一項任務(wù),你就會(huì )受到選擇性的關(guān)注,并對許多不同的事情視而不見(jiàn),”菲德勒說(shuō)。“如果我給你多個(gè)任務(wù),你可能會(huì )發(fā)現更多的事情,而這可能不會(huì )發(fā)生。這些算法也是如此。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。