<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<center id="55e33"><tfoot id="55e33"></tfoot></center>

<sup id="55e33"></sup>

<wbr id="55e33"></wbr>

<wbr id="55e33"></wbr>

在哪里我們看到形狀人工智能看到紋理

2019-08-02 16:19:56 來(lái)源：作者：

你看一只貓的照片時(shí)，你很可能會(huì )認出這只動(dòng)物是生姜還是條紋 - 或圖像是黑白，斑點(diǎn)，磨損還是褪色。你可能也會(huì )發(fā)現寵物被蜷縮在枕頭后面或者以模糊的動(dòng)作跳到臺面上。幾乎在任何情況下，你都會(huì )自然地學(xué)會(huì )識別一只貓。相比之下，由深度神經(jīng)網(wǎng)絡(luò )驅動(dòng)的機器視覺(jué)系統有時(shí)甚至在識別固定條件下的貓時(shí)表現優(yōu)于人類(lèi)，但是甚至有點(diǎn)新奇，嘈雜或顆粒狀的圖像可以完全拋棄這些系統。

德國的一個(gè)研究小組現在發(fā)現了一個(gè)意想不到的原因：當人類(lèi)關(guān)注圖像對象的形狀時(shí)，深度學(xué)習計算機視覺(jué)算法通常會(huì )鎖定對象的紋理。

這一發(fā)現在5月舉行的國際學(xué)習代表大會(huì )上發(fā)表，強調了人與機器“思考”之間的鮮明對比，并說(shuō)明了我們的直覺(jué)如何誤導人工智能。它也可能暗示為什么我們自己的愿景會(huì )以它的方式發(fā)展。

與大象皮膚和飛機的貓由時(shí)鐘制成

例如，深度學(xué)習算法通過(guò)呈現具有數千個(gè)包含或不包含貓的圖像的神經(jīng)網(wǎng)絡(luò )來(lái)工作。系統在該數據中找到模式，然后用它來(lái)決定如何最好地標記它以前從未見(jiàn)過(guò)的圖像。網(wǎng)絡(luò )的架構在人類(lèi)視覺(jué)系統的架構上松散地建模，因為它的連接層讓它從圖像中提取越來(lái)越抽象的特征。但是這個(gè)系統通過(guò)一個(gè)黑盒子過(guò)程使得它能夠通過(guò)黑盒子過(guò)程得到正確的答案，人類(lèi)只能在事后解釋。“我們一直試圖找出導致這些深度學(xué)習計算機視覺(jué)算法成功的原因，以及導致它們脆弱的原因，” Thomas Dietterich說(shuō)道。，俄勒岡州立大學(xué)的計算機科學(xué)家，沒(méi)有參與這項新研究。

為此，一些研究人員更愿意研究當他們通過(guò)修改圖像欺騙網(wǎng)絡(luò )時(shí)會(huì )發(fā)生什么。他們發(fā)現，非常小的變化可能導致系統完全錯誤地標記圖像中的對象 - 而且大的變化有時(shí)可能無(wú)法使系統完全修改其標簽。與此同時(shí)，其他專(zhuān)家通過(guò)網(wǎng)絡(luò )進(jìn)行了回溯，分析了個(gè)體“神經(jīng)元”在圖像中的響應，生成了系統所學(xué)習的特征的“ 激活圖集 ”。

但計算神經(jīng)科學(xué)家Matthias Bethge實(shí)驗室的一組科學(xué)家和德國蒂賓根大學(xué)的心理物理學(xué)家Felix Wichmann采取了更為定性的方法。去年，該團隊報告稱(chēng)，當他們在由特定噪聲降級的圖像上訓練神經(jīng)網(wǎng)絡(luò )時(shí)，在對經(jīng)歷過(guò)相同類(lèi)型失真的新圖像進(jìn)行分類(lèi)時(shí)，它比人類(lèi)更好。但是這些圖像在以稍微不同的方式改變時(shí)，完全欺騙了網(wǎng)絡(luò )，即使新的扭曲看起來(lái)與人類(lèi)的舊扭曲幾乎相同。

為了解釋這個(gè)結果，研究人員想到即使是很小的噪音水平，質(zhì)量變化最大。紋理似乎是明顯的選擇。“如果長(cháng)時(shí)間添加大量噪音，物體的形狀或多或少完好無(wú)損，” Bethge和Wichmann實(shí)驗室的研究生，該研究的第一作者Robert Geirhos說(shuō)。但是“圖像中的局部結構 - 當你添加一點(diǎn)噪音時(shí)會(huì )變得極其扭曲。”因此他們提出了一種巧妙的方法來(lái)測試人類(lèi)和深度學(xué)習系統如何處理圖像。

Geirhos，Bethge和他們的同事創(chuàng )造了包含兩個(gè)相互沖突的線(xiàn)索的圖像，其中一個(gè)物體取自一個(gè)物體，一個(gè)物體取自另一個(gè)物體：例如，用大象皮膚的裂紋灰色紋理著(zhù)色的貓的輪廓，或者制作熊鋁罐，或充滿(mǎn)重疊鐘面的飛機輪廓。提供了數百張這些圖像，人類(lèi)根據它們的形狀 - 貓，熊，飛機 - 幾乎每次都按照預期標記它們。然而，四種不同的分類(lèi)算法傾向于另一種方式，吐出反映物體紋理的標簽：大象，罐頭，時(shí)鐘。

“這正在改變我們對深度前饋神經(jīng)網(wǎng)絡(luò )的理解 - 開(kāi)箱即用，或者他們通常訓練的方式 - 進(jìn)行視覺(jué)識別，” 哥倫比亞大學(xué)計算神經(jīng)科學(xué)家Nikolaus Kriegeskorte說(shuō)，他沒(méi)有參與研究。

奇怪的是人工智能首先看起來(lái)對紋理的偏好可能看起來(lái)很有意義。“你可以把紋理看作一個(gè)精細的形狀，”Kriegeskorte說(shuō)。系統鎖定的精細比例更容易：具有紋理信息的像素數遠遠超過(guò)構成對象邊界的像素數，網(wǎng)絡(luò )的第一步涉及檢測線(xiàn)條和邊緣等局部特征。“這就是紋理，” 多倫多約克大學(xué)的計算視覺(jué)科學(xué)家John Tsotsos說(shuō)，他也沒(méi)有參與新的工作。例如，“所有線(xiàn)段的分組都以相同的方式排列。”

Geirhos和他的同事已經(jīng)證明，這些本地功能足以讓網(wǎng)絡(luò )執行圖像分類(lèi)任務(wù)。事實(shí)上，Bethge和該研究的另一位作者，博士后研究員維蘭德·布倫德?tīng)?Wieland Brendel)在5月的會(huì )議上提交的一篇論文中將這一點(diǎn)推向了家。。在這項工作中，他們構建了一個(gè)深度學(xué)習系統，在深度學(xué)習出現之前就像分類(lèi)算法一樣操作 - 就像一個(gè)“功能包”。它將圖像分割成微小的補丁，就像當前的模型一樣(就像Geirhos那樣)在他的實(shí)驗中使用)最初會(huì )，但是，然后，不是逐步整合這些信息以提取更高級別的功能，而是立即決定每個(gè)小補丁的內容(“這個(gè)補丁包含自行車(chē)的證據，該補丁包含證據一只鳥(niǎo)”)。它只是將這些決定加在一起以確定對象的身份(“更多補丁包含自行車(chē)的證據，因此這是自行車(chē)的圖像”)，而不考慮補丁之間的全局空間關(guān)系。然而它能夠以驚人的準確度識別物體。

Brendel說(shuō)：“這挑戰了深度學(xué)習與先前模型完全不同的假設”。“顯然......有一個(gè)飛躍。我只是建議這種飛躍并不像有些人所希望的那樣。“

根據約克大學(xué)和多倫多大學(xué)的博士后研究員Amir Rosenfeld的說(shuō)法，他們沒(méi)有參與這項研究，但我們認為網(wǎng)絡(luò )應該做的和他們實(shí)際做的事情之間仍存在“巨大的差異”，包括他們的復制情況。人類(lèi)行為。

布倫德?tīng)柋磉_了類(lèi)似的觀(guān)點(diǎn)。他說(shuō)，很容易假設神經(jīng)網(wǎng)絡(luò )將像人類(lèi)一樣解決任務(wù)。“但我們傾向于忘記還有其他方式。”

一個(gè)更加人性化的推動(dòng)

當前的深度學(xué)習方法可以將紋理等局部特征整合到更多的全局模式中，如形狀 “在這些論文中有點(diǎn)令人驚訝的是，并且非常引人注目地證明，雖然架構允許這樣做，但如果你只是訓練它(以對標準圖像進(jìn)行分類(lèi))，它就不會(huì )自動(dòng)發(fā)生，”Kriegeskorte說(shuō)。

Geirhos希望看到當團隊強迫他們的模型忽略紋理時(shí)會(huì )發(fā)生什么。該團隊采用傳統上用于訓練分類(lèi)算法的圖像，并以不同的樣式“繪制”它們，基本上剝離了它們有用的紋理信息。當他們在新圖像上重新訓練每個(gè)深度學(xué)習模型時(shí)，系統開(kāi)始依賴(lài)于更大，更全局的模式，并且表現出更像人類(lèi)的形狀偏差。

當發(fā)生這種情況時(shí)，算法在分類(lèi)噪聲圖像方面也變得更好，即使它們沒(méi)有經(jīng)過(guò)訓練來(lái)處理這些類(lèi)型的失真。“基于形狀的網(wǎng)絡(luò )免費提供更強大的功能，”Geirhos說(shuō)。“這告訴我們，對于特定任務(wù)，只有正確的偏見(jiàn)，在這種情況下，形狀偏差，對于推廣到新穎的設置有很大幫助。”

它還暗示人類(lèi)可能會(huì )自然地產(chǎn)生這種偏見(jiàn)，因為即使在新奇或嘈雜的情況下，形狀也是一種更加健壯的方式來(lái)定義我們所看到的東西。人類(lèi)生活在一個(gè)三維世界中，在許多不同條件下從多個(gè)角度看物體，而我們的其他感官，如觸摸，可以根據需要促進(jìn)物體識別。因此，我們的愿景是優(yōu)先考慮形狀優(yōu)于紋理。(此外，一些心理學(xué)家已經(jīng)表明了語(yǔ)言，學(xué)習和人類(lèi)形態(tài)偏見(jiàn)之間的聯(lián)系：當幼兒接受訓練時(shí)，通過(guò)學(xué)習某些類(lèi)別的單詞來(lái)更多地關(guān)注形狀，他們后來(lái)能夠開(kāi)發(fā)出更大的名詞或對象詞匯量比未接受培訓的孩子多。)

Wichmann說(shuō)，這項工作提醒人們“數據會(huì )產(chǎn)生比我們認為的更多的偏見(jiàn)和影響”。這不是研究人員第一次遇到這個(gè)問(wèn)題：面部識別程序，自動(dòng)招聘算法和其他神經(jīng)網(wǎng)絡(luò )以前已被證明對意外特征給予了太多的重視，因為他們接受訓練的數據存在根深蒂固的偏見(jiàn)。從他們的決策過(guò)程中消除那些不必要的偏見(jiàn)已經(jīng)證明是困難的，但Wichmann說(shuō)新的工作表明它是可能的，他覺(jué)得這是令人鼓舞的。

然而，即使是Geirhos關(guān)注形狀的模型也可能被圖像中的過(guò)多噪聲或特定的像素變化所擊敗 - 這表明它們距離實(shí)現人類(lèi)視覺(jué)還有很長(cháng)的路要走。(同樣，Tsosenos 實(shí)驗室的研究生Rosenfeld，Tsotsos和Markus Solbach 最近也發(fā)表研究表明機器學(xué)習算法不能像人類(lèi)那樣察覺(jué)不同圖像之間的相似性。)不過(guò)，通過(guò)這樣的研究，“你“這些模型尚未捕捉人類(lèi)大腦重要機制的位置，”Kriegeskorte說(shuō)。并且“在某些情況下，”Wichmann說(shuō)，“或許查看數據集更為重要。”

Sanja Fidler多倫多大學(xué)的計算機科學(xué)家沒(méi)有參加這項研究，他同意了。“這取決于我們設計聰明的數據，聰明的任務(wù)，”她說(shuō)。她和她的同事正在研究如何給予神經(jīng)網(wǎng)絡(luò )輔助任務(wù)可以幫助他們完成主要功能。受Geirhos調查結果的啟發(fā)，他們最近訓練了一種圖像分類(lèi)算法，不僅可以識別物體本身，還可以識別哪些像素是其輪廓或形狀的一部分。網(wǎng)絡(luò )在常規對象識別任務(wù)中自動(dòng)變得更好。“只要完成一項任務(wù)，你就會(huì )受到選擇性的關(guān)注，并對許多不同的事情視而不見(jiàn)，”菲德勒說(shuō)。“如果我給你多個(gè)任務(wù)，你可能會(huì )發(fā)現更多的事情，而這可能不會(huì )發(fā)生。這些算法也是如此。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<thead id="yx983"><source id="yx983"><strong id="yx983"></strong></source></thead>

<s id="yx983"><strong id="yx983"></strong></s>

<pre id="yx983"><strike id="yx983"></strike></pre>