<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<label id="lfqai"></label>

<p id="lfqai"></p>

物體識別數據集樹(shù)立了世界上最好的視覺(jué)模型

2019-12-31 16:49:59 來(lái)源：作者：

計算機視覺(jué)模型已經(jīng)學(xué)會(huì )了準確地識別照片中的對象，從而使某些對象在某些數據集上的表現優(yōu)于人類(lèi)。但是，當那些相同的物體檢測器在現實(shí)世界中變得松懈時(shí)，它們的性能會(huì )明顯下降，這會(huì )給自動(dòng)駕駛汽車(chē)和其他使用機器視覺(jué)的對安全至關(guān)重要的系統帶來(lái)可靠性方面的擔憂(yōu)。

為了彌合這種性能差距，CSAIL和IBM研究人員組成的團隊著(zhù)手創(chuàng )建一種非常不同的對象識別數據集。它被稱(chēng)為 ObjectNet，是ImageNet上的一部戲，ImageNet是眾包的照片數據庫，負責引發(fā)現代人工智能的繁榮。

與ImageNet具有從Flickr和其他社交媒體網(wǎng)站拍攝的照片不同，ObjectNet具有由付費自由職業(yè)者拍攝的照片。顯示的對象是側面傾斜的，以奇數角度拍攝，并顯示在雜亂的房間中。當在ObjectNet上測試領(lǐng)先的對象檢測模型時(shí)，其準確率從ImageNet上的97%的高位下降到50-55%。

CSAIL研究科學(xué)家Boris Katz表示：“我們創(chuàng )建了這個(gè)數據集來(lái)告訴人們對象識別問(wèn)題仍然是一個(gè)難題。” “我們需要更好，更智能的算法。” Katz和他的同事將在神經(jīng)信息處理系統會(huì )議(NeurIPS)上介紹ObjectNet及其結果。

深度學(xué)習是推動(dòng)AI最新發(fā)展的技術(shù)，它使用人工“神經(jīng)元”層在大量原始數據中查找模式。在訓練了數百至數千個(gè)示例之后，它學(xué)會(huì )在照片中挑選椅子。但是，即使具有數百萬(wàn)個(gè)圖像的數據集也無(wú)法以每個(gè)可能的方向和設置顯示每個(gè)對象，這在模型在現實(shí)生活中遇到這些對象時(shí)也會(huì )造成問(wèn)題。

ObjectNet在另一個(gè)重要方面與常規圖像數據集有所不同：它不包含訓練圖像。大多數數據集都分為用于訓練模型和測試其性能的數據。但是訓練集通常與測試集有著(zhù)細微的相似之處，實(shí)際上使模型在測試時(shí)達到了潛行高峰。

乍看之下，擁有 1400萬(wàn)張圖像的ImageNet看起來(lái)是巨大的。但是，如果不包括訓練集，則其大小可與ObjectNet媲美(50,000張照片)。

研究合著(zhù)者CSAIL和CBMM的研究作者Andrei Barbu說(shuō)：“如果我們想知道算法在現實(shí)世界中的表現如何，我們應該在無(wú)偏見(jiàn)且從未見(jiàn)過(guò)的圖像上對其進(jìn)行測試。” 。

試圖捕獲現實(shí)世界對象的復雜性的數據集

很少有人會(huì )考慮與他們的朋友分享ObjectNet的照片，這就是重點(diǎn)。研究人員從Amazon Mechanical Turk聘請了自由職業(yè)者，為數百張隨機擺放的家用物品拍照。工人們在應用程序上收到了照片分配，并帶有動(dòng)畫(huà)說(shuō)明，告訴他們如何定向分配的對象，從哪個(gè)角度拍攝以及是否將對象擺放在廚房，浴室，臥室或客廳中。

他們希望消除三個(gè)常見(jiàn)的偏見(jiàn)：正面朝上，在標志性位置和高度相關(guān)的設置中顯示的對象，例如廚房中堆疊的盤(pán)子。

花費了三年的時(shí)間來(lái)構思數據集并設計一個(gè)可標準化數據收集過(guò)程的應用程序。研究合著(zhù)者，麻省理工學(xué)院電氣工程與計算機科學(xué)系研究生 David Mayo說(shuō)：“發(fā)現如何以控制各種偏差的方式收集數據是非常棘手的事情。” “我們還必須進(jìn)行實(shí)驗，以確保我們的指示清晰明了，并確保工人確切知道他們的要求。”

收集實(shí)際數據又花了一年的時(shí)間，最后，由于不符合研究人員的要求，所有自由職業(yè)者提交的照片中有一半被丟棄。為了提供幫助，一些工作人員在他們的對象上添加了標簽，將它們放在白色背景上，或者嘗試改善分配給他們拍攝的照片的美觀(guān)性。

許多照片是在美國以外拍攝的，因此，有些物體可能看起來(lái)很陌生。成熟的橘子是綠色的，香蕉的大小不同，衣服的形狀和質(zhì)地也各不相同。

Object Net與ImageNet：領(lǐng)先的對象識別模型的比較

當研究人員在ObjectNet上測試最新的計算機視覺(jué)模型時(shí)，他們發(fā)現ImageNet的性能下降了40-45個(gè)百分點(diǎn)。研究人員說(shuō)，結果表明，物體檢測器仍然難以理解物體是三維的并且可以旋轉并移動(dòng)到新的環(huán)境中。研究合著(zhù)者，IBM研究人員Dan Gutfreund說(shuō)：“這些概念并未內置在現代物體檢測器的體系結構中。”

為了證明ObjectNet很難精確地因為對象的觀(guān)看和定位方式，研究人員允許模型訓練ObjectNet數據的一半，然后再測試其余一半。在同一數據集上進(jìn)行訓練和測試通?？梢蕴岣咝阅?，但是此處的模型僅稍有改善，這表明對象檢測器尚未完全理解現實(shí)世界中對象的存在方式。

自2012年以來(lái)，計算機視覺(jué)模型已逐步改善，當時(shí)名為AlexNet的物體檢測器在年度ImageNet競賽中擊敗了比賽。隨著(zhù)數據集變得越來(lái)越大，性能也得到了提高。

但是研究人員警告說(shuō)，設計更大版本的ObjectNet并增加視角和方向并不一定會(huì )帶來(lái)更好的結果。ObjectNet的目的是激勵研究人員提出下一波革命性技術(shù)，就像ImageNet挑戰最初的啟動(dòng)一樣。

卡茲說(shuō)：“人們?yōu)檫@些檢測器提供了大量數據，但是收益卻在減少。” “您不能從任何角度和每種情況下查看對象。我們希望，這個(gè)新的數據集將產(chǎn)生強大的計算機視覺(jué)，而在現實(shí)世界中不會(huì )出現令人驚訝的故障。”

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<em id="n1r1g"></em>

<thead id="n1r1g"></thead>

<thead id="n1r1g"><delect id="n1r1g"></delect></thead>