人類(lèi)可以看到一個(gè)物體 - 例如一把椅子 - 并且理解他們所看到的東西,即使它的某些東西發(fā)生變化,例如它的位置。另一方面,計算機無(wú)法做到這一點(diǎn)。它可以學(xué)會(huì )識別椅子,但不一定能識別不同的椅子,或者如果角度發(fā)生變化,甚至不能識別同一把椅子。

“如果我給孩子看一把椅子,他會(huì )知道它是一把椅子,如果我給他看一把不同的椅子,他仍然可以發(fā)現它是一把椅子,”楊明軒說(shuō),他是電氣工程和計算機的助理教授。加州大學(xué)默塞德分校的科學(xué)。“如果我將椅子的角度改變45度,外觀(guān)會(huì )有所不同,但孩子仍然可以識別它。但教電腦看東西是非常困難的。他們非常善于處理數字,但不善于推廣事物。“
楊的目標是改變這一點(diǎn)。他正在開(kāi)發(fā)計算機算法,他希望能夠使用單個(gè)攝像頭為計算機提供檢測,跟蹤和識別物體的能力,包括物品漂移,消失,重新出現或其他物體遮擋物體的場(chǎng)景。目標是在沒(méi)有人為輸入的情況下模擬人類(lèi)的認知。
大多數人可以毫不費力地在各種環(huán)境中定位移動(dòng)物體,因為他們不斷收集有關(guān)他們看到的東西的信息,但這對計算機來(lái)說(shuō)是一個(gè)挑戰。楊希望他正在開(kāi)發(fā)的算法將使計算機能夠做同樣的事情,即不斷收集有關(guān)他們正在跟蹤的對象的信息。
“雖然不可能列舉所有可能的物體外觀(guān)變化,但可以教計算機從各種訓練樣本中插入,從而使機器能夠感知世界,”他說(shuō)。
目前,“對于計算機來(lái)說(shuō),圖像由一長(cháng)串數字組成,”楊說(shuō)。“如果椅子移動(dòng),這兩個(gè)圖像的數字將會(huì )非常不同。我們想要做的是從大量數據中概括所有示例,因此計算機仍然能夠識別它,即使它發(fā)生了變化。我們怎么知道什么時(shí)候有足夠的數據?我們不能涵蓋所有可能性,因此我們試圖根據其功能來(lái)定義“主席”。“
潛在地,能夠“看到”并跟蹤移動(dòng)物體的計算機可以改善視障人士的輔助技術(shù),并且還可以在醫學(xué)中應用,例如定位和跟蹤細胞; 跟蹤昆蟲(chóng)和動(dòng)物的運動(dòng); 用于“智能”建筑的交通建模,以及改進(jìn)機器人的導航和監視。
“對于視障人士來(lái)說(shuō),最重要的是深度和障礙,”楊說(shuō)。“這可以幫助他們看到周?chē)氖澜?。他們不需要看得很遠,只是為了看看它們附近是否有障礙物,兩三英尺遠。例如,計算機程序可能處于拐杖中。相機將能夠創(chuàng )建一個(gè)三維世界并給予他們反饋。計算機可以告訴他們表面不平整,所以他們會(huì )知道或感覺(jué)到他們面前的人或車(chē)。“
楊正在根據2012年獲得的國家科學(xué)基金會(huì )早期職業(yè)發(fā)展(CAREER)獎項進(jìn)行研究。該獎項支持初級教師通過(guò)杰出的研究,優(yōu)秀的教育和教育的整合來(lái)體現教師學(xué)者的作用,并在其組織的使命范圍內進(jìn)行研究。他五年內收到473,797美元。
Yang的項目還包括開(kāi)發(fā)跟蹤算法代碼庫和大型數據集,這些代碼庫將公開(kāi)發(fā)布。該補助金還提供了一個(gè)涉及本科生和研究生的教育部分,重點(diǎn)是鼓勵來(lái)自加利福尼亞中央山谷的代表性不足的少數群體學(xué)習計算機科學(xué)和相關(guān)領(lǐng)域。目標是將計算機視覺(jué)材料整合到本科課程中,以便學(xué)生希望繼續在該領(lǐng)域學(xué)習。
此外,楊正在幫助幾名本科生設計手機視覺(jué)應用程序,并嘗試編寫(xiě)程序,使計算機能夠推斷深度和距離,以及解釋它“看到”的圖像。
“目前還不清楚人類(lèi)視覺(jué)究竟是如何工作的,但解釋視覺(jué)深度感的一種方法是基于人的兩只眼睛和三角函數,”他說(shuō)。“通過(guò)計算點(diǎn)的幾何形狀,我們可以計算出深度。我們一直這樣做,不假思索。但對于計算機來(lái)說(shuō),這仍然很難做到。
“計算機視覺(jué)的圣杯是用圖像或視頻講故事,并讓計算機在某種程度上理解它所看到的內容,”他補充道。“如果你給孩子一個(gè)形象,并讓孩子講故事,那孩子就可以做到。但是如果你要求一個(gè)計算機程序來(lái)做,現在它只能做一些原始的事情。一個(gè)孩子已經(jīng)具有基于圖像講述故事的認知知識,但計算機只是按原樣看待事物,但沒(méi)有任何背景信息。我們希望給計算機一些解釋?zhuān)覀冞€沒(méi)有。
