微軟表示其AI可以像人們一樣描述圖像

2020-10-15 12:43:28    來(lái)源:新經(jīng)網(wǎng)    作者:艾靜

長(cháng)期以來(lái),AI的目標就是準確地描述圖像,而不僅僅是像笨拙的機器人。谷歌在2016年表示,其人工智能可以為人類(lèi)提供幾乎與人類(lèi)一樣的字幕圖像,準確度達到94%?,F在,微軟表示,它走得更遠:它的研究人員建立了一個(gè)AI系統,甚至比人類(lèi)更準確-以至于現在坐上了榜首的nocaps圖像字幕標桿。微軟聲稱(chēng)其自2015年以來(lái)一直使用的圖像字幕模型要好兩倍。

微軟表示其AI可以像人們一樣描述圖像

盡管這本身就是一個(gè)顯著(zhù)的里程碑,但微軟不僅僅是將這項技術(shù)保留在自己手中?,F在,它作為Azure認知服務(wù)的一部分提供了新的字幕模型,因此任何開(kāi)發(fā)人員都可以將其引入他們的應用程序中。今天,它也可以在Seeing AI中使用,Seeing AI是面向盲人和視障用戶(hù)的Microsoft應用程序,可以描述周?chē)氖澜?。今年下半年,字幕模型還將改善您在PowerPoint中針對Web,Windows和Mac的演示文稿。它還會(huì )在桌面平臺的Word和Outlook中彈出。

Azure AI的CVP Eric Boyd在接受Engadget采訪(fǎng)時(shí)說(shuō):“圖像捕獲是AI中最難的問(wèn)題之一。它不僅代表理解場(chǎng)景中的對象,還包括它們之間的交互方式,以及如何描述它們。”精細的字幕技術(shù)可以為每個(gè)用戶(hù)提供幫助:它使在搜索引擎中查找所需圖像變得更加容易;對于視障用戶(hù),它可以使瀏覽網(wǎng)絡(luò )和軟件變得更加出色。

黃學(xué)冬,微軟技術(shù)研究員,Azure AI認知服務(wù)的首席技術(shù)官。微軟

看到公司吹捧他們的AI研究創(chuàng )新并不少見(jiàn),但是將這些發(fā)現迅速部署到運輸產(chǎn)品中卻很少見(jiàn)。Azure AI認知服務(wù)的CTO Huang Xuedong出于對用戶(hù)的潛在好處,推動(dòng)將其迅速集成到Azure中。他的團隊使用標記有特定關(guān)鍵字的圖像對模型進(jìn)行了訓練,這有助于使它成為大多數AI框架所沒(méi)有的視覺(jué)語(yǔ)言。通常,這些類(lèi)型的模型是使用圖像和完整標題訓練的,這使得模型更難于學(xué)習特定對象的交互方式。

微軟表示其AI可以像人們一樣描述圖像

“視覺(jué)詞匯預訓練本質(zhì)上是訓練系統所需的教育;我們正在嘗試教育這種運動(dòng)記憶,”黃在博客文章中說(shuō)。這就是這種新模型在nocaps基準測試中的優(yōu)勢,該基準測試側重于確定AI可以如何為字幕創(chuàng )建字幕,這些字幕從未見(jiàn)過(guò)。

但是,盡管要打破基準很重要,但微軟新模型的真正考驗將是它在現實(shí)世界中的功能。據博伊德說(shuō),Seeing AI開(kāi)發(fā)人員Saqib Shaik也在自己的盲人手中推動(dòng)了Microsoft的更大可訪(fǎng)問(wèn)性,他說(shuō)這是對他們先前產(chǎn)品的巨大改進(jìn)。既然微軟已經(jīng)設定了一個(gè)新的里程碑,那么有趣的是,看看來(lái)自Google和其他研究人員的競爭模型也將如何競爭。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。