Google LLC今天推出了新版本的Open Images(其用于人工智能研究的照片數據集),其中添加了數百萬(wàn)個(gè)其他數據點(diǎn),并提供了一個(gè)被稱(chēng)為“本地化敘事”的功能,旨在幫助學(xué)術(shù)項目。

Open Images于2016年首次發(fā)布,其中包含900萬(wàn)張帶有描述性標簽的照片。此類(lèi)數據集在A(yíng)I生態(tài)系統中起著(zhù)重要作用。研究人員使用它們來(lái)開(kāi)發(fā)用于目標識別和自動(dòng)駕駛等任務(wù)的新型機器學(xué)習模型。
除了提供可免費使用的照片外,Open Images還包含數百萬(wàn)條對AI培訓有價(jià)值的注釋。未經(jīng)訓練的神經(jīng)網(wǎng)絡(luò )無(wú)法自行識別照片中的對象,因此需要諸如注釋之類(lèi)的元數據來(lái)了解屏幕上的內容。元數據越詳細,AI可以學(xué)習的越好。
今天發(fā)布的新版本的“開(kāi)放圖像”增加了2350萬(wàn)張“照片級”標簽,這些標簽已經(jīng)過(guò)人類(lèi)驗證,可以對圖像中發(fā)生的事情提供一般描述。該數據庫現在總共有5990萬(wàn)個(gè)這樣的標簽。Google還添加了更多情境注釋?zhuān)?50萬(wàn)個(gè)用于描述照片中人物所執行動(dòng)作的標簽,以及另外391,000個(gè)用于描述對象之間關(guān)系的標簽。
但是,主要亮點(diǎn)是Google的本地化敘述。這些是搜索巨頭開(kāi)發(fā)的一種新型注釋?zhuān)M鸄I模型能夠比舊的注釋方法收集更多有關(guān)圖像的信息。

Google通過(guò)讓人類(lèi)注釋者將鼠標懸停在照片中的每個(gè)對象上并使用自己的文字進(jìn)行描述來(lái)生成本地化的敘事。然后將光標移動(dòng)的記錄與自然語(yǔ)言描述配對,以便每個(gè)單詞都可以與其所應用的對象相關(guān)聯(lián)。谷歌說(shuō),這種方法將使AI模型在Open Images數據集上進(jìn)行訓練時(shí)可以更有效地學(xué)習。
“為了了解這些本地化敘述所代表的更多數據量,鼠標軌跡的總長(cháng)度約為6400公里,如果不停地大聲朗讀,所有敘述都將花費約1.5年的時(shí)間來(lái)聆聽(tīng),” Google研究科學(xué)家Jordi Pont-Tuset在博客文章中進(jìn)行了詳細介紹。

到目前為止,Google已經(jīng)為約500,000個(gè)Open Images文件創(chuàng )建了本地化的敘述。Pont-Tuset寫(xiě)道,此次更新代表著(zhù)“在改善圖像分類(lèi),物體檢測,視覺(jué)關(guān)系檢測和實(shí)例分割的統一注釋方面,邁出了重要的定性和定量步驟。” “我們希望Open Images V6能夠進(jìn)一步刺激人們對真實(shí)場(chǎng)景的理解。”
