Google的VideoBERT算法可一次預測未來(lái)的烹飪視頻

2020-03-27 14:49:45    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻

Google LLC今天推出了 VideoBERT,這是一種人工智能,可以觀(guān)看視頻的一部分,并像人類(lèi)一樣推斷未來(lái)幾秒鐘會(huì )發(fā)生的事情。

Google的VideoBERT算法可一次預測未來(lái)的烹飪視頻

要使計算機具備從視覺(jué)場(chǎng)景中理解和得出正確結論的能力,就需要非常復雜的算法。但是,對于Google的研究人員而言,面臨的挑戰不是構建算法,而是找到足夠的數據進(jìn)行訓練。機器學(xué)習模型必須吸收大量信息才能理解甚至是基本概念,并且通常必須手動(dòng)準備信息。

對于VideoBERT來(lái)說(shuō),這是不可行的,因為教授模型如何預測未來(lái)事件需要更多的示例視頻,而這些視頻是Google研究人員可以手工組裝的。他們還必須為每個(gè)剪輯的每個(gè)單獨的幀編寫(xiě)描述,以便AI可以跟蹤正在發(fā)生的事情。因此,團隊提出了一個(gè)替代方案:免費提供的教學(xué)視頻。

Google的VideoBERT算法可一次預測未來(lái)的烹飪視頻

在顯示如何烹飪煎蛋或填充輪胎的視頻中,演示任務(wù)的人通常會(huì )在執行任務(wù)時(shí)解釋每個(gè)步驟,并敘述了研究人員用來(lái)替代他們本應做的逐幀描述否則為AI創(chuàng )建。該團隊編輯了超過(guò)一百萬(wàn)個(gè)剪輯,涵蓋烹飪和園藝等類(lèi)別。然后,他們將他們喂給VideoBERT,以教該模型如何跟蹤常見(jiàn)活動(dòng)的進(jìn)度。

訓練后,該模型被放到以前從未見(jiàn)過(guò)的烹飪錄像上。當視頻片段顯示一碗面粉和可可粉的視頻片段時(shí),VideoBERT巧妙地預測到這些成分將被放入烤箱,變成布朗尼蛋糕或蛋糕。研究人員還設法利用算法的觀(guān)察技巧從視頻中提取食譜,其中廚師解釋了如何烹飪牛排。

Google的VideoBERT算法可一次預測未來(lái)的烹飪視頻

Google開(kāi)發(fā)的訓練VideoBERT的方法最終可以在更嚴重的應用程序中找到用處。例如,如果自動(dòng)駕駛汽車(chē)能夠準確預測未來(lái)幾秒鐘內附近的車(chē)輛的位置,它們可能會(huì )變得更加安全。對于那些在人類(lèi)工人附近操作的無(wú)人機和工業(yè)機器人來(lái)說(shuō),這種遠見(jiàn)也可能是一項重要資產(chǎn)。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。