近日,由Google主辦的2019 Google物體挑戰賽結果正式揭曉,首次參賽的極鏈科技AI團隊在僅剩兩個(gè)月的時(shí)間下贏(yíng)得一枚金牌。

去年,在MS COCO停止舉辦物體邊框識別的比賽后,Google發(fā)布了自己的第一屆物體識別的比賽,有400多名研究人員和機器學(xué)習研究人員參加。今年,作為ICCV的workshop之一,谷歌在Open Image V5數據集的基礎上推出了第二屆物體比賽,且測試集與第一屆完全相同。
連續兩年Google Open Images - Object Detection Track接棒COCO物體識別比賽,作為計算機視覺(jué)領(lǐng)域的“黃金標準型”,吸引了大量團隊的參與,以獲得在Open Images數據集上的最低的錯誤率,今年也是吸引了560余支隊伍。同時(shí),深度學(xué)習技術(shù)的突破更是使得圖像識別任務(wù)取得令人矚目的巨大進(jìn)步,甚至超過(guò)了人類(lèi)的準確度。
隨著(zhù)深度網(wǎng)絡(luò )解決方案變得越來(lái)越深,越來(lái)越復雜,它們通常受到可用培訓數據量的限制??紤]到這一點(diǎn),為了刺激分析和理解圖像的進(jìn)步,Google公開(kāi)發(fā)布了Open Images數據集。Open Images遵循了PASCAL VOC,ImageNet和COCO的傳統,現已達到前所未有的規模。
作為CV(Computer Vision)領(lǐng)域的熱門(mén)分支,物體識別有著(zhù)廣泛的應用場(chǎng)景,從已經(jīng)十分成熟的車(chē)輛車(chē)牌識別、行人檢測,到近些年來(lái)新興的無(wú)人駕駛所需要的各種目標的識別。隨著(zhù)不斷新增的需求,人們對識別準確率的要求也是水漲船高。2018年ECCV的Open Images Workshop中,谷歌團隊解釋了Open Image物體識別比賽和其他類(lèi)似比賽的區別和具有挑戰性的地方,即擁有更為大量的數據、標簽種類(lèi)、數據分布不均衡、提供標簽從屬關(guān)系信息以及數據標注不絕對完整。相比于COCO,此數據集的多樣性要大得多,并且對最先進(jìn)的實(shí)例識別方法構成了更大的挑戰?;谶@個(gè)數據集, Google號召全球的計算機視覺(jué)領(lǐng)域的科學(xué)精英共同參與,共同朝著(zhù)更復雜的地標檢測計算機視覺(jué)模型邁出巨大的一步。這也是目前最大、最詳盡的公開(kāi)數據。
作為極鏈的明星平臺之一,「金目」用包括物體、場(chǎng)景等各個(gè)維度的識別為用戶(hù)帶來(lái)豐富且十分精準的體驗。當然在其中,物體識別扮演著(zhù)不可或缺的角色。出于對前沿技術(shù)、算法的不斷探索,我們也借由這次比賽,夯實(shí)團隊在物體識別上的能力。
針對本次比賽數據分布極為不均衡,我們對數量較少的標簽進(jìn)行了數據增廣。在算法框架的選擇上,目前Two stage的物體識別算法相比One stage在準確度上有較為明顯的優(yōu)勢,而Cascade RCNN算法更是當下各個(gè)物體比賽的熱門(mén)選擇。不過(guò)Cascade級聯(lián)的方式也導致了速度的下降,并不適用于實(shí)際場(chǎng)景??紤]到自身平臺的實(shí)際應用場(chǎng)景,我們選擇了速度更快也更為經(jīng)典的Faster-RCNN。接下來(lái)是Backbone,當下大量針對比賽的選擇基本趨于更深和更復雜的算法,比如為Fackbook創(chuàng )造Imagenet 84.5%(Top1)準確率的ResNeXt101(32x48d)、SENet等等。而這類(lèi)模型有個(gè)共同的特點(diǎn),非常的龐大,對訓練和測試的時(shí)間也都有較大的增加。此外,為了達到更高的準確率,參賽者們更傾向于訓練不同框架、不同Backbone的算法,通常為6個(gè)甚至更多,最后進(jìn)行融合。這對整體的效率、性能的影響也是可想而知的。而比賽是為了更好地改善算法或技術(shù)的實(shí)際落地效果?;谶@個(gè)初衷,我們僅選擇了ResNeXt-101(64x4d)和ResNet-152這兩個(gè)相對更平衡的Backbone。在測試階段,用了多尺度測試以及內部各個(gè)周期的結果融合。此外,我們利用SoftNMS對兩個(gè)算法的結果進(jìn)行了融合得到了最終的結果。
極鏈科技作為全球視聯(lián)網(wǎng)-視頻商業(yè)操作系統的構建者,堅持以AI技術(shù)賦能視頻中的信息,鏈接互聯(lián)網(wǎng)信息、服務(wù)、購物、社交、游戲五大模式,實(shí)現基于視頻的新互聯(lián)網(wǎng)經(jīng)濟體與客戶(hù)價(jià)值倍增。這次對Google AI Open Images - Object Detection Track競賽的實(shí)踐,是極鏈科技「金目」系統視頻識別物體算法領(lǐng)域的優(yōu)化,也是為了更好的支持視聯(lián)網(wǎng)的服務(wù)與賦能。未來(lái),極鏈也將持續探索前沿領(lǐng)域的技術(shù)突破,促進(jìn)人工智能生態(tài)圈的持續快速發(fā)展。
