該AI工具有助于消除計算機視覺(jué)中的偏見(jiàn)

2020-10-06 14:46:27    來(lái)源:新經(jīng)網(wǎng)    作者:阿威

普林斯頓大學(xué)的研究人員開(kāi)發(fā)了一種工具,用于標記用于訓練人工智能(AI)系統的圖像集中的潛在偏差。這項工作是糾正和防止AI系統中普遍存在的偏見(jiàn)的一項較大努力的一部分,該偏見(jiàn)影響了從信貸服務(wù)到法庭判決程序的所有內容。

該AI工具有助于消除計算機視覺(jué)中的偏見(jiàn)

盡管AI系統中偏見(jiàn)的來(lái)源多種多樣,但一個(gè)主要的原因是從在線(xiàn)資源收集的大量圖像中包含的定型圖像,工程師使用這些圖像來(lái)開(kāi)發(fā)計算機視覺(jué),這是AI的一個(gè)分支,允許計算機識別人,物體和動(dòng)作。由于計算機視覺(jué)的基礎是建立在這些數據集上的,因此反映社會(huì )定型觀(guān)念和偏見(jiàn)的圖像會(huì )無(wú)意間影響計算機視覺(jué)模型。

為了從源頭上解決這個(gè)問(wèn)題,普林斯頓視覺(jué)AI實(shí)驗室的研究人員開(kāi)發(fā)了一種開(kāi)源工具,該工具可以自動(dòng)發(fā)現視覺(jué)數據集中的潛在偏差。該工具允許數據集創(chuàng )建者和用戶(hù)在使用圖像收集來(lái)訓練計算機視覺(jué)模型之前糾正代表性不足或刻板印象的問(wèn)題。在相關(guān)工作中,Visual AI Lab的成員發(fā)布了現有方法的比較,這些方法可防止計算機視覺(jué)模型本身出現偏差,并提出了一種新的,更有效的緩解偏差的方法。

第一個(gè)工具稱(chēng)為REVISE(揭示視覺(jué)偏見(jiàn)),它使用統計方法來(lái)檢查數據集的三個(gè)方面:基于對象,基于性別和基于地理位置的潛在偏見(jiàn)或代表性不足。REVISE是一種全自動(dòng)工具,建立在早期工作的基礎上,涉及以需要用戶(hù)更多指導的方式來(lái)過(guò)濾和平衡數據集的圖像。該研究報告于8月24日在虛擬的歐洲計算機視覺(jué)會(huì )議上發(fā)表。

REVISE使用現有的圖像注釋和度量來(lái)評估數據集的內容,例如對象計數,對象和人的共現以及圖像的原產(chǎn)國。在這些測量中,該工具可顯示不同于中值分布的圖案。

例如,在一個(gè)測試的數據集中,REVISE顯示,包括人和花朵在內的圖像在雄性和雌性之間是不同的:雄性更經(jīng)常出現在儀式或會(huì )議上,并帶有花朵,而雌性則傾向于出現在舞臺上或繪畫(huà)中。(分析僅限于反映圖像中出現的人的二元性別的注釋。)

該AI工具有助于消除計算機視覺(jué)中的偏見(jiàn)

一旦該工具揭示了這些差異,“那么,這就是一個(gè)完全無(wú)害的事實(shí),或者是否正在發(fā)生更深層的事情,而這很難自動(dòng)化,”計算機科學(xué)與專(zhuān)業(yè)副教授奧爾加·魯薩科夫斯基(Olga Russakovsky)說(shuō)。視覺(jué)AI實(shí)驗室的調查員。Russakovsky與研究生Angelina Wang和計算機科學(xué)副教授A(yíng)rvind Narayanan共同撰寫(xiě)了該論文。

例如,REVISE顯示,包括飛機,床和比薩餅在內的物體在包含它們的圖像中比在其中一個(gè)數據集中的典型物體更大。這樣的問(wèn)題可能不會(huì )永久保留社會(huì )定型觀(guān)念,但是對于訓練計算機視覺(jué)模型可能會(huì )出現問(wèn)題。作為補救措施,研究人員建議收集飛機圖像,其中還包括山峰,沙漠或天空標簽。

但是,計算機視覺(jué)數據集中全球區域的代表性不足,可能會(huì )導致AI算法出現偏差。與以前的分析一致,研究人員發(fā)現,對于圖像的來(lái)源國(按人口標準化),美國和歐洲國家在數據集中的代表過(guò)多。除此之外,REVISE還顯示,對于來(lái)自世界其他地區的圖像,圖像標題通常不是使用本地語(yǔ)言,這表明其中許多圖像是被游客捕獲的,并可能導致某個(gè)國家/地區的視角偏斜。

Russakovsky說(shuō),專(zhuān)注于對象檢測的研究人員可能會(huì )忽略計算機視覺(jué)的公平性問(wèn)題。她說(shuō):“但是,這種地理分析表明,物體識別仍然可能存在很大的偏見(jiàn)和排他性,并且會(huì )不平等地影響不同的地區和人民。”

共同作者,計算機科學(xué)研究生安吉麗娜·王說(shuō):“直到最近,才對計算機科學(xué)中的數據集收集實(shí)踐進(jìn)行徹底的審查。”她說(shuō),圖片大多是“從互聯(lián)網(wǎng)上抓取的,人們并不總是意識到他們的圖片在[數據集中]被使用。我們應該從更多的人群中收集圖片,但是當我們這樣做時(shí),我們應該小心我們以尊重的方式獲得圖像。”

該AI工具有助于消除計算機視覺(jué)中的偏見(jiàn)

“工具和基準測試是重要的一步……它們使我們能夠在開(kāi)發(fā)初期就抓住這些偏見(jiàn),并重新考慮我們的問(wèn)題設置和假設以及數據收集實(shí)踐,”計算機科學(xué)助理教授Vicente Ordonez-Roman說(shuō)。未參與研究的弗吉尼亞大學(xué)。“在計算機視覺(jué)中,有關(guān)刻板印象的表示和傳播存在一些特定的挑戰。諸如普林斯頓視覺(jué)AI實(shí)驗室所做的工作有助于闡明這些問(wèn)題并引起計算機視覺(jué)界的注意,并提供了緩解這些問(wèn)題的策略。 ”

視覺(jué)AI實(shí)驗室的一項相關(guān)研究對防止計算機視覺(jué)模型學(xué)習可能反映偏差的虛假關(guān)聯(lián)進(jìn)行了研究,這些虛假關(guān)聯(lián)可能會(huì )反映偏差,例如過(guò)度預測活動(dòng)(例如以女性形象烹飪或以男性形象進(jìn)行計算機編程)。視覺(jué)提示(例如,斑馬是黑白的,或者籃球運動(dòng)員經(jīng)常穿著(zhù)球衣)有助于提高模型的準確性,因此在開(kāi)發(fā)有效模型的同時(shí)避免出現問(wèn)題性關(guān)聯(lián)是該領(lǐng)域的重大挑戰。

在6月舉行的虛擬計算機視覺(jué)和模式識別國際國際會(huì )議上提出的研究中,電氣工程專(zhuān)業(yè)的研究生Zeyu Wang及其同事比較了四種緩解計算機視覺(jué)模型偏差的技術(shù)。

他們發(fā)現一種稱(chēng)為對抗訓練或“盲目的公平”的流行技術(shù)損害了圖像識別模型的整體性能。在對抗訓練中,模型無(wú)法考慮有關(guān)受保護變量的信息-在研究中,研究人員使用性別作為測試案例。在團隊的分析中,另一種方法稱(chēng)為域獨立培訓,即“通過(guò)意識進(jìn)行公平”,效果更好。

魯薩科夫斯基說(shuō):“從本質(zhì)上講,這意味著(zhù)我們將針對不同性別進(jìn)行不同的活動(dòng)頻率,是的,這一預測將取決于性別。因此,我們只是接受這一觀(guān)點(diǎn)。”

本文中概述的技術(shù)通過(guò)與其他視覺(jué)提示分開(kāi)考慮受保護的屬性來(lái)減輕潛在的偏見(jiàn)。

王澤宇說(shuō):“我們如何真正解決偏差問(wèn)題是一個(gè)更深層次的問(wèn)題,因為我們當然可以看到它存在于數據本身中。”他說(shuō):“但是在現實(shí)世界中,人們仍然可以在意識到我們的偏見(jiàn)的同時(shí)做出良好的判斷”,并且可以設置計算機視覺(jué)模型以類(lèi)似的方式工作。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。