研究人員發(fā)現基于文本的AI模型容易受到釋義攻擊

2019-06-15 11:18:09    來(lái)源:    作者:

由于自然語(yǔ)言處理(NLP)的進(jìn)步,公司和組織越來(lái)越多地使用AI算法來(lái)執行與文本相關(guān)的任務(wù),例如過(guò)濾垃圾郵件,分析社交媒體帖子和在線(xiàn)評論的情緒,評估簡(jiǎn)歷和檢測假新聞。

但是,我們可以相信這些算法能夠可靠地執行任務(wù)嗎?IBM,亞馬遜和德克薩斯大學(xué)的新研究證明,使用正確的工具,惡意行為者可以攻擊文本分類(lèi)算法并以潛在的惡意方式操縱他們的行為。

今天在斯坦福大學(xué)舉行的SysML AI大會(huì )上展示的這項研究著(zhù)眼于“釋義”攻擊,這一過(guò)程涉及修改輸入文本,以便在不改變其實(shí)際意義的情況下通過(guò)AI算法對其進(jìn)行不同的分類(lèi)。

要了解釋義攻擊是如何工作的,請考慮使用AI算法來(lái)評估電子郵件的文本并將其歸類(lèi)為“垃圾郵件”或“非垃圾郵件”。復述攻擊會(huì )修改垃圾郵件的內容,以便AI對其進(jìn)行分類(lèi)因為“不是垃圾郵件”。同時(shí),對于人類(lèi)讀者來(lái)說(shuō),被篡改的信息與原始信息具有相同的含義。

針對文本模型的對抗性攻擊的挑戰

在過(guò)去幾年中,一些 研究小組 已經(jīng)探討了對抗性攻擊的各個(gè)方面,輸入修改旨在使AI算法對圖像和音頻樣本進(jìn)行錯誤分類(lèi),同時(shí)保留其原始外觀(guān)和聲音給人眼和耳朵。釋義攻擊是相當于這些的文本。攻擊文本模型比篡改計算機視覺(jué)和音頻識別算法要困難得多。

“對于音頻和圖像,你有完全的差異性,” 人工智能研究員兼語(yǔ)言模型專(zhuān)家Stephen Merity說(shuō)。例如,在圖像分類(lèi)算法中,您可以逐漸更改像素的顏色,并觀(guān)察這些修改如何影響模型的輸出。這可以幫助研究人員找到模型中的漏洞。

“文本傳統上難以攻擊。這是離散的。你不能說(shuō)我想要在這句話(huà)中多加10%的'dog'這個(gè)詞。你要么有'狗'這個(gè)詞,要么把它拿出來(lái)。而且你無(wú)法有效地在模型中搜索漏洞,“Merity說(shuō)。“我的想法是,你能聰明地找出機器易受攻擊的地方,并在那個(gè)特定的地方輕推它嗎?”

“對于圖像和音頻,做對抗性擾動(dòng)是有意義的。對于文本來(lái)說(shuō),即使你對摘錄做了一些小改動(dòng) - 比如一兩句話(huà) - 它也可能無(wú)法順利讀給人類(lèi),“IBM的研究員兼今天發(fā)表的研究論文的共同作者Pin-Yu Chen說(shuō)。

創(chuàng )建釋義的例子

過(guò)去關(guān)于對文本模型的對抗性攻擊的工作涉及改變句子中的單個(gè)單詞。雖然這種方法成功地改變了AI算法的輸出,但它經(jīng)常導致修改后的句子聽(tīng)起來(lái)是人為的。陳和他的同事們不僅關(guān)注改變詞語(yǔ),而且還關(guān)注改寫(xiě)句子和以有意義的方式改變更長(cháng)的序列。

“我們正在解釋單詞和句子。這通過(guò)創(chuàng )建在語(yǔ)義上與目標句子類(lèi)似的序列來(lái)為攻擊提供更大的空間。然后我們看看模型是否將它們歸類(lèi)為原始句子,“陳說(shuō)。

研究人員開(kāi)發(fā)了一種算法,可以在句子中找到可以操縱NLP模型行為的最佳變化。“主要的限制是確保文本的修改版本在語(yǔ)義上與原始版本相似。我們開(kāi)發(fā)了一種算法,可以在非常大的空間中搜索單詞和句子,這些修改將對AI模型的輸出產(chǎn)生最大的影響。在該空間中找到最佳對抗性示例非常耗時(shí)。該算法具有計算效率,并且提供了理論上的保證,它是您可以找到的最佳搜索,“IBM研究院的科學(xué)家,該論文的另一位合著(zhù)者Lingfei Wu說(shuō)。

在他們的論文中,研究人員提供了改變情緒分析算法,假新聞檢測器和垃圾郵件過(guò)濾器行為的修改示例。例如,在產(chǎn)品評論中,通過(guò)簡(jiǎn)單地交換句子“定價(jià)也比那里的一些大牌集團便宜”,“價(jià)格比下面的一些大牌更便宜”,評論的情緒是從100%正面變?yōu)?00%負面。

人類(lèi)無(wú)法看到釋義攻擊

釋義攻擊成功的關(guān)鍵在于它們是人類(lèi)難以察覺(jué)的,因為它們保留了原始文本的語(yǔ)境和意義。

“我們將原始段落和修改后的段落給了人類(lèi)評估員,他們很難看到意義上的差異。但對于機器而言,它完全不同,“吳說(shuō)。

Merity指出,釋義攻擊不需要與人類(lèi)完全一致,特別是當他們沒(méi)有預料到機器人篡改文本時(shí)。“人類(lèi)不是嘗試檢測這類(lèi)攻擊的正確級別,因為它們每天都會(huì )處理錯誤的輸入。除了對我們來(lái)說(shuō),錯誤的輸入只是來(lái)自真人的不連貫的句子,“他說(shuō)。“當人們現在看到拼寫(xiě)錯誤時(shí),他們認為這不是一個(gè)安全問(wèn)題。但在不久的將來(lái),它可能是我們必須應對的。“

Merity還指出,釋義和對抗性攻擊將引發(fā)安全風(fēng)險的新趨勢。“許多科技公司依靠自動(dòng)化決策對內容進(jìn)行分類(lèi),實(shí)際上并沒(méi)有涉及人與人之間的互動(dòng)。這使得該過(guò)程容易受到此類(lèi)攻擊,“Merity說(shuō)。“它將與數據泄露同時(shí)發(fā)生,除了我們將發(fā)現邏輯漏洞。”

例如,一個(gè)人可能會(huì )欺騙仇恨言語(yǔ)分類(lèi)器來(lái)批準他們的內容,或利用簡(jiǎn)歷處理模型中的釋義漏洞將他們的工作申請推送到列表的頂部。

“這些類(lèi)型的問(wèn)題將成為一個(gè)新的安全時(shí)代,我擔心公司將花費與安全性一樣少,因為他們專(zhuān)注于自動(dòng)化和可擴展性,”Merity警告說(shuō)。

充分利用技術(shù)

研究人員還發(fā)現,通過(guò)逆轉釋義攻擊,他們可以構建更健壯,更準確的模型。

在生成模型錯誤分類(lèi)的釋義句子之后,開(kāi)發(fā)人員可以使用修改后的句子及其正確的標簽來(lái)重新訓練他們的模型。這將使模型更能抵御釋義攻擊。它還將使它們更準確并概括其功能。

“這是我們在這個(gè)項目中的驚人發(fā)現之一。最初,我們從穩健的角度開(kāi)始。但我們發(fā)現這種方法不僅可以提高穩健性,還可以提高普遍性,“吳說(shuō)。“如果不是攻擊,你只考慮增強模型的最佳方法,釋義是一種非常好的泛化工具,可以提高模型的能力。”

研究人員在對抗訓練之前和之后測試了不同的單詞和句子模型,并且在所有情況下,他們都經(jīng)歷了性能和抗攻擊的穩健性方面的改進(jìn)。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。