<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<p id="6t5tc"></p>

<output id="6t5tc"><tfoot id="6t5tc"></tfoot></output>

研究人員發(fā)現基于文本的AI模型容易受到釋義攻擊

2019-06-15 11:18:09 來(lái)源：作者：

由于自然語(yǔ)言處理(NLP)的進(jìn)步，公司和組織越來(lái)越多地使用AI算法來(lái)執行與文本相關(guān)的任務(wù)，例如過(guò)濾垃圾郵件，分析社交媒體帖子和在線(xiàn)評論的情緒，評估簡(jiǎn)歷和檢測假新聞。

但是，我們可以相信這些算法能夠可靠地執行任務(wù)嗎?IBM，亞馬遜和德克薩斯大學(xué)的新研究證明，使用正確的工具，惡意行為者可以攻擊文本分類(lèi)算法并以潛在的惡意方式操縱他們的行為。

今天在斯坦福大學(xué)舉行的SysML AI大會(huì )上展示的這項研究著(zhù)眼于“釋義”攻擊，這一過(guò)程涉及修改輸入文本，以便在不改變其實(shí)際意義的情況下通過(guò)AI算法對其進(jìn)行不同的分類(lèi)。

要了解釋義攻擊是如何工作的，請考慮使用AI算法來(lái)評估電子郵件的文本并將其歸類(lèi)為“垃圾郵件”或“非垃圾郵件”。復述攻擊會(huì )修改垃圾郵件的內容，以便AI對其進(jìn)行分類(lèi)因為“不是垃圾郵件”。同時(shí)，對于人類(lèi)讀者來(lái)說(shuō)，被篡改的信息與原始信息具有相同的含義。

針對文本模型的對抗性攻擊的挑戰

在過(guò)去幾年中，一些研究小組已經(jīng)探討了對抗性攻擊的各個(gè)方面，輸入修改旨在使AI算法對圖像和音頻樣本進(jìn)行錯誤分類(lèi)，同時(shí)保留其原始外觀(guān)和聲音給人眼和耳朵。釋義攻擊是相當于這些的文本。攻擊文本模型比篡改計算機視覺(jué)和音頻識別算法要困難得多。

“對于音頻和圖像，你有完全的差異性，” 人工智能研究員兼語(yǔ)言模型專(zhuān)家Stephen Merity說(shuō)。例如，在圖像分類(lèi)算法中，您可以逐漸更改像素的顏色，并觀(guān)察這些修改如何影響模型的輸出。這可以幫助研究人員找到模型中的漏洞。

“文本傳統上難以攻擊。這是離散的。你不能說(shuō)我想要在這句話(huà)中多加10%的'dog'這個(gè)詞。你要么有'狗'這個(gè)詞，要么把它拿出來(lái)。而且你無(wú)法有效地在模型中搜索漏洞，“Merity說(shuō)。“我的想法是，你能聰明地找出機器易受攻擊的地方，并在那個(gè)特定的地方輕推它嗎?”

“對于圖像和音頻，做對抗性擾動(dòng)是有意義的。對于文本來(lái)說(shuō)，即使你對摘錄做了一些小改動(dòng) - 比如一兩句話(huà) - 它也可能無(wú)法順利讀給人類(lèi)，“IBM的研究員兼今天發(fā)表的研究論文的共同作者Pin-Yu Chen說(shuō)。

創(chuàng )建釋義的例子

過(guò)去關(guān)于對文本模型的對抗性攻擊的工作涉及改變句子中的單個(gè)單詞。雖然這種方法成功地改變了AI算法的輸出，但它經(jīng)常導致修改后的句子聽(tīng)起來(lái)是人為的。陳和他的同事們不僅關(guān)注改變詞語(yǔ)，而且還關(guān)注改寫(xiě)句子和以有意義的方式改變更長(cháng)的序列。

“我們正在解釋單詞和句子。這通過(guò)創(chuàng )建在語(yǔ)義上與目標句子類(lèi)似的序列來(lái)為攻擊提供更大的空間。然后我們看看模型是否將它們歸類(lèi)為原始句子，“陳說(shuō)。

研究人員開(kāi)發(fā)了一種算法，可以在句子中找到可以操縱NLP模型行為的最佳變化。“主要的限制是確保文本的修改版本在語(yǔ)義上與原始版本相似。我們開(kāi)發(fā)了一種算法，可以在非常大的空間中搜索單詞和句子，這些修改將對AI模型的輸出產(chǎn)生最大的影響。在該空間中找到最佳對抗性示例非常耗時(shí)。該算法具有計算效率，并且提供了理論上的保證，它是您可以找到的最佳搜索，“IBM研究院的科學(xué)家，該論文的另一位合著(zhù)者Lingfei Wu說(shuō)。

在他們的論文中，研究人員提供了改變情緒分析算法，假新聞檢測器和垃圾郵件過(guò)濾器行為的修改示例。例如，在產(chǎn)品評論中，通過(guò)簡(jiǎn)單地交換句子“定價(jià)也比那里的一些大牌集團便宜”，“價(jià)格比下面的一些大牌更便宜”，評論的情緒是從100%正面變?yōu)?00%負面。

人類(lèi)無(wú)法看到釋義攻擊

釋義攻擊成功的關(guān)鍵在于它們是人類(lèi)難以察覺(jué)的，因為它們保留了原始文本的語(yǔ)境和意義。

“我們將原始段落和修改后的段落給了人類(lèi)評估員，他們很難看到意義上的差異。但對于機器而言，它完全不同，“吳說(shuō)。

Merity指出，釋義攻擊不需要與人類(lèi)完全一致，特別是當他們沒(méi)有預料到機器人篡改文本時(shí)。“人類(lèi)不是嘗試檢測這類(lèi)攻擊的正確級別，因為它們每天都會(huì )處理錯誤的輸入。除了對我們來(lái)說(shuō)，錯誤的輸入只是來(lái)自真人的不連貫的句子，“他說(shuō)。“當人們現在看到拼寫(xiě)錯誤時(shí)，他們認為這不是一個(gè)安全問(wèn)題。但在不久的將來(lái)，它可能是我們必須應對的。“

Merity還指出，釋義和對抗性攻擊將引發(fā)安全風(fēng)險的新趨勢。“許多科技公司依靠自動(dòng)化決策對內容進(jìn)行分類(lèi)，實(shí)際上并沒(méi)有涉及人與人之間的互動(dòng)。這使得該過(guò)程容易受到此類(lèi)攻擊，“Merity說(shuō)。“它將與數據泄露同時(shí)發(fā)生，除了我們將發(fā)現邏輯漏洞。”

例如，一個(gè)人可能會(huì )欺騙仇恨言語(yǔ)分類(lèi)器來(lái)批準他們的內容，或利用簡(jiǎn)歷處理模型中的釋義漏洞將他們的工作申請推送到列表的頂部。

“這些類(lèi)型的問(wèn)題將成為一個(gè)新的安全時(shí)代，我擔心公司將花費與安全性一樣少，因為他們專(zhuān)注于自動(dòng)化和可擴展性，”Merity警告說(shuō)。

充分利用技術(shù)

研究人員還發(fā)現，通過(guò)逆轉釋義攻擊，他們可以構建更健壯，更準確的模型。

在生成模型錯誤分類(lèi)的釋義句子之后，開(kāi)發(fā)人員可以使用修改后的句子及其正確的標簽來(lái)重新訓練他們的模型。這將使模型更能抵御釋義攻擊。它還將使它們更準確并概括其功能。

“這是我們在這個(gè)項目中的驚人發(fā)現之一。最初，我們從穩健的角度開(kāi)始。但我們發(fā)現這種方法不僅可以提高穩健性，還可以提高普遍性，“吳說(shuō)。“如果不是攻擊，你只考慮增強模型的最佳方法，釋義是一種非常好的泛化工具，可以提高模型的能力。”

研究人員在對抗訓練之前和之后測試了不同的單詞和句子模型，并且在所有情況下，他們都經(jīng)歷了性能和抗攻擊的穩健性方面的改進(jìn)。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<style id="qslua"><acronym id="qslua"><tr id="qslua"></tr></acronym></style>