在過(guò)去十年左右的時(shí)間里,卷積神經(jīng)網(wǎng)絡(luò )(CNN)已被證明在處理各種任務(wù)方面非常有效,包括自然語(yǔ)言處理(NLP)任務(wù)。NLP需要使用計算技術(shù)來(lái)分析或綜合語(yǔ)言,包括書(shū)面和口頭形式。研究人員已成功將CNN應用于若干NLP任務(wù),包括語(yǔ)義分析,搜索查詢(xún)檢索和文本分類(lèi)。

通常,訓練用于文本分類(lèi)任務(wù)的CNN 處理單詞級別的句子,將單個(gè)單詞表示為向量。盡管這種方法可能與人類(lèi)處理語(yǔ)言的方式一致,但最近的研究表明,在角色級別處理句子的CNN也可以取得顯著(zhù)的成果。
字符級分析的一個(gè)關(guān)鍵優(yōu)勢是它們不需要先前的單詞知識。這使CNN更容易適應不同語(yǔ)言并獲得拼寫(xiě)錯誤導致的異常單詞。
過(guò)去的研究表明,不同級別的文本嵌入(即字符,單詞或文檔級別)對于不同類(lèi)型的任務(wù)更有效,但仍然沒(méi)有明確的指導如何選擇正確的嵌入或何時(shí)切換到另一個(gè)??紤]到這一點(diǎn),中國天津工業(yè)大學(xué)的一個(gè)研究小組最近開(kāi)發(fā)了一種新的CNN架構,該架構基于通常用于文本分類(lèi)任務(wù)的表示類(lèi)型。
“我們通過(guò)構建多個(gè)平面,基于多個(gè)表示來(lái)提出CNN的新架構,以便將更多信息轉儲到網(wǎng)絡(luò )中,例如通過(guò)命名實(shí)體識別器或詞性標注工具獲得的文本的不同部分。 ,不同級別的文本嵌入或上下文句子,“研究人員在他們的論文中寫(xiě)道。
由研究人員設計的多代表性CNN(Mr-CNN)模型基于這樣的假設:書(shū)面文本的所有部分(例如名詞,動(dòng)詞等)在分類(lèi)任務(wù)中起關(guān)鍵作用,并且不同的文本嵌入更有效用于不同的目的。他們的模型結合了兩個(gè)關(guān)鍵工具,斯坦福命名實(shí)體識別器(NER)和詞性(POS)標記器。前者是一種在文本中標記事物的語(yǔ)義角色的方法(例如人,公司等); 后者是一種用于將部分語(yǔ)音標簽分配給每個(gè)文本塊(例如,名詞或動(dòng)詞)的技術(shù)。
研究人員使用這些工具預處理句子,獲得原始句子的幾個(gè)子集,每個(gè)子集包含文本中特定類(lèi)型的單詞。然后他們使用子集和完整句子作為他們的Mr-CNN模型的多個(gè)表示。
當使用來(lái)自各種大規模和特定領(lǐng)域數據集的文本對文本分類(lèi)任務(wù)進(jìn)行評估時(shí),Mr-CNN模型獲得了顯著(zhù)的性能,一個(gè)數據集的錯誤率提高了13%,另一個(gè)數據集提高了8%。這表明,文本的多種表示允許網(wǎng)絡(luò )自適應地將注意力集中在最相關(guān)的信息上,從而增強其分類(lèi)能力。
“各種大規模的,特定領(lǐng)域的數據集用于驗證所提出的架構,”研究人員寫(xiě)道。“分析的任務(wù)包括本體文檔分類(lèi),生物醫學(xué)事件分類(lèi)和情感分析,表明學(xué)習將注意力集中在文本的特定表示上的多代表性CNN 可以獲得超過(guò)最先進(jìn)深度神經(jīng)的性能的進(jìn)一步提高網(wǎng)絡(luò )模型。“
在他們未來(lái)的工作中,研究人員計劃研究細粒度特征是否有助于防止訓練數據集的過(guò)度擬合。他們還希望探索其他可以增強對句子特定部分進(jìn)行分析的方法,從而進(jìn)一步提高模型的性能。
