<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<acronym id="s3pkk"><nav id="s3pkk"></nav></acronym>

<p id="s3pkk"><strong id="s3pkk"></strong></p>

<s id="s3pkk"></s>

<rt id="s3pkk"></rt>

一種用于文本分類(lèi)的多表示卷積神經(jīng)網(wǎng)絡(luò )體系結構

2019-07-15 16:50:44 來(lái)源：作者：

在過(guò)去十年左右的時(shí)間里，卷積神經(jīng)網(wǎng)絡(luò )(CNN)已被證明在處理各種任務(wù)方面非常有效，包括自然語(yǔ)言處理(NLP)任務(wù)。NLP需要使用計算技術(shù)來(lái)分析或綜合語(yǔ)言，包括書(shū)面和口頭形式。研究人員已成功將CNN應用于若干NLP任務(wù)，包括語(yǔ)義分析，搜索查詢(xún)檢索和文本分類(lèi)。

通常，訓練用于文本分類(lèi)任務(wù)的CNN 處理單詞級別的句子，將單個(gè)單詞表示為向量。盡管這種方法可能與人類(lèi)處理語(yǔ)言的方式一致，但最近的研究表明，在角色級別處理句子的CNN也可以取得顯著(zhù)的成果。

字符級分析的一個(gè)關(guān)鍵優(yōu)勢是它們不需要先前的單詞知識。這使CNN更容易適應不同語(yǔ)言并獲得拼寫(xiě)錯誤導致的異常單詞。

過(guò)去的研究表明，不同級別的文本嵌入(即字符，單詞或文檔級別)對于不同類(lèi)型的任務(wù)更有效，但仍然沒(méi)有明確的指導如何選擇正確的嵌入或何時(shí)切換到另一個(gè)?？紤]到這一點(diǎn)，中國天津工業(yè)大學(xué)的一個(gè)研究小組最近開(kāi)發(fā)了一種新的CNN架構，該架構基于通常用于文本分類(lèi)任務(wù)的表示類(lèi)型。

“我們通過(guò)構建多個(gè)平面，基于多個(gè)表示來(lái)提出CNN的新架構，以便將更多信息轉儲到網(wǎng)絡(luò )中，例如通過(guò)命名實(shí)體識別器或詞性標注工具獲得的文本的不同部分。，不同級別的文本嵌入或上下文句子，“研究人員在他們的論文中寫(xiě)道。

由研究人員設計的多代表性CNN(Mr-CNN)模型基于這樣的假設：書(shū)面文本的所有部分(例如名詞，動(dòng)詞等)在分類(lèi)任務(wù)中起關(guān)鍵作用，并且不同的文本嵌入更有效用于不同的目的。他們的模型結合了兩個(gè)關(guān)鍵工具，斯坦福命名實(shí)體識別器(NER)和詞性(POS)標記器。前者是一種在文本中標記事物的語(yǔ)義角色的方法(例如人，公司等); 后者是一種用于將部分語(yǔ)音標簽分配給每個(gè)文本塊(例如，名詞或動(dòng)詞)的技術(shù)。

研究人員使用這些工具預處理句子，獲得原始句子的幾個(gè)子集，每個(gè)子集包含文本中特定類(lèi)型的單詞。然后他們使用子集和完整句子作為他們的Mr-CNN模型的多個(gè)表示。

當使用來(lái)自各種大規模和特定領(lǐng)域數據集的文本對文本分類(lèi)任務(wù)進(jìn)行評估時(shí)，Mr-CNN模型獲得了顯著(zhù)的性能，一個(gè)數據集的錯誤率提高了13%，另一個(gè)數據集提高了8%。這表明，文本的多種表示允許網(wǎng)絡(luò )自適應地將注意力集中在最相關(guān)的信息上，從而增強其分類(lèi)能力。

“各種大規模的，特定領(lǐng)域的數據集用于驗證所提出的架構，”研究人員寫(xiě)道。“分析的任務(wù)包括本體文檔分類(lèi)，生物醫學(xué)事件分類(lèi)和情感分析，表明學(xué)習將注意力集中在文本的特定表示上的多代表性CNN 可以獲得超過(guò)最先進(jìn)深度神經(jīng)的性能的進(jìn)一步提高網(wǎng)絡(luò )模型。“

在他們未來(lái)的工作中，研究人員計劃研究細粒度特征是否有助于防止訓練數據集的過(guò)度擬合。他們還希望探索其他可以增強對句子特定部分進(jìn)行分析的方法，從而進(jìn)一步提高模型的性能。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<p id="khmdp"><form id="khmdp"></form></p>