<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<delect id="83lcc"></delect>

<pre id="83lcc"></pre>

<table id="83lcc"><thead id="83lcc"></thead></table>

<button id="83lcc"><label id="83lcc"></label></button>

<code id="83lcc"></code>

<button id="83lcc"></button>

<big id="83lcc"></big>

隨著(zhù)自然語(yǔ)言處理技術(shù)的改進(jìn) 建議變得越來(lái)越快捷且相關(guān)性更高

2020-01-30 18:00:29 來(lái)源：作者：

在線(xiàn)上擁有數十億本書(shū)，新聞報道和文檔，因此，現在就沒(méi)有比現在更好的閱讀時(shí)機了-如果您有時(shí)間來(lái)篩選所有選項。麻省理工學(xué)院的助理教授賈斯汀·所羅門(mén)說(shuō)：“互聯(lián)網(wǎng)上有很多文字。” “任何有助于切穿所有材料的東西都是非常有用的。”

隨著(zhù)自然語(yǔ)言處理技術(shù)的改進(jìn) 建議變得越來(lái)越快捷且相關(guān)性更高

所羅門(mén)公司最近與麻省理工學(xué)院的IBM Watson AI實(shí)驗室及其位于麻省理工學(xué)院的幾何數據處理小組合作，在神經(jīng)信息處理系統大會(huì )(NeurIPS)上展示了一種用于切入大量文本的新技術(shù)。他們的方法結合了三種流行的文本分析工具-主題建模，單詞嵌入和最佳傳輸-可以提供比流行的用于對文檔進(jìn)行分類(lèi)的基準上的競爭方法更好，更快的結果。

如果算法知道您過(guò)去喜歡什么，它可以?huà)呙钄蛋偃f(wàn)種可能性來(lái)尋找類(lèi)似的東西。隨著(zhù)自然語(yǔ)言處理技術(shù)的改進(jìn)，那些“您可能也喜歡”的建議正在變得越來(lái)越迅速和相關(guān)。

在NeurIPS提出的方法中，一種算法會(huì )根據收藏集中的常用單詞，將書(shū)籍的收藏匯總為主題。然后將每本書(shū)分為5至15個(gè)最重要的主題，并估算每個(gè)主題對本書(shū)的總體貢獻。

隨著(zhù)自然語(yǔ)言處理技術(shù)的改進(jìn) 建議變得越來(lái)越快捷且相關(guān)性更高

為了比較書(shū)籍，研究人員使用了另外兩種工具：?jiǎn)卧~嵌入(一種將單詞轉換為數字列表以反映其在常用用法中的相似性的技術(shù))和最佳傳輸(一種用于計算移動(dòng)物體或數據點(diǎn)的最有效方式的框架) -在多個(gè)目的地中。

單詞嵌入使利用兩次最佳傳輸成為可能：首先比較整個(gè)館藏中的主題，然后在任意兩本書(shū)中比較常見(jiàn)主題的重疊程度。

該技術(shù)在掃描大量書(shū)籍和冗長(cháng)的文檔時(shí)效果特別好。在這項研究中，研究人員提供了弗蘭克·斯托克頓(Frank Stockton)的《大戰辛迪加》的例子，這是一部19世紀的美國小說(shuō)，預言了核武器的興起。如果您正在尋找一本類(lèi)似的書(shū)，則主題模型將有助于識別與其他書(shū)共享的主要主題，在這種情況下，它們是航海，元素和武術(shù)。

但是，僅憑主題模型并不能證明托馬斯·赫x黎(Thomas Huxley)在1863年的演講“ 有機自然的過(guò)去條件 ”是一個(gè)很好的匹配。作家是查爾斯·達爾文(Charles Darwin)進(jìn)化論的擁護者，他的演講充斥著(zhù)化石和沉積物，反映了關(guān)于地質(zhì)學(xué)的新興思想。當赫x黎演講中的主題通過(guò)最佳傳輸方式與斯托克頓的小說(shuō)相匹配時(shí)，就會(huì )出現一些交叉的主題：赫x黎的地理，動(dòng)植物/動(dòng)物主題和知識主題分別與斯托克頓的航海，元素和軍事主題密切相關(guān)。

通過(guò)書(shū)籍的代表性主題而不是單個(gè)單詞對書(shū)籍進(jìn)行建模，可以進(jìn)行高層比較。該研究的主要作者，IBM研究員Mikhail Yurochkin說(shuō)：“如果您要求某人比較兩本書(shū)，他們會(huì )將每一本書(shū)分解為易于理解的概念，然后進(jìn)行比較。”

研究表明，結果是更快，更準確的比較。研究人員在一秒鐘內比較了古騰堡項目數據集中的1,720對書(shū)籍，這比第二好的方法快800倍。

隨著(zhù)自然語(yǔ)言處理技術(shù)的改進(jìn) 建議變得越來(lái)越快捷且相關(guān)性更高

與競爭對手的方法相比，該技術(shù)在準確地對文檔進(jìn)行排序方面也做得更好，例如，按作者對古騰堡數據集中的書(shū)籍進(jìn)行分組，按部門(mén)對亞馬遜上的產(chǎn)品評論以及按運動(dòng)分類(lèi)的BBC體育故事。在一系列可視化中，作者表明，他們的方法可以按類(lèi)型整齊地對文檔進(jìn)行聚類(lèi)。

除了快速，準確地對文檔進(jìn)行分類(lèi)外，該方法還提供了進(jìn)入模型決策過(guò)程的窗口。通過(guò)出現的主題列表，用戶(hù)可以查看模型為何推薦文檔。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<button id="cz8ro"></button>