在線(xiàn)上擁有數十億本書(shū),新聞報道和文檔,因此,現在就沒(méi)有比現在更好的閱讀時(shí)機了-如果您有時(shí)間來(lái)篩選所有選項。麻省理工學(xué)院的助理教授賈斯汀·所羅門(mén)說(shuō):“互聯(lián)網(wǎng)上有很多文字。” “任何有助于切穿所有材料的東西都是非常有用的。”

所羅門(mén)公司最近與麻省理工學(xué)院的IBM Watson AI實(shí)驗室及其位于麻省理工學(xué)院的幾何數據處理小組合作,在神經(jīng)信息處理系統大會(huì )(NeurIPS)上展示了一種用于切入大量文本的新技術(shù)。他們的方法結合了三種流行的文本分析工具-主題建模,單詞嵌入和最佳傳輸-可以提供比流行的用于對文檔進(jìn)行分類(lèi)的基準上的競爭方法更好,更快的結果。
如果算法知道您過(guò)去喜歡什么,它可以?huà)呙钄蛋偃f(wàn)種可能性來(lái)尋找類(lèi)似的東西。隨著(zhù)自然語(yǔ)言處理技術(shù)的改進(jìn),那些“您可能也喜歡”的建議正在變得越來(lái)越迅速和相關(guān)。
在NeurIPS提出的方法中,一種算法會(huì )根據收藏集中的常用單詞,將書(shū)籍的收藏匯總為主題。然后將每本書(shū)分為5至15個(gè)最重要的主題,并估算每個(gè)主題對本書(shū)的總體貢獻。

為了比較書(shū)籍,研究人員使用了另外兩種工具:?jiǎn)卧~嵌入(一種將單詞轉換為數字列表以反映其在常用用法中的相似性的技術(shù))和最佳傳輸(一種用于計算移動(dòng)物體或數據點(diǎn)的最有效方式的框架) -在多個(gè)目的地中。
單詞嵌入使利用兩次最佳傳輸成為可能:首先比較整個(gè)館藏中的主題,然后在任意兩本書(shū)中比較常見(jiàn)主題的重疊程度。
該技術(shù)在掃描大量書(shū)籍和冗長(cháng)的文檔時(shí)效果特別好。在這項研究中,研究人員提供了弗蘭克·斯托克頓(Frank Stockton)的《大戰辛迪加》的例子,這是一部19世紀的美國小說(shuō),預言了核武器的興起。如果您正在尋找一本類(lèi)似的書(shū),則主題模型將有助于識別與其他書(shū)共享的主要主題,在這種情況下,它們是航海,元素和武術(shù)。
但是,僅憑主題模型并不能證明托馬斯·赫x黎(Thomas Huxley)在1863年的演講“ 有機自然的過(guò)去條件 ”是一個(gè)很好的匹配。作家是查爾斯·達爾文(Charles Darwin)進(jìn)化論的擁護者,他的演講充斥著(zhù)化石和沉積物,反映了關(guān)于地質(zhì)學(xué)的新興思想。當赫x黎演講中的主題通過(guò)最佳傳輸方式與斯托克頓的小說(shuō)相匹配時(shí),就會(huì )出現一些交叉的主題:赫x黎的地理,動(dòng)植物/動(dòng)物主題和知識主題分別與斯托克頓的航海,元素和軍事主題密切相關(guān)。
通過(guò)書(shū)籍的代表性主題而不是單個(gè)單詞對書(shū)籍進(jìn)行建模,可以進(jìn)行高層比較。該研究的主要作者,IBM研究員Mikhail Yurochkin說(shuō):“如果您要求某人比較兩本書(shū),他們會(huì )將每一本書(shū)分解為易于理解的概念,然后進(jìn)行比較。”
研究表明,結果是更快,更準確的比較。研究人員在一秒鐘內比較了古騰堡項目數據集中的1,720對書(shū)籍,這比第二好的方法快800倍。

與競爭對手的方法相比,該技術(shù)在準確地對文檔進(jìn)行排序方面也做得更好,例如,按作者對古騰堡數據集中的書(shū)籍進(jìn)行分組,按部門(mén)對亞馬遜上的產(chǎn)品評論以及按運動(dòng)分類(lèi)的BBC體育故事。在一系列可視化中,作者表明,他們的方法可以按類(lèi)型整齊地對文檔進(jìn)行聚類(lèi)。
除了快速,準確地對文檔進(jìn)行分類(lèi)外,該方法還提供了進(jìn)入模型決策過(guò)程的窗口。通過(guò)出現的主題列表,用戶(hù)可以查看模型為何推薦文檔。
