亞馬遜計劃提供大量針對自然語(yǔ)言處理研究的數據樣本。西雅圖公司今天表示,在2019年9月,它將發(fā)布Topical Chat數據集,這是一系列眾包的人類(lèi)對話(huà),提供給參加年度Alexa Prize Socialbot Grand Challenge的團隊。

亞馬遜稱(chēng),Topical Chat數據集包含超過(guò)210,000個(gè)話(huà)語(yǔ)或超過(guò)4,100,000個(gè)單詞,使其成為最大的公共社交對話(huà)和知識數據集之一。每個(gè)語(yǔ)料庫的對話(huà)和對話(huà)輪次與提供給群眾工作者的知識相關(guān)聯(lián),并且所述知識是從與一組實(shí)體相關(guān)的一系列“非結構化”和“松散結構化”的文本資源中收集的。
亞馬遜高級首席科學(xué)家Dilek Hakkani-Tur在博客文章中明確表示,沒(méi)有任何談話(huà)是與Alexa客戶(hù)的互動(dòng)。
“這個(gè)系列的目標是實(shí)現知識接地神經(jīng)反應生成系統的后續研究步驟,解決其他公開(kāi)數據集無(wú)法解決的自然對話(huà)中的難題,”Hakkani-Tur說(shuō)。“這將使研究人員能夠專(zhuān)注于人類(lèi)在主題之間的轉換,知識選擇和豐富,以及將事實(shí)和意見(jiàn)融入對話(huà)...... [并支持]高質(zhì)量,可重復研究的出版。”
亞馬遜表示,競爭Alexa Prize的團隊可以訪(fǎng)問(wèn)數據集的擴展版本 - 名為Extended Topical Chat的數據集 - 其中包括正在進(jìn)行的收集和注釋的結果。
亞馬遜開(kāi)源數據集可用于訓練AI模型識別跨語(yǔ)言和腳本類(lèi)型的名稱(chēng),大約六個(gè)月后發(fā)布了今天的公告。它被稱(chēng)為“音譯多語(yǔ)種命名實(shí)體音譯系統”,它包含近400,000種語(yǔ)言,如阿拉伯語(yǔ),英語(yǔ),希伯來(lái)語(yǔ),日語(yǔ)片假名,以及從維基百科中刪除的俄語(yǔ)。
