<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<acronym id="dybff"><nav id="dybff"></nav></acronym>

亞馬遜將發(fā)布超過(guò)400萬(wàn)字的會(huì )話(huà)和知識數據集

2019-06-15 11:19:50 來(lái)源：作者：

亞馬遜計劃提供大量針對自然語(yǔ)言處理研究的數據樣本。西雅圖公司今天表示，在2019年9月，它將發(fā)布Topical Chat數據集，這是一系列眾包的人類(lèi)對話(huà)，提供給參加年度Alexa Prize Socialbot Grand Challenge的團隊。

亞馬遜稱(chēng)，Topical Chat數據集包含超過(guò)210,000個(gè)話(huà)語(yǔ)或超過(guò)4,100,000個(gè)單詞，使其成為最大的公共社交對話(huà)和知識數據集之一。每個(gè)語(yǔ)料庫的對話(huà)和對話(huà)輪次與提供給群眾工作者的知識相關(guān)聯(lián)，并且所述知識是從與一組實(shí)體相關(guān)的一系列“非結構化”和“松散結構化”的文本資源中收集的。

亞馬遜高級首席科學(xué)家Dilek Hakkani-Tur在博客文章中明確表示，沒(méi)有任何談話(huà)是與Alexa客戶(hù)的互動(dòng)。

“這個(gè)系列的目標是實(shí)現知識接地神經(jīng)反應生成系統的后續研究步驟，解決其他公開(kāi)數據集無(wú)法解決的自然對話(huà)中的難題，”Hakkani-Tur說(shuō)。“這將使研究人員能夠專(zhuān)注于人類(lèi)在主題之間的轉換，知識選擇和豐富，以及將事實(shí)和意見(jiàn)融入對話(huà)...... [并支持]高質(zhì)量，可重復研究的出版。”

亞馬遜表示，競爭Alexa Prize的團隊可以訪(fǎng)問(wèn)數據集的擴展版本 - 名為Extended Topical Chat的數據集 - 其中包括正在進(jìn)行的收集和注釋的結果。

亞馬遜開(kāi)源數據集可用于訓練AI模型識別跨語(yǔ)言和腳本類(lèi)型的名稱(chēng)，大約六個(gè)月后發(fā)布了今天的公告。它被稱(chēng)為“音譯多語(yǔ)種命名實(shí)體音譯系統”，它包含近400,000種語(yǔ)言，如阿拉伯語(yǔ)，英語(yǔ)，希伯來(lái)語(yǔ)，日語(yǔ)片假名，以及從維基百科中刪除的俄語(yǔ)。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<thead id="ax1yx"></thead>

<form id="ax1yx"><em id="ax1yx"></em></form>

<rt id="ax1yx"></rt>

<p id="ax1yx"><strong id="ax1yx"></strong></p>

<abbr id="ax1yx"></abbr>

<nobr id="ax1yx"><table id="ax1yx"></table></nobr>