推動(dòng)AI在常識推理方面的最新技術(shù)水平

2019-06-28 17:08:21    來(lái)源:    作者:

對于任何事物的最新技術(shù)水平,百分之十是相當大的提升。這就是Salesforce研究剛剛為深度學(xué)習語(yǔ)言模型的常識推理所取得的成果。

在其論文中,解釋自己!利用語(yǔ)言模型進(jìn)行常識推理,明天在計算語(yǔ)言學(xué)協(xié)會(huì )(ACL)2019年會(huì )上展示,Salesforce研究人員揭示了兩個(gè)重要貢獻:CoSE,一個(gè)關(guān)于常識解釋的數據集; 和CAGE,一個(gè)用于常識自動(dòng)生成解釋的模型。ZDNe借此機會(huì )與兩名負責此項工作的Salesforce Research Scientists進(jìn)行了問(wèn)答,Nazneen Rajani和Bryan McCann。

創(chuàng )建常識推理數據集

作為提醒,Salesforce研究側重于問(wèn)答,作為通過(guò)愛(ài)因斯坦促進(jìn)數據訪(fǎng)問(wèn)的一種方式。我們之前已經(jīng)看到其他Salesforce研究人員如何調查知識圖的使用情況。

Rajani和McCann的工作采用了不同的方法,但也建立在之前的一些貢獻上。對于一些世界領(lǐng)先的研究人員來(lái)說(shuō),常識推理是一個(gè)開(kāi)放的問(wèn)題。例如,構建CAGE的關(guān)鍵因素之一是OpenAI GPT。配音這個(gè)語(yǔ)言模型最近打開(kāi)由伊隆·馬斯克的OpenAI來(lái)源為“太危險了”在野外被釋放可能是過(guò)于謹慎。

然而,它是語(yǔ)言模型的最新技術(shù)。正如Rajani和McCann指出的那樣,這些自然語(yǔ)言處理網(wǎng)絡(luò )僅限于文本,作為生活在現實(shí)世界中的不良替代品。因此,研究人員通過(guò)讓他們閱讀一系列令人難以置信的文本來(lái)訓練模型,包括所有維基百科,數千本書(shū),以及其他方法,也可以通過(guò)查詢(xún)Google來(lái)獲得結果。

這些模型使用名為Commonsense Question Answering(CQA)的多項選擇測試進(jìn)行測試,該測試包含需要常識推理才能回答的問(wèn)題。在典型的深度學(xué)習方式中,模型在CQA的一些示例上進(jìn)行訓練,然后在不同的問(wèn)題集上進(jìn)行測試。與人類(lèi)相比,已知這些讀得很好的神經(jīng)網(wǎng)絡(luò )在這項任務(wù)上的表現非常糟糕。

Rajani和McCann創(chuàng )建了一個(gè)以CQA為模型的數據集,但除了問(wèn)題的答案之外,它們還包括解釋。這就是他們創(chuàng )建CoSE的方式,CoSE是Commonsense Explanations的數據集。正如Rajani所說(shuō),CoSE v1.0有8500個(gè)例子,v1.11有10,962個(gè)例子,包括訓練和驗證集。對于深度學(xué)習標準,這不是很多數據。

Rajani和McCann承認這一點(diǎn),并且增加數據集是他們未來(lái)工作的目標之一。McCann表示,他們希望將此數據集收集流程擴展到該領(lǐng)域的其他基準,包括自由格式文本,結構化信息和來(lái)自圖像或視頻的視覺(jué)信號,以便他們可以訓練解釋許多不同領(lǐng)域的模型。

使用Mechanical Turk上的眾包產(chǎn)生了解釋。要求Turkers提供問(wèn)題的答案,解釋答案,并突出引導他們解釋問(wèn)題的部分。讓我們注意到,最近使用Mechanical Turk進(jìn)行知識圖表質(zhì)量處理的研究表明,眾包是這類(lèi)任務(wù)的可行解決方案。

拉賈尼提到有一些例子需要重新注釋?zhuān)词顾麄儗忉尩馁|(zhì)量有最初的限制,因為他們已經(jīng)陷入困境。設計任務(wù)并收集數據大約需要三周時(shí)間。CoSE可以被其他研究人員使用并進(jìn)一步增強,并且可以在GitHub上獲得。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。