谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

2020-01-22 11:22:43    來(lái)源:    作者:

無(wú)論是語(yǔ)言,音樂(lè ),語(yǔ)音還是視頻,連續數據都不容易被AI和機器學(xué)習模型理解,尤其是當它依賴(lài)于廣泛的周?chē)h(huán)境時(shí)。例如,如果某個(gè)人或物體在視頻中從視圖中消失后才出現,那么很多算法都會(huì )忘記它的外觀(guān)。Google的研究人員著(zhù)手使用Transformer解決此問(wèn)題,Transformer的體系結構可擴展到數千個(gè)單詞,從而大大提高了歌曲創(chuàng )作,圖像合成,逐句文本翻譯和文檔摘要等任務(wù)的性能。

谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

但是Transformer絕不是完美的-將其擴展到更大的上下文可以明顯看出其局限性。使用大窗口的應用程序對內存的要求從千兆字節到TB級不等,這意味著(zhù)模型只能吸收幾段文字或生成簡(jiǎn)短的音樂(lè )。因此,Google今天推出了Reformer,這是Transformer的改進(jìn)版本,旨在處理多達100萬(wàn)個(gè)單詞的上下文窗口。通過(guò)利用諸如位置敏感哈希(LSH)和可逆殘差層之類(lèi)的技術(shù)來(lái)有效使用內存并降低長(cháng)序列的復雜性,它可以在僅使用16GB內存的單個(gè)AI加速器芯片上運行。

在4月在埃塞俄比亞的亞的斯亞貝巴舉行的2020年國際學(xué)習代表大會(huì )上,Reformer論文的演講之前,該代碼和一些 示例應用程序已公開(kāi)提供。

谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

與所有深層神經(jīng)網(wǎng)絡(luò )一樣,變形金剛包含排列在互連層中的神經(jīng)元(數學(xué)功能),這些層傳輸來(lái)自輸入數據的信號并緩慢調整每個(gè)連接的突觸強度(權重)。這就是所有AI模型提取特征并學(xué)習進(jìn)行預測的方式,但是Transformer的獨特之處在于,每個(gè)輸出元素都連接到每個(gè)輸入元素。實(shí)際上,它們之間的權重是動(dòng)態(tài)計算的。

正如我的同事Khari Johnson 指出的那樣,2019年最大的機器學(xué)習趨勢之一就是基于這種Transformer設計的自然語(yǔ)言模型的持續增長(cháng)和擴散。谷歌開(kāi)源的BERT,基于變壓器的模型,在2018年和一批發(fā)布今年表現最出色的車(chē)型,根據 膠排行榜 -包括Nvidia的威震天,谷歌的XLNet, 微軟的MT-DNN,以及Facebook的羅伯塔 -基于《變形金剛》。公司發(fā)言人最近告訴VentureBeat,XLNet 2將于本月晚些時(shí)候發(fā)布。

然后,Reformer計算與相似向量(用于表示機器學(xué)習中人類(lèi)可讀數據的代數構造)匹配的哈希函數(用于將任意大小的數據映射到固定大小的值的函數),而不是搜索所有可能的向量對。(例如,在翻譯任務(wù)中,來(lái)自網(wǎng)絡(luò )第一層的每個(gè)向量代表一個(gè)單詞,對應于不同語(yǔ)言的相同單詞的向量可能會(huì )獲得相同的哈希值。)分配哈希后,序列會(huì )重新排列為將具有相同散列的元素放在一起并分成多個(gè)段以啟用并行處理。然后在這些短得多的段及其相鄰的相鄰段內施加注意力,從而大大減少了計算量。

由于上述可逆存儲器,Reformer還可按需重新計算每個(gè)層的輸入,而不是將其存儲在內存中。激活(確定網(wǎng)絡(luò )輸出,準確性和計算效率的功能)來(lái)自網(wǎng)絡(luò )最后一層,用于從任何中間層恢復激活,每層使用兩組激活。一層從一層逐漸更新到下一層,而另一層僅捕獲對第一層的更改。

谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

“由于Reformer具有如此高的效率,它可以直接應用于上下文窗口遠大于幾乎所有當前最新文本域(數據集)的數據,”Google研究人員?ukaszKaiser寫(xiě)道以及加州大學(xué)伯克利分校的學(xué)生Nikita Kitaev在博客中發(fā)表的文章。“也許Reformer處理如此大的數據集的能力將刺激社區創(chuàng )建它們。”

該研究小組對基于改革者的圖像和文本模型進(jìn)行了實(shí)驗,使用它們來(lái)生成圖像中丟失的細節并處理整個(gè)小說(shuō)《犯罪與處罰》(包含211,591個(gè)單詞)。他們表明,Reformer可以逐像素生成全幀圖像,并且可以在單輪訓練中接受新穎長(cháng)度的文本。

作者將將來(lái)的技術(shù)應用到更長(cháng)的序列,并改善對位置編碼的處理。“我們相信,Reformer為將來(lái)使用Transformer模型提供了基礎,包括長(cháng)文本和自然語(yǔ)言處理之外的應用程序,” Kaiser和Kitaev補充說(shuō)。

在去年年底的一次采訪(fǎng)中,谷歌AI負責人杰夫·迪恩(Jeff Dean)告訴VentureBeat,更大的背景將是谷歌未來(lái)工作的主要重點(diǎn)。他說(shuō):“我們仍然希望能夠做更多上下文相關(guān)的模型。” “像現在這樣,BERT和其他模型可以很好地處理數百個(gè)單詞,但上下文上下文中不能使用10,000個(gè)單詞。因此,這是一個(gè)[有趣的方向。”

改革者似乎是朝這個(gè)方向邁出的有希望的第一步。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。