<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<p id="zlr27"></p>

<nav id="zlr27"><strong id="zlr27"><dl id="zlr27"></dl></strong></nav>

<pre id="zlr27"></pre>

谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

2020-01-22 11:22:43 來(lái)源：作者：

無(wú)論是語(yǔ)言，音樂(lè )，語(yǔ)音還是視頻，連續數據都不容易被AI和機器學(xué)習模型理解，尤其是當它依賴(lài)于廣泛的周?chē)h(huán)境時(shí)。例如，如果某個(gè)人或物體在視頻中從視圖中消失后才出現，那么很多算法都會(huì )忘記它的外觀(guān)。Google的研究人員著(zhù)手使用Transformer解決此問(wèn)題，Transformer的體系結構可擴展到數千個(gè)單詞，從而大大提高了歌曲創(chuàng )作，圖像合成，逐句文本翻譯和文檔摘要等任務(wù)的性能。

谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

但是Transformer絕不是完美的-將其擴展到更大的上下文可以明顯看出其局限性。使用大窗口的應用程序對內存的要求從千兆字節到TB級不等，這意味著(zhù)模型只能吸收幾段文字或生成簡(jiǎn)短的音樂(lè )。因此，Google今天推出了Reformer，這是Transformer的改進(jìn)版本，旨在處理多達100萬(wàn)個(gè)單詞的上下文窗口。通過(guò)利用諸如位置敏感哈希(LSH)和可逆殘差層之類(lèi)的技術(shù)來(lái)有效使用內存并降低長(cháng)序列的復雜性，它可以在僅使用16GB內存的單個(gè)AI加速器芯片上運行。

在4月在埃塞俄比亞的亞的斯亞貝巴舉行的2020年國際學(xué)習代表大會(huì )上，Reformer論文的演講之前，該代碼和一些示例應用程序已公開(kāi)提供。

谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

與所有深層神經(jīng)網(wǎng)絡(luò )一樣，變形金剛包含排列在互連層中的神經(jīng)元(數學(xué)功能)，這些層傳輸來(lái)自輸入數據的信號并緩慢調整每個(gè)連接的突觸強度(權重)。這就是所有AI模型提取特征并學(xué)習進(jìn)行預測的方式，但是Transformer的獨特之處在于，每個(gè)輸出元素都連接到每個(gè)輸入元素。實(shí)際上，它們之間的權重是動(dòng)態(tài)計算的。

正如我的同事Khari Johnson 指出的那樣，2019年最大的機器學(xué)習趨勢之一就是基于這種Transformer設計的自然語(yǔ)言模型的持續增長(cháng)和擴散。谷歌開(kāi)源的BERT，基于變壓器的模型，在2018年和一批發(fā)布今年表現最出色的車(chē)型，根據膠排行榜 -包括Nvidia的威震天，谷歌的XLNet，微軟的MT-DNN，以及Facebook的羅伯塔 -基于《變形金剛》。公司發(fā)言人最近告訴VentureBeat，XLNet 2將于本月晚些時(shí)候發(fā)布。

然后，Reformer計算與相似向量(用于表示機器學(xué)習中人類(lèi)可讀數據的代數構造)匹配的哈希函數(用于將任意大小的數據映射到固定大小的值的函數)，而不是搜索所有可能的向量對。(例如，在翻譯任務(wù)中，來(lái)自網(wǎng)絡(luò )第一層的每個(gè)向量代表一個(gè)單詞，對應于不同語(yǔ)言的相同單詞的向量可能會(huì )獲得相同的哈希值。)分配哈希后，序列會(huì )重新排列為將具有相同散列的元素放在一起并分成多個(gè)段以啟用并行處理。然后在這些短得多的段及其相鄰的相鄰段內施加注意力，從而大大減少了計算量。

由于上述可逆存儲器，Reformer還可按需重新計算每個(gè)層的輸入，而不是將其存儲在內存中。激活(確定網(wǎng)絡(luò )輸出，準確性和計算效率的功能)來(lái)自網(wǎng)絡(luò )最后一層，用于從任何中間層恢復激活，每層使用兩組激活。一層從一層逐漸更新到下一層，而另一層僅捕獲對第一層的更改。

谷歌的AI語(yǔ)言模型Reformer可以處理所有小說(shuō)

“由于Reformer具有如此高的效率，它可以直接應用于上下文窗口遠大于幾乎所有當前最新文本域(數據集)的數據，”Google研究人員?ukaszKaiser寫(xiě)道以及加州大學(xué)伯克利分校的學(xué)生Nikita Kitaev在博客中發(fā)表的文章。“也許Reformer處理如此大的數據集的能力將刺激社區創(chuàng )建它們。”

該研究小組對基于改革者的圖像和文本模型進(jìn)行了實(shí)驗，使用它們來(lái)生成圖像中丟失的細節并處理整個(gè)小說(shuō)《犯罪與處罰》(包含211,591個(gè)單詞)。他們表明，Reformer可以逐像素生成全幀圖像，并且可以在單輪訓練中接受新穎長(cháng)度的文本。

作者將將來(lái)的技術(shù)應用到更長(cháng)的序列，并改善對位置編碼的處理。“我們相信，Reformer為將來(lái)使用Transformer模型提供了基礎，包括長(cháng)文本和自然語(yǔ)言處理之外的應用程序，” Kaiser和Kitaev補充說(shuō)。

在去年年底的一次采訪(fǎng)中，谷歌AI負責人杰夫·迪恩(Jeff Dean)告訴VentureBeat，更大的背景將是谷歌未來(lái)工作的主要重點(diǎn)。他說(shuō)：“我們仍然希望能夠做更多上下文相關(guān)的模型。” “像現在這樣，BERT和其他模型可以很好地處理數百個(gè)單詞，但上下文上下文中不能使用10,000個(gè)單詞。因此，這是一個(gè)[有趣的方向。”

改革者似乎是朝這個(gè)方向邁出的有希望的第一步。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>