工程師為AI瓶頸提供明智,及時(shí)的想法

2020-06-12 12:59:21    來(lái)源:新經(jīng)網(wǎng)    作者:馮思韻

賴(lài)斯大學(xué)的研究人員已經(jīng)展示了設計創(chuàng )新的以數據為中心的計算硬件以及與機器學(xué)習算法共同設計硬件的方法,這些算法可以共同將能源效率提高兩個(gè)數量級。

工程師為AI瓶頸提供明智,及時(shí)的想法

機器學(xué)習的進(jìn)步,無(wú)人駕駛汽車(chē)背后的人工智能形式以及許多其他高科技應用,已經(jīng)開(kāi)創(chuàng )了計算的新時(shí)代(以數據為中心的時(shí)代),并迫使工程師們重新考慮具有消失了75年

“問(wèn)題在于,對于當今機器學(xué)習最先進(jìn)的大規模深度神經(jīng)網(wǎng)絡(luò )而言,運行整個(gè)系統所需的90%以上的電力都消耗在內存和處理器之間的數據移動(dòng)中”,電氣與計算機工程學(xué)助理教授林穎妍說(shuō)。

林和合作者提出了優(yōu)化數據中心處理的兩個(gè)互補的方法,這兩者都呈現6月3日在國際研討會(huì )上的計算機體系結構(ISCA),最大的會(huì )議為新的思路和研究的一個(gè)計算機體系結構。

以數據為中心的體系結構的驅動(dòng)與一個(gè)稱(chēng)為von Neumann瓶頸的問(wèn)題有關(guān),這種效率低下的原因是自數學(xué)家約翰·馮·諾伊曼(John von Neumann)于1945年發(fā)明內存以來(lái),計算結構中內存和處理的分離一直占主導地位。從程序和數據來(lái)看,馮·諾伊曼(von Neumann)架構使單臺計算機具有難以置信的通用性。根據從內存中加載的存儲程序,可以使用計算機進(jìn)行視頻通話(huà),準備電子表格或模擬火星上的天氣。

但是將內存與處理分開(kāi)也意味著(zhù)即使簡(jiǎn)單的操作(如加2加2)也需要計算機處理器多次訪(fǎng)問(wèn)內存。深度神經(jīng)網(wǎng)絡(luò )中的大量操作使這種記憶瓶頸變得更糟,深度神經(jīng)網(wǎng)絡(luò )是通過(guò)“研究”大量先前示例來(lái)學(xué)習做出人性化決策的系統。網(wǎng)絡(luò )越大,它可以完成的任務(wù)就越困難,并且顯示的網(wǎng)絡(luò )示例越多,它的執行效果就越好。深度神經(jīng)網(wǎng)絡(luò )訓練可能需要專(zhuān)門(mén)的處理器庫,這些處理器需要全天候運行一周以上?;谥悄芫W(wǎng)絡(luò )在智能手機上執行任務(wù)可以在不到一個(gè)小時(shí)的時(shí)間內耗盡電池電量。

賴(lài)斯的高效和智能計算(EIC)實(shí)驗室主任Lin說(shuō):“對于機器學(xué)習時(shí)代的以數據為中心的算法,我們需要創(chuàng )新的以數據為中心的硬件體系結構。” “但是,機器學(xué)習的最佳硬件架構是什么?

“沒(méi)有一個(gè)萬(wàn)能的答案,因為不同的應用需要機器學(xué)習算法,這些算法在算法結構和復雜性方面可能有很大差異,同時(shí)具有不同的任務(wù)準確性和資源消耗(例如能源成本,延遲和吞吐量),需要權衡取舍要求。”她說(shuō)。“許多研究人員正在為此進(jìn)行研究,像英特爾,IBM和Google這樣的大公司都有自己的設計。”

Lin小組在ISCA 2020上的演講之一在TIMELY上提供了結果,TIMELY是她和她的學(xué)生為“內存中處理”(PIM)開(kāi)發(fā)的一種創(chuàng )新架構,這種非馮·諾依曼方法將處理引入內存陣列。一個(gè)有前途的PIM平臺是“ 電阻式隨機存取存儲器 ”(ReRAM),類(lèi)似于閃存的非易失性存儲器。雖然提出了其他ReRAM PIM加速器架構,但Lin表示,在10多個(gè)深度神經(jīng)網(wǎng)絡(luò )模型上進(jìn)行的實(shí)驗發(fā)現,TIMELY的能源效率高18倍,并且交付的計算密度是最有競爭力的最新技術(shù)的30倍以上ReRAM PIM加速器。

TIMELY代表“時(shí)域,內存中執行,LocalitY”,它通過(guò)消除導致效率低下的主要因素來(lái)實(shí)現其性能,這種效率低下是由于頻繁訪(fǎng)問(wèn)主存儲器以處理中間輸入和輸出以及本地和主存儲器之間的接口而引起的?;貞?。

在主存儲器中,數據以數字方式存儲,但是當將其帶入本地存儲器以進(jìn)行內存中處理時(shí),必須將其轉換為模擬量。在以前的ReRAM PIM加速器中,結果值從模擬轉換為數字,然后發(fā)送回主存儲器。如果將它們從主存儲器調用到本地ReRAM以進(jìn)行后續操作,則它們將再次轉換為模擬信號,依此類(lèi)推。

通過(guò)使用本地存儲器中的模擬格式緩沖區,及時(shí)避免了不必要的訪(fǎng)問(wèn)主存儲器和接口數據轉換的開(kāi)銷(xiāo)。這樣,TIMELY幾乎可以將所需的數據保留在本地存儲陣列中,從而大大提高了效率。

該小組在ISCA 2020上提出的第二個(gè)建議是SmartExchange,該設計結合了算法和加速器硬件創(chuàng )新以節省能源。

“訪(fǎng)問(wèn)主存儲器 DRAM的能量要比執行計算多花費200倍,因此SmartExchange的關(guān)鍵思想是在算法中強制執行結構,使我們可以將成本較高的內存換成成本更低的內存,成本計算。”

她舉例說(shuō):“例如,我們的算法有1000個(gè)參數。” “在傳統方法中,我們將所有1,000個(gè)存儲在DRAM中,并根據計算需要進(jìn)行訪(fǎng)問(wèn)。使用SmartExchange,我們搜索以找到這1,000個(gè)中的某些結構。然后,我們只需要存儲10個(gè),因為如果我們知道它們之間的關(guān)系, 10和其余的990,我們可以計算990中的任何一個(gè),而不必從DRAM調用它們。

她說(shuō):“我們將這10個(gè)稱(chēng)為“基礎”子集,其想法是將它們存儲在靠近處理器的本地位置,以避免或大幅度減少為訪(fǎng)問(wèn)DRAM而支付的費用。

研究人員使用SmartExchange算法及其自定義的硬件加速器對七個(gè)基準深度神經(jīng)網(wǎng)絡(luò )模型和三個(gè)基準數據集進(jìn)行了實(shí)驗。他們發(fā)現,與最先進(jìn)的深度神經(jīng)網(wǎng)絡(luò )加速器相比,該組合將等待時(shí)間減少了多達19倍。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。