經(jīng)過(guò)多年的突破性科學(xué)探索 阿貢的米超級計算機即將退休

2019-12-31 16:43:40    來(lái)源:    作者:

Mira,這臺 10 PB觸發(fā)器 IBM Blue Gene / Q超級計算機于2012年在美國能源部(DOE)的阿貢國家實(shí)驗室 首次啟動(dòng),將于今年年底退役。

當一位珍貴而受人尊敬的同事快退休時(shí),同事們會(huì )為自己的辛勤工作和勤奮工作所取得的成就和成就彰顯自己的情感。事實(shí)證明,對于達到使用壽命極限的超級計算機而言,情況同樣如此。

Mira,這臺 10 PB觸發(fā)器 IBM Blue Gene / Q超級計算機于2012年在美國能源部(DOE)的阿貢國家實(shí)驗室 首次啟動(dòng),將于今年年底退役。它的工作跨越了七年多,交付了 39年。60 億個(gè)核心小時(shí),涉及 800多個(gè) 項目,解決了從藥理學(xué)到天體物理學(xué)等科學(xué)領(lǐng)域近乎棘手的問(wèn)題。

“米拉肯定會(huì )被錯過(guò),”阿貢領(lǐng)導計算設施(主管Michael Papka說(shuō)ALCF),一個(gè) 美國能源部 科學(xué)辦公室用戶(hù)的設施,房屋米拉。“服務(wù)作為我們的主力超級多年,米拉是心愛(ài) ALCF 用戶(hù)社區以及我們的應對大科學(xué)問(wèn)題,以及其卓越的可靠性能力的員工。”

領(lǐng)導級別的超級計算機是Argonne在IBM Blue Gene體系結構系列中的第三個(gè)也是最后一個(gè)系統,該系統 始于實(shí)驗室5的部署 。2005年推出了7 teraflop的Blue Gene / L機器 。緊隨其后的是Intrepid,這是一款 557兆位觸發(fā)器的 IBM Blue Gene / P系統,從2008年 到2013 年為 科學(xué)計算社區服務(wù) 。當Mira在 2012年上線(xiàn)時(shí),當時(shí)只有 20歲 是Intrepid的三倍,因此為研究人員提供了一種工具,使人們有可能以前所未有的規模進(jìn)行仿真,并創(chuàng )建更精確的模型,從內燃機到血流的一切。

米拉仍可用于開(kāi)放科學(xué)中最強大的系統中,坐在數 22 最近在 TOP 500 是世界上最快的超級計算機名單。當Mira首次發(fā)布時(shí),它被列為第三快的系統,并榮登“綠色500強” 榜單,該榜單認可了世界上最節能的超級計算機。它還是Graph 500 列表中排名第三的系統,該方法 側重于超級計算機處理數據密集型應用程序的能力。

使Mira如此高效和節能的必要進(jìn)步之一包括直接用裝有水的管道冷卻機器,而不是將空氣吹到切屑上。“水冷卻更快地讓您有機會(huì )從芯片帶走大量的熱量更比空氣冷卻,”蘇珊·科格倫說(shuō) ALCF 項目總監誰(shuí)領(lǐng)導米拉的開(kāi)發(fā)和部署在阿貢。

為了使Mira能夠解決可能最具挑戰性的問(wèn)題,其設計師需要重新考慮超級計算機的外觀(guān)。以前的超級計算機都是用功能越來(lái)越強大的處理器構建的,但是最終工程師限制了每個(gè)內核中可以容納多少個(gè)晶體管。答案是以IBM Blue Gene體系結構的形式出現的,該 體系最終產(chǎn)生了Mira,并在單個(gè)節點(diǎn)上安裝了16個(gè)內核。

“ Mira是Blue Gene多核架構產(chǎn)品線(xiàn)的巔峰之作,它提供了前所未有的強大功能和可靠性,” Coghlan說(shuō)。

Mira的近50個(gè),000個(gè) 節點(diǎn)中的每個(gè) 節點(diǎn)都像神經(jīng)細胞一樣起作用,以光速將信息通過(guò)光纖電纜傳遞到機器的其他部分。以最佳配置組織這些連接以減少計算機不同部分交換信息所花費的時(shí)間,這是設計超級計算機的一項基本挑戰。

“是什么使米拉因此在解決這些復雜的科學(xué)挑戰非常有效的一個(gè)重要組成部分是機器是如何有效地能夠在其節點(diǎn)進(jìn)行通信,”格利揚(庫馬爾)庫馬蘭,在技術(shù)總監說(shuō) ALCF。“即使在不同的模擬,在系統的不同部分同時(shí)運行,米拉能夠通過(guò)隔離流量為每個(gè)作業(yè)以消除通信的干擾。”

Mira的光纖網(wǎng)絡(luò )幾何結構稱(chēng)為互連,可以像州際公路系統一樣路由來(lái)自每個(gè)節點(diǎn)的信號?;ミB的復雜性是由于引入了額外的尺寸而導致的,這些尺寸會(huì )縮小信號需要覆蓋的總空間。Blue Gene架構的早期版本具有更簡(jiǎn)單的互連,但是Mira的確是一項成就。根據ALCF科學(xué)總監Katherine Riley的 說(shuō)法,當前沒(méi)有現成的技術(shù)可以替代Mira的互連并具有競爭力。

從某種意義上說(shuō),Mira互連的獨特拓撲結構將使其難以被提供大量純計算能力的未來(lái)系統取代。“七年后,大多數時(shí)候人們是完全準備好進(jìn)入到下一個(gè)平臺,因為它會(huì )在做各種各樣的科學(xué)家們希望解決的問(wèn)題,以便更有效,”萊利說(shuō)。“但坦率地說(shuō),這不是與米拉的情況下-這是一個(gè)令人難以置信的強大,有競爭力的制度,即使它沒(méi)有那么大的計算,其效果是如此之好,這將是積極地使用,直到最后一分鐘。”

Mira的另一個(gè)顯著(zhù)方面是研究人員的數量和種類(lèi)繁多,他們能夠利用需要使用其所有節點(diǎn)的大規模仿真來(lái)利用系統的全部計算能力。在Mira的整個(gè)生命周期中,ALCF 用戶(hù)已經(jīng)在Mira上 進(jìn)行了700多次 全機運行,研究范圍從宇宙學(xué)到材料科學(xué)。

“許多超級計算機通常在一生中就只運行一次完整的機器運行,以后再也不會(huì )運行,但是我們的用戶(hù)經(jīng)常在Mira上運行它們,” ALCF的運營(yíng)總監Mark Fahey說(shuō) 。“那米拉能夠處理定期這些全機工作的事實(shí)證明了其卓越的可靠性。在其他大型系統上,通常在全機運行期間少數處理器出現故障或宕機,這可能會(huì )阻止用戶(hù)首先嘗試使用它們。”

當米拉被退役,阿貢國家實(shí)驗室的現任領(lǐng)導級的超級計算機,西塔,將作為該實(shí)驗室的主要系統為開(kāi)放式科學(xué)到即將推出的百億億次機,極光,在到達 2021。

盡管ALCF 用戶(hù)和員工都會(huì )錯過(guò)Mira ,但即使關(guān)閉電源,該系統仍將對科學(xué)產(chǎn)生持久影響。從大規模的實(shí)驗設施研究和宇宙學(xué)調查到加速新材料和候選藥物的發(fā)現,Mira開(kāi)展了許多突破性的研究,這些研究將科學(xué)的界限推向了各個(gè)學(xué)科。

一臺機器“一在十億次”模擬

七年來(lái),Mira被用于處理從微小到宇宙的科學(xué)問(wèn)題。瑞士大型強子對撞機(LHC)的科學(xué)家們花費了數年的時(shí)間從??他們的實(shí)驗中生成許多PB的粒子碰撞數據,而回到Argonne的研究人員一直在Mira上進(jìn)行模擬,以測試亞原子宇宙的不同模型如何符合觀(guān)測結果。

“以前,我們有很多努力在像Mira這樣的超級計算機上運行代碼之前就遇到了很多麻煩,其中包括檢測模擬中非常罕見(jiàn)的事件,”曾擔任ATLAS 實(shí)驗物理協(xié)調員的Argonne高能物理學(xué)家Tom LeCompte說(shuō)。 在 LHC。“在模擬中,非同尋常的事件迅速類(lèi)似普通的事件,所以你必須通過(guò)很多很多看似平常的事件排序找到他們。”

網(wǎng)格計算(用于高能物理應用的超級計算的前身)的掙扎在于,它一次只能容納這么多的碰撞,因此某些模型提出的模擬事件無(wú)法記錄,而實(shí)際上卻不存在。

LeCompte說(shuō):“有了Mira,看到正在發(fā)生的事情就變得容易多了-您會(huì )發(fā)現自己并沒(méi)有真正遇到過(guò)失敗,看到這些十億分之一的事件實(shí)在是罕見(jiàn)得多。” “如果你正在尋找一個(gè)‘黑天鵝’,你不得不看更多的白天鵝與黑天鵝出現前的能力。”

然后,將模擬中的這些黑天鵝事件用于驗證或無(wú)效由理論和實(shí)驗產(chǎn)生的數據。Mira使粒子物理學(xué)家能夠快速運行整個(gè)模型,以確定它們如何無(wú)法真正描繪出現實(shí)。

大型強子 對撞機 每年大約發(fā)表 150篇論文 ,其中一半用于尋找新的物理學(xué)。“作為實(shí)驗者,我們可以做的是使用在米拉產(chǎn)生地說(shuō),這些事件“這一理論可能是正確的,這個(gè)其他的理論是不正確的,這第三個(gè)理論是正確的一組特定的參數,” LeCompte說(shuō)。“我們真的可以測試數據和理論的協(xié)議,因為我們了解的背景比以前我們開(kāi)始尋找米拉好得多。”

盡管迄今為止還沒(méi)有任何模型能夠完全代表實(shí)驗中看到的所有物理學(xué),但Mira仍在幫助科學(xué)家發(fā)展更好的理論。“雖然這本來(lái)是很好的挑選贏(yíng)家馬上蝙蝠,米拉使我們能夠改進(jìn)我們的假設,我們的模型,以更接近一個(gè)更準確的解決方案,”勒孔特說(shuō)。“我們既產(chǎn)生更高的沖突數量和較高質(zhì)量的碰撞比我們以前都做過(guò)。”

Mira的其他直接優(yōu)勢之一在于,可以很容易地將最初為網(wǎng)格計算應用程序編寫(xiě)的代碼修改為可在超級計算機上工作。“這是真的,我們怎么能做出這樣的運行,以做最好的科學(xué),我們不是可以使代碼運行在所有的問(wèn)題較多,”勒孔特說(shuō)。

從某種意義上說(shuō),Mira使具有特定領(lǐng)域專(zhuān)業(yè)知識的科學(xué)家能夠按照他們熟悉的方式解決計算問(wèn)題,而不必僅僅為了啟動(dòng)和運行而解決大量其他計算機科學(xué)難題。“我是一個(gè)物理學(xué)家,而不是計算機科學(xué)家,米拉是第一個(gè)機器,通常是可供選擇,讓我想想就像一個(gè)物理學(xué)家的問(wèn)題,”勒孔特說(shuō)。

隨著(zhù)Mira使用壽命的結束,LeCompte反映出該機器已成功解決了其設計所面臨的所有挑戰。“大部分可以與需要解決的問(wèn)題 10 -petaflop計算機已經(jīng)解決,”他說(shuō)。“現在是時(shí)候讓那些需要的問(wèn)題, 1000 -petaflop電腦。”

這些問(wèn)題將涉及大型強子對撞機的大量附加數據 (可能多達10 到 20倍) ,據LeCompte稱(chēng),這將為新科學(xué)打開(kāi)更多機會(huì )。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。