Computer engineers at ORNL pioneer approaches to energy-efficient supercomputing
從左到右,ORNL 大規模分析和人工智慧方法小組的 Sedrick Bouknight 和 Matthias Maiterth 展示了 Frontier 數位孿生專案 ExaDIGIT 框架的 VR 功能。使用 VR 可以讓 Frontier 的操作員以更具互動性和直覺的方式檢查系統的遙測資料。圖片來源:Wes Brewer/ORNL,美國能源部

隨著高科技公司加大大規模資料中心的建設力度,以滿足人工智慧業務的蓬勃發展,其中一個組成部分正在成為越來越稀有的商品:電力。

據美國能源情報署稱,商業用電需求近年來急劇增長,預計僅 2024 年就將成長 3%。但那個成長僅由少數州推動– 那些正在迅速成為大規模計算設施中心的國家,例如維吉尼亞州和德克薩斯州。

房地產服務公司 CBRE 在其「2024 年全球資料中心趨勢」研究中報告稱,2024 年第一季北美資料中心的庫存年增 24.4%。電力研究所在報告中指出,這些新中心的建造容量為 100 至 1,000 兆瓦,相當於可為 80,000 至 800,000 戶家庭供電的負載。2024年白皮書

在本文中,EPRI 分析了人工智慧和資料中心的能源消耗,並預測,如果預計每年10% 的高成長率繼續下去,到2030 年,資料中心每年消耗的電力將占美國總發電量的6.8% ,而估計今天4%。

高盛研究部估計,為了滿足不斷增長的需求,美國公用事業公司將需要投資約 500 億美元來建立新的發電能力。同時,一些地區社區對資料中心建設的反對也在增加,因為草根團體抗議越來越多的資料中心對當地的潛在影響,以及人工智慧對電力和冷卻用水日益增長的需求。

中國的私人企業能否應對推動人工智慧「革命」的艱鉅挑戰,可能更多取決於聰明才智,而不是金錢。世邦魏理仕的這項研究得出了一個有用的、或者可能是充滿希望的建議:「高效能運算 [或 HPC] 將需要資料中心設計和技術的快速創新,以管理日益增長的資料中心需要。

橡樹嶺領導計算設施是位於橡樹嶺國家實驗室的能源部科學辦公室用戶設施,研究節能超級計算的新方法一直是其使命的一部分。

自 2004 年成立以來,OLCF 已推出了五代世界級超級運算系統,每秒浮點運算或觸發器的能源效率提高了近 2,000 倍。Frontier,OLCF 最新的超級計算機,目前名列TOP500榜單第一世界上最,並於 2022 年在名列綠色 500 強名單之首世界上最節能的計算機之一。

保持電費負擔得起與成為政府資助的設施密不可分。但建造和維護領先的超級電腦不再只是政府的責任。各大科技公司已大舉進軍 HPC,但現在才開始擔心這些大型系統的能耗。

「我們的機器一直是地球上最大的機器,但現在情況已不再如此。私人公司現在正在部署比 Frontier 大幾倍的機器。如今,他們基本上擁有無限的財力,因此他們很容易站起來ORNL國家計算科學中心(NCCS) 技術長Scott Atchley 表示:“一旦他們的權力受到更多限制,情況就會改變,他們會希望得到最大的回報。”

憑藉在提高 HPC 能源效率方面數十年的經驗,OLCF 可以作為突然蓬勃發展的行業中最佳「物有所值」實踐的資源。

OLCF 專案總監 Ashley Barker 表示:「我們擁有獨特的優勢,能夠影響 HPC 的整個能源效率生態系統,從應用程式到硬體再到設施。您需要在所有這三個領域提高效率才能解決這個問題。」 。

「努力提高能源效率在我們設施的各個方面都發揮作用。我們可以購買的最節能的硬體是什麼?我們運行該硬體的最節能的方式是什麼?什麼是最節能的-我們可以調整硬體上運行的應用程式的有效方法嗎?

隨著OLCF 計劃其Frontier 的繼任者(稱為Discovery),這些問題每天都會被問到,因為不同的團隊共同努力在2028 年之前交付一台新的超級計算機,該計算機也將展示下一代HPC 的能源效率。

系統硬體

過去 30 年最重要的計算效率進步之一源自於一個不太可能的來源:電玩遊戲。

更具體地說,創新來自晶片製造商的競爭,以滿足電玩產業對日益複雜的遊戲內圖形的需求。為了實現吸引遊戲玩家的逼真視覺效果,個人電腦和遊戲機需要專用晶片(也稱為圖形處理單元或 GPU)來渲染詳細的行動影像。

如今,GPU 是大多數超級電腦不可或缺的一部分,尤其是用於訓練人工智慧模型的超級電腦。2012 年,當 OLCF 憑藉其 Titan 超級電腦率先在領先規模的 HPC 中使用 GPU 時,該設計被認為是對僅依賴中央處理單元 (CPU) 的傳統系統的大膽背離。

它要求計算科學家調整他們的程式碼,以充分利用 GPU 進行簡單計算並加快求解時間的能力。計算機解決特定問題所需的時間越少,它在給定時間範圍內可以解決的問題就越多。

「從設計上來說,GPU 比 CPU 更節能。為什麼它更有效率?如果你要為電腦供電並且希望它非常有效率地進行計算,那麼你需要幾乎所有的電力來供電您希望盡可能多的矽面積只是浮點單元,而不是每個CPU 晶片上的所有其他東西。

「GPU 幾乎是純粹的浮點單元。當你給一台配備GPU 的機器供電時,它所消耗的能量大約是一台只有CPU 的機器的十分之一”,ORNL 的Frontier 項目主任Al Geist 說道。

OLCF 2012 年在 GPU 上的賭博在接下來的十年中得到了回報,隨著每一代 OLCF 超級電腦增加了更快的 GPU 數量,系統的能源效率逐漸提高。這種演進在 Frontier 架構中達到了頂峰,該架構於 2022 年推出,是世界上第一台百億億次超級計算機,每秒能夠進行超過 1 千萬億次計算,由 9,408 個計算節點組成。

然而,當 2008 年百億億次討論開始時,百億億次研究小組發布了一份報告,概述了其四大挑戰,其中最重要的是功耗。它預計每年的電費可能高達 5 億美元。即使考慮到 2015 年預計的技術進步,該報告預測,精簡的 1 exaflop 系統將使用 150 兆瓦的電力。

“能源部說,’這是不可能的。’好吧,我們問,什麼是可以接受的? 得到的答案是,『我們不希望你在電力上花費的錢超過機器的成本,』」蓋斯特說。「在 2009 年的時間範圍內,超級電腦的成本約為 1 億美元。它們的使用壽命約為五年。

「最終我們每年可以花在電力上的費用約為 2000 萬美元。從 2000 萬美元中我能得到多少兆瓦?事實證明,田納西州東部的 1 兆瓦大約每年 100 萬美元。所以是我們設定的目標數字:每百億億次浮點運算系統功率為20 兆瓦。

要實現這能源消耗目標並沒有明確的途徑。因此,2012 年,美國能源部科學辦公室啟動了 FastForward 和 DesignForward 計劃,與供應商合作推廣新技術。

FastForward 最初專注於處理器、記憶體和儲存供應商,以解決效能、功耗和彈性問題。後來它將重點轉移到節點設計(即單獨的計算伺服器)。DesignForward 最初專注於將網路擴展至預期的系統規模,後來專注於整個系統封裝、整合和工程。

由於 FastForward 投資,半導體晶片供應商 AMD 為 Frontier 開發了更快、更強大的計算節點,由 64 核第三代 EPYC CPU 和四個 Instinct MI250X GPU 組成,並找到了一種製造 GPU 的方法通過關閉未使用的晶片部分,然後在需要時在幾毫秒內重新打開它們,可以提高效率。

「在過去,整個系統會亮起來並閒置,仍然在燃燒電力。現在我們可以關閉所有不使用的東西,而不僅僅是整個 GPU。在 Frontier 上,每個 GPU 上大約有 50 個不同的區域如果不使用它們,可以單獨關閉。

然而,對於下一代超級計算機,即使採用更新、更先進的架構,僅僅繼續添加更多 GPU 來實現每瓦更多計算量可能已經達到了收益遞減的地步。

「處理器供應商確實必須絞盡腦汁,想出能夠為他們帶來小幅增量改進的技術。這不僅適用於能源效率,而且也適用於性能。他們正在努力盡可能地發揮矽的性能, 」Atchley 說。

「我們一直受益於摩爾定律:晶體管變得更小,它們變得更便宜,它們變得更快。我們的應用程式運行得更快,而價格點相同或更低。那個世界已經結束了。有一些可能的技術可能會給我們帶來一些飛躍,但最能幫助我們的是一種更全面、全面的能源效率方法。

系統操作

Feiyi Wang 是 OLCF 大規模分析和人工智慧方法 (AAIMS) 小組的負責人,他花了很多時間思考一個難以捉摸的目標:如何操作超級電腦以減少能耗。解決這個問題首先需要匯集海量的HPC營運資料。

早在Frontier 建成之前,他和AAIMS 團隊就從Summit(OLCF 於2018 年推出的200 petaflop 超級電腦)收集了一年多的功率分析數據。 1 赫茲報告指標,這意味著系統每秒報告超過 460,000 個指標。

Wang 的團隊使用這個 10 TB 的資料集從頭到尾分析了 Summit 的整個系統,包括其中央能源工廠,其中包含所有冷卻機械。他們將系統的作業分配歷史記錄疊加到遙測資料上,為超過 840,000 個作業建立每個作業的細粒度功耗設定檔。這項工作為他們贏得了最佳論文獎2021 年高效能運算、網路、儲存和分析國際會議(SC21)。

這項工作也促使王就如何利用這些數據做出明智的營運決策以提高能源效率提出了一些想法。

正如 Wang 所說,利用 Summit 的能源概況數據集,Wang 和他的團隊啟動了智慧科學設施項目,為 HPC 系統提供持續的生產洞察,並為系統操作員提供「數據驅動的操作智慧」。

“我希望將這種持續監控進一步發展為‘持續集成’,這意味著我們希望獲取計算機的持續指標並將其集成到一個系統中,以便用戶可以觀察他們的特定能源使用情況。更進一步來說,我們還希望實施'持續優化',從僅僅監控和集成到實際動態優化工作,」王說。

王的另一個想法可能有助於實現這一目標。在 SC23 上,Wang 和主要作者、AAIMS 小組的高級研究科學家 Wes Brewer 發表了題為「邁向百億億次超級電腦綜合數位孿生的開發」的演講。他們提出了一個名為 ExaDIGIT 的框架,該框架使用擴增實境 (AG) 和虛擬實境 (VR) 來提供有關設施如何運作的整體見解,以提高其整體能源效率。

現在,ExaDIGIT 已經發展成為一個由 10 個國際和產業合作夥伴組成的協作項目,Brewer 將展示該團隊的最新論文SC24在喬治亞州亞特蘭大。

在 ORNL,AAIMS 小組啟動了 Frontier 數位孿生項目,以建立 Frontier 超級電腦的模擬。這個虛擬前沿將使操作員能夠嘗試“如果我們嘗試一下會怎樣?”在真正的 Frontier 機器上嘗試節能方案之前。如果提高 Frontier 冷卻系統的進水溫度會怎麼樣?或者您會將其置於系統冷卻不足的風險中,從而提高故障率?

“Frontier 是一個非常有價值的系統,你不能只是說,’讓我們嘗試一下。讓我們在這個系統上進行實驗’,因為如果你做錯了,後果可能是破壞性的,”王說。「但有了這個數位雙胞胎的想法,我們可以將所有遙測數據放入一個系統中,如果我們對系統的電源和冷卻方面有足夠的保真度建模,我們就可以進行實驗。如果我改變這個設定會怎樣?

Frontier 的數位孿生可以在桌上型電腦上運行,使用 VR 和 AR 允許操作員在調整參數時以更具互動性和直觀的方式檢查系統遙測。AAIMS 小組還創建了一個虛擬調度系統來檢查數位孿生的功耗以及它在運行作業時如何隨時間推移而進展。

儘管虛擬前緣仍在開發中,但它已經深入了解工作負載如何影響其冷卻系統,以及整流(將交流電轉換為直流電的過程)期間發生的功率損耗會發生什麼情況。該系統也用於預測發現號未來的電力和冷卻需求。

王說:“我們能夠而且將會調整我們的開發和系統,以應對 OLCF 當前和未來面臨的任何緊迫挑戰。”

設施基礎設施

為超級電腦供電並不僅僅意味著打開它,還意味著為支援它的整個設施供電。最關鍵的是冷卻系統,它必須消除資料中心內所有電腦機櫃產生的熱量。

「從10,000 英尺的高度來看,超級電腦實際上只是一個巨大的加熱器——我從電網獲取電力,將其輸入到這個大盒子中,它會因為使用電力而變熱。現在我必須將更多的電力輸入到這個大盒子中。

「在資料中心內部,需要做大量工作來更有效地冷卻這些大型機器。從 2009 年到 2022 年,我們已將冷卻所需的能源減少了 10 倍,我們的團隊將繼續進行冷卻優化。 ”

這些冷卻優化的大部分規劃是由 ORNL 實驗室現代化部門的首席 HPC 機械工程師 David Grant 領導的。Grant 負責監督新機械設施的設計和建造,並主要負責確保 OLCF 安裝的每個新超級電腦系統都具備全天候 24 小時可靠運作所需的冷卻能力。

他於 2009 年開始在 ORNL 工作,負責 Jaguar 超級電腦的操作。然後,他於 2012 年參與了 Summit 向 Titan 的過渡,領導了 Summit 於 2018 年推出的基礎設施設計,最近還負責監督支援 Frontier 的所有工程。

在此期間,OLCF 的冷卻系統隨著晶片技術的發展而發生了巨大的發展,從 Jaguar 中的大聲風扇和基於冷卻器的空調到 Frontier 中的無風扇液體冷卻。

此外,冷卻計算節點所需的水溫已從 Titan 的 42°F 上升到 Frontier 的 90°F——FastForward 計劃設定的目標。這種額外的溫暖可以節省大量能源,因為循環水不再需要冷藏,而是可以透過蒸發塔充分冷卻。

格蘭特說:“我們正在努力從櫃子中取回盡可能溫暖的水,同時為它們提供最高的供水溫度——供水溫度越高越好。”

「返回給我們的水溫升高使我們能夠最大限度地減少系統設施側的循環流量,從而節省泵送能量。然後,溫度升高使我們能夠提高冷卻水塔的效率,從而能夠將熱量排除到我們在的環境中。

Frontier 的電力使用效率 (PUE)(電腦資料中心設施使用的總電力與提供給計算設備的電力之比)在高峰使用時為 1.03。這實質上意味著每產生 1,000 瓦的熱量,只需額外增加 30 瓦的電力即可維持系統適當的熱範圍。

資料中心的全球全產業平均 PUE 約為 1.47,據正常運行時間研究所稱

格蘭特正在研究如何進一步降低 Discovery 等速度更快的系統的功耗,這將需要更多的創新方法。

首先,回收(或利用)發現號的部分多餘熱量的概念可能有一定前景。該設施位置優越,如果可以將廢熱從冷卻系統轉移到加熱系統,則可以再利用。但由於加熱系統的溫度升高、冷卻系統產生的低品位熱量以及 HPC 系統產生的熱量的高度動態特性,這項任務具有挑戰性。

其次,即將推出的Discovery系統將共用Frontier的冷卻系統。這種組合使用配置可望提高營運效率。

「現在,Frontier 可以使用自己的冷卻系統,我們已經針對此類操作對其進行了優化。但是,如果Frontier 需要高達30 兆瓦的功率,而另一個系統可能又需要同樣多的功率,那麼這會做什麼?

「它的設計初衷就是能夠做到這一點,但我們將在其運營範圍內的另一個我們以前從未見過的地方進行操作。因此,一旦我們到達那裡,就會出現新的機會,」格蘭特說。

第三,格蘭特正在研究建築和設備選擇如何有利於設施的整體能源效率。例如,Frontier 的冷卻系統有 20 個單獨的冷卻塔,需要一種稱為「安撫」的過程來幫助保護其內部金屬表面,並且此過程涉及隨著時間的推移進行大量泵送。使用不再需要安撫過程的新塔可以消除這一步驟。

第四,超級電腦的閒置時間會消耗大量電力——Frontier 的閒置負載為 7 到 8 兆瓦。如果可以大幅減少或消除閒置負載怎麼辦?

格蘭特說:“當我們與對軟體方面有影響力的客戶互動時,我們會嘗試與他們溝通,他們的決策將如何轉化為冷卻系統和設施能源使用。”

「我認為軟體方面有很大的潛力,可以嘗試減少空閒負載要求,使他們的模型盡可能高效地運行並提高系統的利用率。作為回報,他們將獲得更高的產量他們試圖產生的數據。 」

應用領域

優化科學應用程式以使其在 OLCF 的超級電腦上更有效率地運作是 NCCS 科學參與部門負責人 Tom Beck 和 NCCS 演算法和效能分析小組傑出研究科學家 Trey White 的職責範圍。讓程式碼更快回傳結果並不是一個新概念,但現在的目標不再只是純粹的速度。

「長期以來,人們一直希望讓他們的程式碼運行得更快,這就是我們所關注的——運行更快的應用程式的單一目標,這也恰好減少了能源消耗,」懷特說。

「硬體的速度仍在提高,只是沒有以前那麼快,所以現在我們必須從時間和能源效率兩方面來考慮應用程式。在大多數情況下,運行速度更快意味著更少的能源,但這並不是完美的因此,我們現在開始考慮兩者之間的權衡。

該團隊正在研究的一個領域是 GPU 的工作頻率如何影響其能耗。GPU 實現最快吞吐量的最大頻率不一定是最節能的頻率。

「但是,如果你從最大頻率開始,然後拉低 5% 到 10%,有跡象表明你可能會節省 20% 或 25% 的能源。所以,這就是一個套利,你是否願意放棄一點你的一點表現可以節省大量能源嗎?貝克說。

「以前,一般來說,電腦使用的最大時脈頻率對於所有項目都設定為數字。但現在我們正在考慮根據應用程式甚至在單次運行中調整該頻率,」懷特說。“‘頻率旋鈕’是時間和能源效率之間權衡的一個例子,我們正在研究如何為用戶提供這種選擇。”

該團隊正在探索的另一個領域是混合精度算術的使用。從歷史上看,64 位元的全精度浮點運算被認為是科學應用中計算精度的標準。自 2000 年代初以來,超級電腦的功能日益強大,全精度運算的速度幾乎與 32 位元單精度運算的速度一樣快。

現在,隨著人工智慧市場的興起,低精度算術(16 位元或更少)已證明其對於訓練神經網路和其他資料科學應用來說足夠準確。在 GPU 的驅動下,低精度運算可以顯著提高速度並節省能源。

「使用較低的精度對用戶來說是一個可怕的情況,因為每個人都習慣於假設全精度為 64 位,部分原因是它已經存在並且可以訪問,」Beck 說。

「如果你開始偏離 64 位,它可能會以非線性方式影響整個程式碼,很難​​追蹤到底發生了什麼。因此,這是我們研究策略的一部分——對 64 位的影響進行廣泛研究在某些應用中採用混合精度算術。

另一個可能提高能源效率的領域是數據傳輸——數據傳輸越少,所需的電力就越少。這項工作可以透過建立減少數據移動的軟體演算法來完成。Beck 希望為使用者提供圓餅圖,顯示演算法的每個不同操作所使用的功率百分比,從而使他們能夠確定潛在的減少量。

「如果沒有根本性的硬體改變或架構革命,應用程式確實是人們現在尋求增加的地方貝克說。「很可能,這不是一款透過編碼獲得 300% 改進的遊戲。

「肯定有一些地方我們可以做出改進,但這可能會是一個更漸進的過程,這裡3%,那裡5%。但如果你能透過一系列的改變累積起來,達到20%,那就是一個很大的進步。

引文:電腦工程師開創了節能超級運算的方法(2024 年,9 月 11 日)檢索日期:2024 年 9 月 11 日來自 https://techxplore.com/news/2024-09-approaches-energy-efficient-supercomputing.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。