建造一臺超級計算機總是具有挑戰性的,但創造業界首個百億億級(E級)系統更是會遇到完全出乎意料的遭遇,需要在硬件和軟件方面進行大量工作。不幸的是,這種情況發生在了目前全球超算排名第一的橡樹嶺國家實驗室(Oak Ridge National Laboratory)的Frontier超級計算機上,它幾乎每天都會出現大量硬件故障。
ORNL的Frontier是業界首個設計用于提供高達1.685 FP64 ExaFLOPS峰值性能的系統,使用AMD的64核EPYC Trento處理器、Instinct MI250X計算GPU和HPE的Slingshot互連,功率為21兆瓦(2萬千瓦)HPE 構建了系統并使用了 Cray EX 專為橫向擴展應用設計的架構,主要用于超高速超級計算機。
雖然從紙面上看,Frontier超級計算機看起來特別好,而且機器系統的硬件部分已經交付,但似乎硬件方面的問題一直在阻止機器上線,并且無法提供給需要大約 1 FP64 ExaFLOPS 性能的研究人員使用。
橡樹嶺領導力計算設施(OLCF)的項目主管Justin Whitt在接受InsideHP的采訪時表示:“我們正在解決硬件方面的問題,并確保我們理解具體是什么問題。為何會遇到如此規模的失敗,導致這種規模的系統的平均故障間隔時間是幾個小時,而不是幾天。"
關于Frontier的潛在硬件故障的傳言已經流傳了很久。根據InsideHPC的另一篇報道,有人說該系統在Slingshot互連上遇到了問題。此外,還有人表示,AMD的Instinct MI250X計算GPU今年并不像預期那樣可靠。請記住,擁有更多流處理器和高時鐘的X版本只向特定客戶提供。
Whitt沒有證實該系統遇到了 Instinct 或 Slingshot 的任何特定問題,但他強調該機器存在許多硬件問題。
“很多挑戰都集中在這些 GPU 上,但這并不是我們所看到的大部分挑戰?!?OLCF的負責人說。"在零部件故障的常見罪魁禍首中,這是一個相當好的分布,因為GPU是一個很大的組成部分。我不認為在這一點上,我們對AMD的產品有太多擔憂。"
到目前為止,橡樹嶺國家實驗室的 Frontier 超級計算機并不是唯一一個使用 HPE Cray EX 架構和 Slingshot 互連、AMD EPYC(霄龍)CPU 和 AMD Instinct 計算 GPU 的系統。例如, 芬蘭的 Lumi 超級計算機 (Cray EX、EPYC Milan、Instinct MI250X 計算 GPU)提供了 550 PetaFLOPS 的峰值性能,并被 正式列為 世界第三強大的超級計算機。
只有時間才能證明最初承諾于 2022 年上線的 Frontier 超級計算機是否會在 2023 年開始提供給研究人員,因為它仍未正式部署。
原文:
https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure