ICC訊(編譯:Nina)近日,LightCounting分享來自GTC 2024的網(wǎng)絡(luò)和互連亮點。
除了首席執(zhí)行官黃仁勛(Jensen Huang),DGX GB200 NVL72也是GTC 2024主題演講的明星。該機(jī)架級系統(tǒng)集成了72個下一代Blackwell GPU,通過NVLink連接,形成“1 Giant GPU”。Jensen對NVLink無源銅“背板”的描述在投資者中引起了短暫的恐慌,他們認(rèn)為它會以某種方式取代InfiniBand,但事實并非如此。NVL72代表了下一代人工智能系統(tǒng),但英偉達(dá)(NVIDIA)還透露了其部署的Hopper一代集群的新細(xì)節(jié)。下一代800G (XDR) InfiniBand要到2025年才能到達(dá)客戶手中,因此早期的Blackwell系統(tǒng)將使用400G (NDR) InfiniBand代替。
圖片:GTC 2024,4月4日(來源:英偉達(dá))
Jensen表示,Hopper一代EOS超級計算機(jī)剛剛上線。本集群使用608臺64端口的NDR交換機(jī),交換機(jī)端口總數(shù)為38912個。該系統(tǒng)將葉交換機(jī)放置在排末端的機(jī)架中,因此所有InfiniBand鏈路都使用光收發(fā)器。LC估計服務(wù)器為系統(tǒng)總共44032個NDR端口添加了5120個端口。由于英偉達(dá)使用所謂的“雙端口OSFP”800G收發(fā)器,每個收發(fā)器服務(wù)兩個NDR端口。因此,LC估計完整的EOS系統(tǒng)使用大約22000個800G光收發(fā)器。
Blackwell一代GPU包括第五代NVLink,其互連帶寬是Hopper的兩倍。它通過將每條通道的速度提高一倍至200Gbps,從而為每個NVLink x2端口提供400Gbps的單向帶寬。每個Blackwell GPU包括18個端口,可提供1.8TB/s(14.4Tbps)的聚合雙向帶寬。為了連接NVL72機(jī)架中的72個GPU,英偉達(dá)開發(fā)了NVLink5交換機(jī)芯片。NVL72機(jī)架包括九個NVLink交換機(jī)托盤,每個托盤帶有兩個ASIC。交換機(jī)使用5184根無源銅(DAC)電纜,在機(jī)架內(nèi)提供All-to-all GPU連接。
對于網(wǎng)絡(luò)生態(tài)系統(tǒng)來說,GTC 2024最大的失望可能是800G InfiniBand延遲到2025年。盡管延期,該公司還是公開了Quantum-X800交換機(jī)系統(tǒng)和ConnectX-8適配器(NIC)。當(dāng)這些800G InfiniBand產(chǎn)品可用時,每個GPU的帶寬將增加一倍,因為ConnectX-8網(wǎng)卡將一對一地取代ConnectX-7 (400G)網(wǎng)卡。他們應(yīng)該還將率先在電氣(主機(jī))端處理帶有200G通道的光學(xué)器件,從而推動對第二代200G/lambda DSP的早期需求。
備注:GTC大會全稱是GPU Technology Conference,是英偉達(dá)主辦的最重要的GPU技術(shù)交流活動,從2019年開始每年舉辦一屆。
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章