ICC訊 鋼鐵一直以來都是工業(yè)化的象征。而在AI時(shí)代,NVIDIA DGX A100則將成為現(xiàn)代數(shù)據(jù)中心的基石。
如今,眾多企業(yè)所面臨的最大的挑戰(zhàn)和機(jī)遇,其根源都在于數(shù)據(jù)。DGX A100作為當(dāng)今全球最先進(jìn)的AI系統(tǒng),能夠幫助企業(yè)機(jī)構(gòu)以前所未有的速度解決復(fù)雜問題,同時(shí)為跨分析、訓(xùn)練和推理的AI計(jì)算力交付帶來強(qiáng)大的彈性和靈活性。
去年,NVIDIA基于多臺(tái)DGX系統(tǒng)組合構(gòu)建了DGX SuperPOD,該超計(jì)算機(jī)以遠(yuǎn)低于一般超級(jí)計(jì)算機(jī)的成本和能耗躋身性能世界前20之列。
如今,NVIDIA揭開了第二代SuperPOD的帷幕。該產(chǎn)品不但具有創(chuàng)紀(jì)錄的性能,而且能夠在短短三周內(nèi)完成部署。它的出現(xiàn)使得構(gòu)建世界一流AI超級(jí)計(jì)算集群所需的時(shí)間不再需要花費(fèi)漫長的數(shù)個(gè)月。
SuperPOD基于NVIDIA DGX A100系統(tǒng)和NVIDIA Mellanox網(wǎng)絡(luò)架構(gòu)構(gòu)建,其證明了可以憑借單個(gè)平臺(tái)將全球最復(fù)雜語言理解模型的處理時(shí)間從數(shù)周縮短至一個(gè)小時(shí)之內(nèi)。
重新定義基礎(chǔ)設(shè)施擴(kuò)展
無論你是需要一個(gè)超級(jí)計(jì)算集群解決復(fù)雜繁重的問題,還是需要一個(gè)性能卓越的數(shù)據(jù)中心來實(shí)現(xiàn)研究人員和開發(fā)者們的資源訪問民主化,AI都是提供重要保障的基礎(chǔ)設(shè)施。
在傳統(tǒng)的搭建流程中,一項(xiàng)關(guān)鍵性的工作就是要預(yù)先規(guī)劃好你需要將你的基礎(chǔ)設(shè)施擴(kuò)展到多大的規(guī)模,然后開始構(gòu)建網(wǎng)絡(luò)架構(gòu),直至達(dá)到最終目標(biāo)。雖然這種方法能夠?qū)崿F(xiàn)增長,但會(huì)產(chǎn)生大量前期成本。
NVIDIA Mellanox技術(shù)讓我們能夠重新定義數(shù)據(jù)中心,其所擁有的架構(gòu)能以最快的速度并行處理解決那些最復(fù)雜的問題。DGX A100配備具有200Gbps HDR InfiniBand的全新Mellanox ConnectX-6 VPI網(wǎng)絡(luò)適配器,每個(gè)系統(tǒng)有多達(dá)9個(gè)接口。我們可以憑借Mellanox的交換功能更輕松地將多個(gè)系統(tǒng)互連在一起,以至最終達(dá)到SuperPOD的規(guī)模。
借助于DGX SuperPOD和DGX A100,NVIDIA所提出的AI網(wǎng)絡(luò)架構(gòu)幫助用戶實(shí)現(xiàn)了“按自身業(yè)務(wù)增長需求購買”模式,這使得業(yè)務(wù)增長變得更輕松,同時(shí)也最大程度地減少了其對(duì)運(yùn)營的影響。
而且,該網(wǎng)絡(luò)架構(gòu)極具靈活性與可擴(kuò)展性。NVIDIA已將SuperPOD模塊化,成為每組配置有20臺(tái)DGX A100系統(tǒng)的可擴(kuò)展組。每個(gè)擴(kuò)展組均由使用Mellanox HDR InfiniBand的二層胖樹(two-tiered fat-tree)交換網(wǎng)絡(luò)拓?fù)涮峁┲С?,提供完整的?duì)分寬帶,且沒有過載(oversubscription)。在添加第三個(gè)交換層后,用戶可以在NVIDIA的擴(kuò)展參考設(shè)計(jì)中使用DragonFly+或胖樹拓?fù)鋵⑵鋽U(kuò)展至數(shù)千個(gè)節(jié)點(diǎn)。
憑借這種新的拓展單位,企業(yè)機(jī)構(gòu)的增長速度將會(huì)更加趨向于線性增長,并且每次增加這一個(gè)這種20系統(tǒng)模塊時(shí)所產(chǎn)生的支出也將變得更少。
通過SuperPOD擴(kuò)展DGX SATURNV
從研發(fā)和自動(dòng)駕駛汽車系統(tǒng)開發(fā)到游戲和機(jī)器人技術(shù),DGX SATURNV為NVIDIA最重要的工作提供了支持。而且SATURNV并非一個(gè)一成不變的系統(tǒng),它會(huì)隨著業(yè)務(wù)需求的增加而不斷擴(kuò)展。因此它也成為了NVIDIA全新SuperPOD設(shè)計(jì)的理想試驗(yàn)場。
在發(fā)布DGX A100之前,NVIDIA的工程師們部署了最新SuperPOD,實(shí)現(xiàn)了700 petaflops的AI性能。 此擴(kuò)展包含:
· 140臺(tái)DGX A100系統(tǒng)
· 1,120個(gè)NVIDIA A100 GPU
· 170個(gè)Mellanox Quantum 200G InfiniBand交換機(jī)
· 15千米光纜
· 4PB高性能存儲(chǔ)
此次擴(kuò)展,在存儲(chǔ)基礎(chǔ)設(shè)施方面,NVIDIA與DDN展開了合作。作為NVIDIA DGX POD的合作伙伴之一,DDN正在幫助NVIDIA實(shí)現(xiàn)AI基礎(chǔ)設(shè)施產(chǎn)品所需的性能和規(guī)模。SuperPOD讓NVIDIA能夠使用DDN技術(shù),從而幫助其最先進(jìn)的系統(tǒng)處理那些交給它的高難度任務(wù)。
最佳擴(kuò)展架構(gòu)
并非所有AI項(xiàng)目都需要DGX SuperPOD。 但每個(gè)希望在其業(yè)務(wù)中應(yīng)用AI技術(shù)的企業(yè)機(jī)構(gòu)都可以運(yùn)用DGX A100或DGX POD的性能、敏捷性和可擴(kuò)展性。
具有前瞻性的企業(yè)機(jī)構(gòu)關(guān)注于保持客戶的忠誠度、降低成本并拉開與競爭對(duì)手的距離。而AI在所有這些方面有著獨(dú)特的優(yōu)勢(shì)。
但如今AI技術(shù)創(chuàng)新發(fā)展迅速,而且模型和數(shù)據(jù)集的規(guī)模也都在呈指數(shù)級(jí)增長。企業(yè)需要合適的架構(gòu),使其在現(xiàn)在和將來都能夠應(yīng)對(duì)最大的AI挑戰(zhàn),而不至于在中途“夭折”。
了解如何改進(jìn)您的AI基礎(chǔ)設(shè)施戰(zhàn)略以及讓DGX A100的訪問變得更簡單的消費(fèi)模式,請(qǐng)?jiān)L問www.nvidia.com/DGXA100。
關(guān)于NVIDIA
NVIDIA(納斯達(dá)克股票代碼:NVDA)在1999年發(fā)明的GPU激發(fā)了PC游戲市場的增長,重新定義了現(xiàn)代計(jì)算機(jī)顯卡,并且對(duì)并行計(jì)算進(jìn)行了革新。最近,通過將GPU作為可以感知和理解世界的計(jì)算機(jī)、機(jī)器人乃至自動(dòng)駕駛汽車的大腦,GPU深度學(xué)習(xí)再度點(diǎn)燃了全新的計(jì)算時(shí)代——現(xiàn)代人工智能。更多信息,請(qǐng)?jiān)L問http://nvidianews.nvidia.com/。