簡介
亞馬遜、谷歌、Meta、微軟、甲骨文和 Akamai 等世界領先的Hyperscaler云數(shù)據(jù)中心公司正在推動專為云計算設計的芯片架構的快速創(chuàng)新。為了在更小的面積內(nèi)容納更多的計算能力,同時降低冷卻成本,這些公司正在采用針對特定數(shù)據(jù)類型和工作負載進行優(yōu)化的異構多核架構。
這一趨勢緊隨移動設備的腳步,因為移動設備必須應對狹小的占地面積以及嚴格的功耗和散熱要求。Quadric 市場營銷副總裁 Steve Roddy 指出:"英特爾等行業(yè)巨頭的單片機幾乎在每個產(chǎn)品代碼中都有人工智能 NPU。當然,人工智能先驅(qū)英偉達(NVIDIA)長期以來一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、shader(CUDA)內(nèi)核和張量內(nèi)核。未來幾年向芯片組的轉(zhuǎn)變將徹底鞏固這一過渡?!?
定制架構的經(jīng)濟性
隨著傳統(tǒng)擴展的優(yōu)勢不斷縮小,以及先進封裝技術的成熟(先進封裝技術允許許多以前受限于微粒尺寸的定制功能),每瓦特和每美元性能的競爭已進入白熱化階段。這導致針對不同工作負載進行優(yōu)化的定制架構激增。
西門子 EDA IC 市場總監(jiān) Neil Hand 解釋說:"如今,每個人都在構建自己的架構,尤其是數(shù)據(jù)中心的參與者,而處理器架構很大程度上取決于工作負載的外觀。與此同時,這些開發(fā)人員也在詢問加速的最佳途徑是什么”。
一些公司專注于多核并行,而另一些公司則以提高內(nèi)存帶寬為目標。許多公司正在為數(shù)據(jù)處理、矩陣運算和壓縮/解壓縮等任務開發(fā)專用加速器。
異構多核架構
由此產(chǎn)生的芯片架構是混合了通用 CPU、GPU 和固定功能加速器的異構多核設計。正如 Synopsys 公司 ASIP 工具產(chǎn)品經(jīng)理 Patrick Verbist 所描述的那樣:
“它們是異構多核架構,通常是通用 CPU 和 GPU 的混合,具體取決于公司類型,因為它們偏好其中一種。然后是具有固定功能的 RTL 加速器......這些加速器運行的應用負載類型一般包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)的壓縮/解壓縮、圖形的權重等?!?
為了支持不斷變化的工作負載要求,許多公司正在采用特定應用指令處理器(ASIP),這種處理器可以定制數(shù)據(jù)通路和指令集。
“ASIP允許定制運算器,因此數(shù)據(jù)路徑和指令集只能以比普通DSP更有效的方式執(zhí)行有限的一組運算,”Verbist說?!叭绻憧? GPU,它必須支持各種工作負載,但不是所有的工作負載。這就是 ASIP 發(fā)揮作用的地方,它支持靈活性和可編程性。
適應人工智能/ML 工作負載
人工智能和機器學習的興起是這種架構多樣性的主要驅(qū)動力。Fraunhofer IIS 高效電子學負責人 Andy Heinig 說:"AI/ML 的需求將加速開發(fā)新的特定應用架構的進程。傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來解決內(nèi)存問題,就能成為這場革命的一部分。如果 CPU 能提供這種新的內(nèi)存架構,那么 AI/ML 加速器就能成為與 CPU 并駕齊驅(qū)的數(shù)據(jù)中心最佳解決方案?!?
Arm正在與AWS、谷歌和微軟等超大規(guī)模廠商直接合作,優(yōu)化其基于Neoverse的AI/ML和高性能計算解決方案?!癆rm 基礎設施產(chǎn)品線產(chǎn)品管理高級總監(jiān) Brian Jeff 說:”CPU 上推理非常重要,我們看到合作伙伴正在利用我們的 SVE 管道和矩陣數(shù)學增強功能以及數(shù)據(jù)類型來運行推理。
GPT-3 等大型語言模型所需的巨大模型尺寸也推動了新的架構考慮。Synopsys 首席產(chǎn)品經(jīng)理 Priyank Shukla 解釋說:
“以 GPT-3 為例,它有 1,750 億個參數(shù)。每個參數(shù)的寬度為 2 字節(jié),即 16 位。您需要在 2 個字節(jié)中存儲如此多的信息--1750 億個參數(shù),相當于 3500 億字節(jié)的內(nèi)存。這些內(nèi)存需要存儲在共享該模型的所有加速器中,而該模型需要放置在加速器的結(jié)構中......你需要一個結(jié)構,它可以接受這個更大的模型,然后對其進行處理?!?
這些大型模型的某些部分可以在多個芯片或機架上并行處理,而其他部分則必須通過低延遲訪問完整模型來串行處理。
圖 1 顯示了一個 ML 優(yōu)化服務器機架的示例,旨在高效處理此類大型模型。
多芯片要求
為了集成所有必要的計算元件(CPU、GPU、定制加速器、高帶寬內(nèi)存等),同時管理電源和散熱,多芯片或基于芯片的方法變得重要。
“Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 說:”整個行業(yè)正處于一個拐點,你不能再回避這個問題?!拔覀冊诤笈_談論摩爾定律和‘SysMoore’,但設計人員必須在 CPU 和 GPU 中增加更多功能,而由于微粒尺寸限制、產(chǎn)量限制等原因,他們根本無法在一個芯片中實現(xiàn)這些功能。多芯片在這里是不可避免的。
多芯片設計為分區(qū)、芯片間同步、熱管理和 3D 平面規(guī)劃帶來了新的挑戰(zhàn)?!翱ū葼柦忉屨f:”你要把一棟單層房屋變成三層或四層??ū葼柦忉屨f,"但還有其他設計挑戰(zhàn)。你不能再忽視散熱問題了......如果你在平面規(guī)劃時不考慮散熱問題,你的處理器就會燒毀。
在最近的 ISSCC 會議上,Ansys 產(chǎn)品營銷總監(jiān) Marc Swinnen 說:"這些數(shù)據(jù)中心耗電量巨大。我參加了在舊金山舉行的 ISSCC 會議,我們的展臺就在英偉達公司旁邊,英偉達公司正在展示其人工智能訓練箱--一個裝有八個芯片、大量風扇和散熱片的大箱子。我們問它的耗電量有多大,他們說:'哦,最高時有 1 萬瓦,但平均也有 6000 瓦。'電力真是越來越瘋狂了。
采用系統(tǒng)方法
為了應對這些多方面的設計挑戰(zhàn),需要采用一種全面的系統(tǒng)級方法,涵蓋指令集、微架構、內(nèi)存子系統(tǒng)、互連等。
“Arm 的 Jeff 說:”完整的系統(tǒng)方法使我們能夠與合作伙伴合作,根據(jù)現(xiàn)代工作負載和工藝節(jié)點定制 SoC 設計,同時利用基于芯片的設計方法?!斑@種定制芯片設計方法使數(shù)據(jù)中心運營商能夠優(yōu)化其電力成本和計算效率?!?
西門子的 Hand 還強調(diào)了系統(tǒng)級分析和優(yōu)化的重要性:“應用的系統(tǒng)級協(xié)同設計已經(jīng)變得非常重要,而且由于高性能計算不再像以前那樣容易獲得,因此它變得更加容易獲得。這是一個帶輪子的數(shù)據(jù)中心”。
未來之路
這種架構演變的方向很難預測,但很明顯,“高性能計算 ”的定義將繼續(xù)擴大。
“一旦你開始打破馮-諾依曼架構,開始使用不同的內(nèi)存流,開始研究內(nèi)存計算,它就會變得非???。然后你會說,'高性能計算到底意味著什么?
集成硅基光電子技術、跨機架的統(tǒng)一內(nèi)存架構和非馮-諾依曼計算模型等因素可能會從根本上重塑數(shù)據(jù)中心系統(tǒng)拓撲結(jié)構,并重新定義什么是最佳架構和性能。
可以肯定的是,隨著全球最大的科技巨頭繼續(xù)進行軍備競賽,為未來呈指數(shù)級增長的人工智能/移動計算和傳統(tǒng)計算工作負載提供領先的性能、效率和可擴展性,云數(shù)據(jù)中心芯片設計的創(chuàng)新步伐只會加快。
參考文獻
[1] B. Smith, "Architecting Chips For High-Performance Computing," Semiconductor Engineering, May 15, 2024. [Online]. Available: https://semiengineering.com/architecting-chips-for-high-performance-computing/. [Accessed: May 23, 2024].