引言
2023 年是生成式人工智能的一年,對 ChatGPT 等新型大型語言模型(LLM)的興趣大增。眾多公司正在將人工智能整合到自己的服務(wù)中(如微軟Bing、谷歌Bard、Adobe Creative Cloud 等),對英偉達今年的股價產(chǎn)生了重大影響。
在我們展望人工智能的未來及其面臨的挑戰(zhàn)時,Ayar Labs 的首席技術(shù)官兼聯(lián)合創(chuàng)始人Vladimir Stojanovic提供真知灼見,在這次問答訪談中就 Ayar Labs 的技術(shù)如何促進生成式人工智能的發(fā)展向 Vladimir 提出了十幾個問題。
問答訪談
1.從架構(gòu)的角度來看,在繼續(xù)提高人工智能模型的增長和性能方面面臨哪些挑戰(zhàn),尤其是在生成式人工智能的背景下?
生成式人工智能模型的關(guān)鍵在于它們非常龐大,需要在許多 GPU 之間進行全局通信,這超出了數(shù)據(jù)中心中單個機箱或機架的范圍。即使是推理(即推理和決策),要求也很高,微調(diào)和訓練更是如此。大致的規(guī)模是這樣的:一個機架用于推理,數(shù)十個機架用于微調(diào),數(shù)百個機架用于訓練。你必須以某種方式將所有這些 GPU 互聯(lián)起來。
2. GPU 互聯(lián)的關(guān)鍵考慮因素是什么?
在上述生成式人工智能架構(gòu)中,互聯(lián)的作用是在全 GPU I/O 帶寬和低延遲的情況下,提供從每個 GPU 到每個其他 GPU 或子系統(tǒng)的全局通信,以最大限度地提高處理效率,同時在功耗、面積和成本方面的影響可以忽略不計。基本上,它使分布式系統(tǒng)看起來就像一個巨大的虛擬 GPU。因此,互聯(lián)必須非常快速、密集、省電和經(jīng)濟。這就是 Ayar Labs致力于將光學輸入/輸出(I/O)商業(yè)化的原因:利用硅基光電子技術(shù)在芯片級集成光學連接,直接從 GPU(XPU)封裝中產(chǎn)生最快、最高效的互連。
3. 目前使用的是什么,為什么不是最佳的?
目前,這些系統(tǒng)依賴于可插拔光連接,這本質(zhì)上是一種光網(wǎng)絡(luò)技術(shù)??刹灏喂饫|非常適合電信等長距離應(yīng)用,但并不是為板載輸入/輸出而設(shè)計的。
在帶寬/延遲、功耗、密度和成本這四個方面,可插拔設(shè)備都無法滿足 GPU 輸入/輸出的要求?;诓灏问皆O(shè)計的 GPU 至 GPU 鏈路(或 GPU 至外部交換機鏈路)每比特消耗約 30 皮焦耳(pJ/b): 從最初的電氣 GPU 到光學可插拔鏈接需要 5 皮焦耳/比特,光學可插拔到光學可插拔鏈接需要 20 皮焦耳/比特,從光學可插拔轉(zhuǎn)換回電氣 GPU 或交換機還需要 5 皮焦耳/比特。將這 30pJ/b 與封裝內(nèi)光 I/O 解決方案相比,后者直接連接兩個封裝,功耗不到 5pJ/b,可節(jié)省近 8 倍功耗。
插拔式模塊也很笨重。與封裝內(nèi)光 I/O 相比,其邊緣帶寬密度低 10 倍以上,面積密度低 100 倍以上。這就限制了從 GPU 卡或機箱到系統(tǒng)其他部分的帶寬。基本上,今天我們已經(jīng)到了極限,也許還能再擠出一代,系統(tǒng)就會完全陷入瓶頸。最后但并非最不重要的是成本。由于插拔式電纜是外部模塊,而不是板載芯片,因此其成本擴展性很差,多年來一直徘徊在 1 至 2 美元/Gbps 之間。要實現(xiàn)未來生成式人工智能系統(tǒng)性能擴展所需的 GPU-GPU 帶寬擴展,成本需要降低約 10 倍。封裝內(nèi)光電 I/O 可以通過在光電芯片側(cè)和激光側(cè)進行集成,幫助實現(xiàn)上述成本節(jié)約。
4. 您能談?wù)剬τ柧毢屯评淼挠绊憜??您認為光 I/O 在哪些方面能發(fā)揮最大作用?
如上所述,有三種應(yīng)用,每種應(yīng)用都有不同的足跡和數(shù)量。首先,您需要訓練一個人工智能模型,然后對其進行微調(diào)(這可能是持續(xù)性的),最后通過推理將其投入生產(chǎn)。考慮到模型的擴展趨勢--從目前最大的模型到下一代或兩代模型,推斷將需要 10-100 個 GPU,微調(diào)需要 100-1000 個 GPU,而訓練則需要數(shù)千到數(shù)萬個 GPU。鑒于一個機箱最多可容納 8 個 GPU,而一個機架可容納 32 個 GPU,因此即使是推理也會成為需要光 I/O 的機架級操作。
5. 您能否解釋一下系統(tǒng)工程師在設(shè)計大規(guī)模人工智能工作負載時面臨的主要挑戰(zhàn),以及光 I/O 如何應(yīng)對這些挑戰(zhàn)?
首先,我們要明確我們談?wù)摰氖钦l。如果我們指的是機器學習(ML)程序員,那么采用光 I/O 的平臺將提供具有高吞吐量擴展、低延遲性能和低延遲分布的 Fabric 解決方案。這樣一來,整個分布式計算操作看起來就像一個單一的虛擬 GPU,從而提高了程序員的工作效率,實現(xiàn)了可擴展的 ML 工作負載。
如果我們談?wù)摰氖怯布O(shè)計人員,他們需要構(gòu)建能夠?qū)崿F(xiàn)強可擴展性分布式計算的平臺,那么光 I/O 就能實現(xiàn)物理分解。這是用更小的組件構(gòu)建復雜、可擴展的平臺的關(guān)鍵所在,而這些組件的成本縮放曲線也更為激進??梢韵胂螅磥淼脑O(shè)計將圍繞類似于一堆物理分解的 GPU 計算卡或交換卡來構(gòu)建,而不再需要復雜而昂貴的多 GPU 機箱。
6. 在未來五到十年內(nèi),您如何看待光 I/O 技術(shù)在人工智能模型增長和能源消耗方面的作用?
光 I/O 的路線圖可實現(xiàn)超過十年的持續(xù)帶寬和功耗擴展,這反過來又可實現(xiàn)強大的分布式計算平臺擴展和相應(yīng)的模型增長。
7. 在生成式人工智能場景中,"全對全連接 "與統(tǒng)一延遲和總體效率有何關(guān)系?光 I/O 在這方面有何幫助?
在生成式人工智能所需的超大規(guī)模(如數(shù)千個計算插槽)中,必須通過交換結(jié)構(gòu)實現(xiàn)全對全連接。這必須分布在所有計算插座上(如基于 TPU 的系統(tǒng)),或者與計算插座分開(如基于 GPU 的系統(tǒng))。無論哪種情況,光 I/O 都能以低功耗和低成本提供豐富的帶寬和低每鏈路延遲。這就使得大量對距離不敏感的光連接可以直接從計算/交換插座和光纖架構(gòu)拓撲(即所謂的胖樹(或折疊克洛斯)設(shè)計)中取出,從而在不影響注入帶寬(節(jié)點向網(wǎng)絡(luò)注入數(shù)據(jù)的速率)或分段帶寬(計算真正的整體網(wǎng)絡(luò)帶寬)的情況下提供短而均勻的延遲。
目前,現(xiàn)有的 Fabric 設(shè)計在 Fabric 成本和性能之間折衷的辦法是使用較少的光纖可插拔連接,例如,與胖樹設(shè)計中計算節(jié)點的注入能力相比,降低分段帶寬,或使用其他 Fabric 拓撲(如 TPU 系統(tǒng)中的環(huán)形結(jié)構(gòu)),這些拓撲結(jié)構(gòu)最大限度地減少了機架和行級光纖連接的數(shù)量,但帶來了不均勻的延遲曲線,再次限制了應(yīng)用性能。
8. 您能否詳細說明光 I/O 技術(shù)在可重構(gòu)性方面的作用,特別是在適應(yīng)不斷變化的人工智能模型要求方面,以及這種靈活性如何影響系統(tǒng)級效率?
封裝內(nèi)光學 I/O 可實現(xiàn)計算/交換封裝的高帶寬和大量端口(鏈路),為如何配置結(jié)構(gòu)以滿足不斷變化的模型要求提供了靈活性。例如,系統(tǒng)設(shè)計可以強調(diào)更高的弧度(更多鏈接),從而根據(jù)需要增加節(jié)點數(shù)量,以更低的延遲支持更大的模型張量并行性。另外,系統(tǒng)設(shè)計也可以強調(diào)提高每個鏈路的吞吐量,從而降低流水線并行的傳輸延遲。
9. 考慮到人工智能應(yīng)用向邊緣計算發(fā)展的趨勢,光 I/O 技術(shù)在為資源受限的邊緣設(shè)備提供高速連接方面有哪些獨特的挑戰(zhàn)和機遇?
由于邊緣設(shè)備可利用的資源有限,物理分解是一個關(guān)鍵考慮因素,也是光 I/O 的主要優(yōu)勢之一。例如,航空航天公司正在尋求將下一代傳感器從底層計算中分離出來,以重新平衡關(guān)鍵約束條件(如尺寸、重量和功率),同時實現(xiàn)新的傳感配置,解決距離(一米以上)問題(如多靜態(tài)雷達、合成孔徑、協(xié)作多輸入多輸出通信等)。
10. 光 I/O可為人工智能帶來哪些潛在的性能提升?
我們一直在創(chuàng)建和評估平臺開發(fā),在機箱、機架和系統(tǒng)層面,這些平臺有可能在下一代產(chǎn)品中將光纖架構(gòu)吞吐量提升 10 倍以上。這樣,互連帶寬就能跟上 GPU 改進和人工智能集群擴展的趨勢,確保連接性不會成為未來人工智能發(fā)展的制約因素。
11. 隨著光 I/O 的成熟,在標準化、互操作性和生態(tài)系統(tǒng)發(fā)展方面有哪些關(guān)鍵考慮因素,以確保其廣泛采用并與各種生成式人工智能硬件和軟件框架兼容?
標準化對于整個生態(tài)系統(tǒng)的發(fā)展和繁榮非常重要,而標準化必須將光 I/O 作為核心考慮因素。這里有兩個要素:物理和軟件。
在物理層,有連接本身和為光學供電的激光。UCIe(通用芯片互連 Express)是業(yè)界圍繞封裝級通用互連而制定的標準,它將同類最佳的芯片到芯片互連與來自可互操作的多供應(yīng)商生態(tài)系統(tǒng)的協(xié)議連接結(jié)合在一起。
對于激光器而言,CW-WDM MSA(連續(xù)波分復用多源協(xié)議)是一項行業(yè)倡議和規(guī)范,旨在為新興的先進集成光學應(yīng)用(如人工智能、高性能計算和高密度光學)實現(xiàn) O 波段 WDM CW 光源標準化,這些應(yīng)用預計將發(fā)展到 8、16 和 32 波長。
與其他物理層互連技術(shù)相比,這兩項計劃都能在性能、效率、成本和帶寬擴展方面實現(xiàn)飛躍。
在軟件層,CXL(Compute Express Link)等協(xié)議是處理器、內(nèi)存和加速器高速緩存相干互連的開放標準,是未來的發(fā)展趨勢。這使得池化或交換式內(nèi)存等先進技術(shù)成為可能,為 GPU 利用物理層的高吞吐量和低延遲共享分解內(nèi)存提供了基礎(chǔ)。
12. 在技能組合和專業(yè)知識方面,進入人工智能光 I/O 開發(fā)領(lǐng)域的專業(yè)人員需要具備哪些關(guān)鍵資質(zhì)和知識領(lǐng)域,企業(yè)和教育機構(gòu)如何為人才隊伍做好相應(yīng)準備?
這是一個具有挑戰(zhàn)性的跨學科問題--從硅基光電子學和激光物理學到電路設(shè)計和計算機/網(wǎng)絡(luò)架構(gòu)(再加上制造和封裝),更不用說分布式計算/共享內(nèi)存系統(tǒng)的系統(tǒng)編程/通信堆棧。公司、個人和教育機構(gòu)可以通過認識和強調(diào)這種跨堆棧設(shè)計方法來做好最佳準備。
后記
感謝 Vladimir 先生抽出寶貴時間分享見解和觀點,讓我們了解如何應(yīng)對企業(yè)在發(fā)展和提高人工智能模型性能時所面臨的架構(gòu)挑戰(zhàn)。顯而易見,光 I/O 在實現(xiàn)生成式人工智能的未來方面大有可為。
參考來源
https://insidebigdata.com/2024/03/13/how-optical-i-o-is-enabling-the-future-of-generative-ai-a-qa-with-ayar-labs-cto-vladimir-stojanovic/?utm_content=288493874&utm_medium=social&utm_source=linkedin&hss_channel=lcp-6627049
新聞來源:逍遙設(shè)計自動化
相關(guān)文章