Ayar Labs CTO Vladimir Stojanovic訪談:基于硅基光電子技術的光I/O如何助力生成式人工智能的未來

訊石光通訊網 2024/4/12 9:55:21

  引言

  2023 年是生成式人工智能的一年,對 ChatGPT 等新型大型語言模型(LLM)的興趣大增。眾多公司正在將人工智能整合到自己的服務中(如微軟Bing、谷歌Bard、Adobe Creative Cloud 等),對英偉達今年的股價產生了重大影響。

  在我們展望人工智能的未來及其面臨的挑戰(zhàn)時,Ayar Labs 的首席技術官兼聯(lián)合創(chuàng)始人Vladimir Stojanovic提供真知灼見,在這次問答訪談中就 Ayar Labs 的技術如何促進生成式人工智能的發(fā)展向 Vladimir 提出了十幾個問題。

  問答訪談

  1.從架構的角度來看,在繼續(xù)提高人工智能模型的增長和性能方面面臨哪些挑戰(zhàn),尤其是在生成式人工智能的背景下?

  生成式人工智能模型的關鍵在于它們非常龐大,需要在許多 GPU 之間進行全局通信,這超出了數據中心中單個機箱或機架的范圍。即使是推理(即推理和決策),要求也很高,微調和訓練更是如此。大致的規(guī)模是這樣的:一個機架用于推理,數十個機架用于微調,數百個機架用于訓練。你必須以某種方式將所有這些 GPU 互聯(lián)起來。

  2. GPU 互聯(lián)的關鍵考慮因素是什么?

  在上述生成式人工智能架構中,互聯(lián)的作用是在全 GPU I/O 帶寬和低延遲的情況下,提供從每個 GPU 到每個其他 GPU 或子系統(tǒng)的全局通信,以最大限度地提高處理效率,同時在功耗、面積和成本方面的影響可以忽略不計。基本上,它使分布式系統(tǒng)看起來就像一個巨大的虛擬 GPU。因此,互聯(lián)必須非常快速、密集、省電和經濟。這就是 Ayar Labs致力于將光學輸入/輸出(I/O)商業(yè)化的原因:利用硅基光電子技術在芯片級集成光學連接,直接從 GPU(XPU)封裝中產生最快、最高效的互連。

  3. 目前使用的是什么,為什么不是最佳的?

  目前,這些系統(tǒng)依賴于可插拔光連接,這本質上是一種光網絡技術。可插拔光纜非常適合電信等長距離應用,但并不是為板載輸入/輸出而設計的。

  在帶寬/延遲、功耗、密度和成本這四個方面,可插拔設備都無法滿足 GPU 輸入/輸出的要求?;诓灏问皆O計的 GPU 至 GPU 鏈路(或 GPU 至外部交換機鏈路)每比特消耗約 30 皮焦耳(pJ/b): 從最初的電氣 GPU 到光學可插拔鏈接需要 5 皮焦耳/比特,光學可插拔到光學可插拔鏈接需要 20 皮焦耳/比特,從光學可插拔轉換回電氣 GPU 或交換機還需要 5 皮焦耳/比特。將這 30pJ/b 與封裝內光 I/O 解決方案相比,后者直接連接兩個封裝,功耗不到 5pJ/b,可節(jié)省近 8 倍功耗。

  插拔式模塊也很笨重。與封裝內光 I/O 相比,其邊緣帶寬密度低 10 倍以上,面積密度低 100 倍以上。這就限制了從 GPU 卡或機箱到系統(tǒng)其他部分的帶寬?;旧希裉煳覀円呀浀搅藰O限,也許還能再擠出一代,系統(tǒng)就會完全陷入瓶頸。最后但并非最不重要的是成本。由于插拔式電纜是外部模塊,而不是板載芯片,因此其成本擴展性很差,多年來一直徘徊在 1 至 2 美元/Gbps 之間。要實現(xiàn)未來生成式人工智能系統(tǒng)性能擴展所需的 GPU-GPU 帶寬擴展,成本需要降低約 10 倍。封裝內光電 I/O 可以通過在光電芯片側和激光側進行集成,幫助實現(xiàn)上述成本節(jié)約。

  4. 您能談談對訓練和推理的影響嗎?您認為光 I/O 在哪些方面能發(fā)揮最大作用?

  如上所述,有三種應用,每種應用都有不同的足跡和數量。首先,您需要訓練一個人工智能模型,然后對其進行微調(這可能是持續(xù)性的),最后通過推理將其投入生產。考慮到模型的擴展趨勢--從目前最大的模型到下一代或兩代模型,推斷將需要 10-100 個 GPU,微調需要 100-1000 個 GPU,而訓練則需要數千到數萬個 GPU。鑒于一個機箱最多可容納 8 個 GPU,而一個機架可容納 32 個 GPU,因此即使是推理也會成為需要光 I/O 的機架級操作。

  5. 您能否解釋一下系統(tǒng)工程師在設計大規(guī)模人工智能工作負載時面臨的主要挑戰(zhàn),以及光 I/O 如何應對這些挑戰(zhàn)?

  首先,我們要明確我們談論的是誰。如果我們指的是機器學習(ML)程序員,那么采用光 I/O 的平臺將提供具有高吞吐量擴展、低延遲性能和低延遲分布的 Fabric 解決方案。這樣一來,整個分布式計算操作看起來就像一個單一的虛擬 GPU,從而提高了程序員的工作效率,實現(xiàn)了可擴展的 ML 工作負載。

  如果我們談論的是硬件設計人員,他們需要構建能夠實現(xiàn)強可擴展性分布式計算的平臺,那么光 I/O 就能實現(xiàn)物理分解。這是用更小的組件構建復雜、可擴展的平臺的關鍵所在,而這些組件的成本縮放曲線也更為激進??梢韵胂螅磥淼脑O計將圍繞類似于一堆物理分解的 GPU 計算卡或交換卡來構建,而不再需要復雜而昂貴的多 GPU 機箱。

  6. 在未來五到十年內,您如何看待光 I/O 技術在人工智能模型增長和能源消耗方面的作用?

  光 I/O 的路線圖可實現(xiàn)超過十年的持續(xù)帶寬和功耗擴展,這反過來又可實現(xiàn)強大的分布式計算平臺擴展和相應的模型增長。

  7. 在生成式人工智能場景中,"全對全連接 "與統(tǒng)一延遲和總體效率有何關系?光 I/O 在這方面有何幫助?

  在生成式人工智能所需的超大規(guī)模(如數千個計算插槽)中,必須通過交換結構實現(xiàn)全對全連接。這必須分布在所有計算插座上(如基于 TPU 的系統(tǒng)),或者與計算插座分開(如基于 GPU 的系統(tǒng))。無論哪種情況,光 I/O 都能以低功耗和低成本提供豐富的帶寬和低每鏈路延遲。這就使得大量對距離不敏感的光連接可以直接從計算/交換插座和光纖架構拓撲(即所謂的胖樹(或折疊克洛斯)設計)中取出,從而在不影響注入帶寬(節(jié)點向網絡注入數據的速率)或分段帶寬(計算真正的整體網絡帶寬)的情況下提供短而均勻的延遲。

  目前,現(xiàn)有的 Fabric 設計在 Fabric 成本和性能之間折衷的辦法是使用較少的光纖可插拔連接,例如,與胖樹設計中計算節(jié)點的注入能力相比,降低分段帶寬,或使用其他 Fabric 拓撲(如 TPU 系統(tǒng)中的環(huán)形結構),這些拓撲結構最大限度地減少了機架和行級光纖連接的數量,但帶來了不均勻的延遲曲線,再次限制了應用性能。

  8. 您能否詳細說明光 I/O 技術在可重構性方面的作用,特別是在適應不斷變化的人工智能模型要求方面,以及這種靈活性如何影響系統(tǒng)級效率?

  封裝內光學 I/O 可實現(xiàn)計算/交換封裝的高帶寬和大量端口(鏈路),為如何配置結構以滿足不斷變化的模型要求提供了靈活性。例如,系統(tǒng)設計可以強調更高的弧度(更多鏈接),從而根據需要增加節(jié)點數量,以更低的延遲支持更大的模型張量并行性。另外,系統(tǒng)設計也可以強調提高每個鏈路的吞吐量,從而降低流水線并行的傳輸延遲。

  9. 考慮到人工智能應用向邊緣計算發(fā)展的趨勢,光 I/O 技術在為資源受限的邊緣設備提供高速連接方面有哪些獨特的挑戰(zhàn)和機遇?

  由于邊緣設備可利用的資源有限,物理分解是一個關鍵考慮因素,也是光 I/O 的主要優(yōu)勢之一。例如,航空航天公司正在尋求將下一代傳感器從底層計算中分離出來,以重新平衡關鍵約束條件(如尺寸、重量和功率),同時實現(xiàn)新的傳感配置,解決距離(一米以上)問題(如多靜態(tài)雷達、合成孔徑、協(xié)作多輸入多輸出通信等)。

  10. 光 I/O可為人工智能帶來哪些潛在的性能提升?

  我們一直在創(chuàng)建和評估平臺開發(fā),在機箱、機架和系統(tǒng)層面,這些平臺有可能在下一代產品中將光纖架構吞吐量提升 10 倍以上。這樣,互連帶寬就能跟上 GPU 改進和人工智能集群擴展的趨勢,確保連接性不會成為未來人工智能發(fā)展的制約因素。

  11. 隨著光 I/O 的成熟,在標準化、互操作性和生態(tài)系統(tǒng)發(fā)展方面有哪些關鍵考慮因素,以確保其廣泛采用并與各種生成式人工智能硬件和軟件框架兼容?

  標準化對于整個生態(tài)系統(tǒng)的發(fā)展和繁榮非常重要,而標準化必須將光 I/O 作為核心考慮因素。這里有兩個要素:物理和軟件。

  在物理層,有連接本身和為光學供電的激光。UCIe(通用芯片互連 Express)是業(yè)界圍繞封裝級通用互連而制定的標準,它將同類最佳的芯片到芯片互連與來自可互操作的多供應商生態(tài)系統(tǒng)的協(xié)議連接結合在一起。

  對于激光器而言,CW-WDM MSA(連續(xù)波分復用多源協(xié)議)是一項行業(yè)倡議和規(guī)范,旨在為新興的先進集成光學應用(如人工智能、高性能計算和高密度光學)實現(xiàn) O 波段 WDM CW 光源標準化,這些應用預計將發(fā)展到 8、16 和 32 波長。

  與其他物理層互連技術相比,這兩項計劃都能在性能、效率、成本和帶寬擴展方面實現(xiàn)飛躍。

  在軟件層,CXL(Compute Express Link)等協(xié)議是處理器、內存和加速器高速緩存相干互連的開放標準,是未來的發(fā)展趨勢。這使得池化或交換式內存等先進技術成為可能,為 GPU 利用物理層的高吞吐量和低延遲共享分解內存提供了基礎。

  12. 在技能組合和專業(yè)知識方面,進入人工智能光 I/O 開發(fā)領域的專業(yè)人員需要具備哪些關鍵資質和知識領域,企業(yè)和教育機構如何為人才隊伍做好相應準備?

  這是一個具有挑戰(zhàn)性的跨學科問題--從硅基光電子學和激光物理學到電路設計和計算機/網絡架構(再加上制造和封裝),更不用說分布式計算/共享內存系統(tǒng)的系統(tǒng)編程/通信堆棧。公司、個人和教育機構可以通過認識和強調這種跨堆棧設計方法來做好最佳準備。

  后記

  感謝 Vladimir 先生抽出寶貴時間分享見解和觀點,讓我們了解如何應對企業(yè)在發(fā)展和提高人工智能模型性能時所面臨的架構挑戰(zhàn)。顯而易見,光 I/O 在實現(xiàn)生成式人工智能的未來方面大有可為。

  參考來源

  https://insidebigdata.com/2024/03/13/how-optical-i-o-is-enabling-the-future-of-generative-ai-a-qa-with-ayar-labs-cto-vladimir-stojanovic/?utm_content=288493874&utm_medium=social&utm_source=linkedin&hss_channel=lcp-6627049

新聞來源:逍遙設計自動化

相關文章