簡介
在人工智能(AI)和機器學習(ML)技術進步的推動下,數據消費呈指數級增長,對現(xiàn)代數據中心的高速連接產生了前所未有的需求。隨著人工智能模型的復雜性不斷提高,參數數量達到天文數字(例如,BaGuaLu 的內核數量超過 3,700 萬),對帶寬和低延遲互連的需求變得非常重要。本文將探討能夠支持超過 200 Gbps 數據傳輸速率的下一代有線收發(fā)器的行業(yè)趨勢、新興技術和設計考慮因素,這些對于實現(xiàn)人工智能和數據中心應用中的無縫數據流非常重要,Alphawave的Tony Chan Carusone在ISSCC2024論壇上發(fā)布了題為:”The Impact of Industry Trends on 200+Gbps Wireline R&D” 的報告,本文將梳理其中的大致內容。
驅動連接需求的大趨勢
1. 人工智能連接性和擴展性
人工智能和 ML 工作負載的快速增長導致了大規(guī)模計算集群的部署,這些集群由數百到數千個通過高速鏈路互連的加速器(xPU)組成。到 2027 年,預計約 50% 的市場收入將由人工智能加速服務器驅動,其中 20% 的以太網數據中心交換機端口將連接到人工智能服務器。此外,預計這些交換機端口中的 50% 將以 400 Gbps 或更高的速度運行,到 2025 年,800 Gbps 的增長速度將超過 400 Gbps(圖 1)。
圖 1:人工智能連接和擴展的預計增長(來源:Dell'Oro Group 數據中心 IT 資本支出預測,2023 年 1 月)
2. 分解存儲
推動高速連接需求的另一個重要趨勢是分解存儲架構的興起。通過將存儲集中在共享池中,數據中心可以提高效率,實現(xiàn)更大的共享池,從而提高資源利用率。然而,這種方法依賴于 PCIe 和 CXL 等低延遲互連,以確保計算資源和分解存儲之間的無縫通信。
3. 有線收發(fā)器趨勢
為滿足不斷增長的帶寬需求,有線收發(fā)器數據速率大約每五年翻一番(圖 2)。預計這一趨勢將持續(xù)下去,在不久的將來,200 鏈路收發(fā)器將被廣泛采用,隨后幾年將出現(xiàn) 400 Gbps 和 800 Gbps 鏈路收發(fā)器。
圖 2:2010-2023 年已發(fā)布的收發(fā)器,顯示數據速率每五年翻一番的趨勢(來源:ISSCC 論壇)
4. 200G 鏈路的優(yōu)勢
采用 200Gbps 鏈路比采用較低數據傳輸速率的鏈路更具優(yōu)勢。例如,一個 51.2 Tbps 的 1RU(機架單元)交換機需要 32 個模塊,每個模塊有 16 x 100 Gbps 光鏈路,與 8 x 200 Gbps 鏈路的同等配置相比,激光器數量增加了一倍。通過減少激光器數量,200 Gbps 鏈路可大幅降低功耗和成本。此外,更高的每信道數據傳輸速率可使網絡拓撲結構更扁平,采用更高的弧度交換機,從而減少延遲-這是人工智能工作負載的關鍵要求。
200G 鏈路的新技術和注意事項
1. 收發(fā)器內部
要支持 200 Gbps 的數據傳輸速率,有線收發(fā)器必須采用先進的數字信號處理 (DSP) 技術和強大的前向糾錯 (FEC) 方案。為了減輕因嚴重信道損耗(大于 30 dB)而造成的符號間干擾(ISI),必須采用大量均衡,如具有大量抽頭的決策反饋均衡器(DFE)。此外,巡回抽頭有限脈沖響應(FIR)均衡器等 DSP 技術也有助于解決短電纜信道中的反射問題。
FEC 在確保通過有損信道進行可靠的數據傳輸方面發(fā)揮著重要的作用。在 200 Gbps 的速率下,需要更強大的 FEC 方案,從而導致解碼復雜度、功耗和延遲增加。為了平衡編碼增益、功耗和延遲之間的權衡,目前正在探索分段 FEC(每個鏈路段都由自己的優(yōu)化 FEC 保護)和串聯(lián) FEC(為光鏈路提供雙重保護)等技術。
在 200 Gbps 速率下采用軟決策 FEC 的一個重要架構影響是有效排除了模擬串行器/解串器(SerDes)架構。取而代之的是,有必要在 FEC 和模擬前端 (AFE) 之間進行更緊密的集成,這有利于基于模數轉換器 (ADC) 的 DSP SerDes 架構。
2. 200G 光電子技術
目前正在為每波長 200 Gbps 的應用研究各種調制技術。電吸收調制激光器(EML)是一種很有前途的選擇,提供了適度的擺幅要求和差分驅動配置的潛力。然而,在優(yōu)化消光比(ER)和啁啾方面仍然存在挑戰(zhàn),尤其是在較長的波長上。
硅基光電子(SiP)馬赫-澤恩德調制器(MZM)和微環(huán)諧振器調制器(MRM)因其集成潛力和低成本而頗具吸引力。然而,對于 200 Gbps 的 SiP 調制器來說,同時實現(xiàn)所需的帶寬、調制效率 (Vπ) 和低光損耗仍然是一項挑戰(zhàn)。
薄膜鈮酸鋰(TFLN)調制器也在探索之中,能提供高帶寬和低驅動電壓,但成本較高,而且存在潛在的集成挑戰(zhàn)。
3. 光/電協(xié)同設計
隨著數據速率的提高,光學和電子組件的協(xié)同設計和共同優(yōu)化變得越來越重要。例如,接收器中光電二極管(PD)和跨阻抗放大器(TIA)之間的封裝互連對寬帶頻率響應有重大影響。優(yōu)化跡線阻抗和采用片上 T 型線圈等技術可以提高帶寬并減少反射。
此外,最佳設計參數可能因 DSP 均衡的存在和功能而異。在沒有 DSP 均衡的情況下,最大限度地減少反射至關重要,而在有 DSP 均衡的情況下,保留一些殘余反射則有利于實現(xiàn)更好的整體性能。
4. 光電共封裝器件 (CPO)
為了應對芯片到模塊互連的挑戰(zhàn),并實現(xiàn)更高的總帶寬,光電共封裝器件(CPO)解決方案正日益受到重視。通過將光學引擎與 ASIC 集成在同一封裝內,CPO 可以消除對復位時器的需求、降低功耗并減少延遲。不過,CPO 也帶來了一些挑戰(zhàn),例如封裝內功率密度和熱管理的增加,以及創(chuàng)新生態(tài)系統(tǒng)的潛在限制。
超越 200 Gbps: 新興技術
1. 并行性: 波分復用和 PSM
為了使每個波長的傳輸速率超過 200 Gbps,目前正在探索波分復用(WDM)和并行單模(PSM)光纖架構等技術。波分復用技術是在單根光纖上復用多個波長,從而實現(xiàn)更高的綜合數據傳輸速率。緊湊型調制技術、低成本和低損耗的波長復用器/解復用器以及多波長激光源是實現(xiàn)波分復用技術的關鍵因素。
2.高階調制格式
提高波特率和采用高階調制格式(如 6-PAM 和 8-PAM)是實現(xiàn)每線路數據速率超過 200 Gbps 的潛在途徑。不過,這些方法需要在模擬帶寬、DSP 和編碼技術方面取得重大進展。
3. 相干光通信
相干光通信是一項在長途網絡中得到驗證的技術,目前正被用于數據中心內的短距離傳輸。通過利用雙偏振正交幅度調制(DP-QAM)等相干調制格式,相干鏈路在相同波特率下的數據傳輸速率是強度調制和直接檢測(IM/DD)鏈路的四倍。
針對 10 千米以下的傳輸距離量身定制的輕型相干解決方案的最新發(fā)展已顯示出良好的效果。這些解決方案利用 O 波段(約 1310 nm)降低 DSP 功耗,同時保持短距離應用可接受的光纖損耗。此外,還在探索同步波特率采樣 DSP 架構,以進一步降低相干收發(fā)器的功耗和延遲。
結論
在人工智能和 ML 技術的推動下,數據消費持續(xù)增長,對現(xiàn)代數據中心的高速連接產生了前所未有的需求。為滿足這些需求,業(yè)界正在積極開發(fā)能夠支持超過 200 Gbps 數據傳輸速率的下一代有線收發(fā)器。
200 Gbps 鏈路的關鍵技術和考慮因素包括先進的 DSP 技術、強大的 FEC 方案、光學和電子組件的協(xié)同設計以及對新光學調制格式的探索。此外,光電共封裝和相干光通信正在成為有前途的解決方案,以應對芯片到模塊互連的挑戰(zhàn),并在數據中心內實現(xiàn)更高的數據傳輸速率。
當我們將目光投向 200 Gbps 以上時,也正在積極研究波分復用技術、高階調制格式和短距離相干光通信等技術。包括模擬和數字設計、編碼理論、光學和系統(tǒng)架構在內的各學科間的合作,對于克服挑戰(zhàn)并實現(xiàn)未來人工智能和數據中心應用中的無縫數據流非常重要。
參考文獻
[1]T. C. Carusone, “The Impact of Industry Trends on 200+Gbps Wireline R&D,” in IEEE International Solid-State Circuits Conference (ISSCC), 2024