ICC訊 近日,浪潮信息前瞻性布局的PCIe光互連技術方案順利通過原型樣機驗證。該方案實現(xiàn)了混合速率線性光傳輸,解決了PCIe協(xié)議與光傳輸技術之間的兼容性問題。測試結果顯示,該方案有效地將PCIe Gen5信號傳輸距離拓展至30米,相比傳統(tǒng)銅互連傳輸距離提升了20倍,同時避免了高速電信號長距離傳輸中的信號衰減問題,實現(xiàn)了更高性能、更低延遲、更穩(wěn)定的數據傳輸,可滿足大規(guī)模數據中心,機柜內和機柜間長距離高速總線信號互連的需求。
大模型時代對PCIe技術進步的需求
PCIe總線協(xié)議(Peripheral Component Interconnect Express)作為計算機和服務器中使用最廣泛的高速數據傳輸技術,其傳輸性能的提升對于滿足這些需求至關重要。傳統(tǒng)連接方案主要依賴于銅纜進行電信號傳輸,用于單機內部計算芯片和設備之間互連。眾所周知,銅纜在信號完整性、延遲、傳輸距離和功耗等方面存在日益突出的局限,無法滿足PCIe高性能互連系統(tǒng)的需求。
同時,隨著AIGC的發(fā)展,千億參數成為大模型智能涌現(xiàn)的臨界點,參數規(guī)模越大,意味著計算復雜度越高,因此所需要的算力規(guī)模也變得越來越大,萬卡成為算力系統(tǒng)設計的起點,單機內部的PCIe連接已經不能滿足需求,機柜內互連和跨機柜的互連成為新的發(fā)展方向,以實現(xiàn)更高效的數據交換和資源共享。光互連技術在這里開始發(fā)揮作用,利用光纖來替代銅纜,進一步提升帶寬和傳輸距離。為解決這些問題,包括PCI-SIG(PCI Special Interest Group)和浪潮信息等在內的眾多組織或公司,正在積極研究和推進PCIe光互連技術,該技術將顛覆數據中心的互連方式,為Data Center as a Computer的實現(xiàn)奠定基礎。
PCIe技術演進中的光互連挑戰(zhàn)
經過20多年的發(fā)展,PCIe技術已經成為計算系統(tǒng)中數據通信的核心技術,自誕生以來,PCIe協(xié)議經歷了從1.0到6.0版本的迭代,PCIe數據傳輸速率也從1.0的2.5GT/s,提升為6.0的64GT/s。這一進步的同時也帶來了新的挑戰(zhàn)。
PCIe技術快速發(fā)展與電互連局限的矛盾日益突出。傳統(tǒng)的PCIe電互連傳輸方式雖然成熟,但在面對日益增長的數據傳輸需求時,其傳輸帶寬和傳輸距離方面的限制逐漸凸顯,已無法滿足高性能PCIe互連對應的業(yè)務場景。浪潮信息開始探索使用光互連技術替代傳統(tǒng)的電互連方案,光互連技術可以實現(xiàn)更遠的距離、更高的帶寬和更低的延遲,這為PCIe架構帶來了突破的可能,有望成為服務器系統(tǒng)未來高速數據傳輸的重要發(fā)展方向。
在研究過程中,浪潮信息的工程師們發(fā)現(xiàn)盡管光互連技術有明顯的優(yōu)勢,但PCIe協(xié)議與光傳輸技術之間的兼容性問題卻成為了新的挑戰(zhàn)。PCIe協(xié)議制定之初并未考慮采用光互連來傳輸,導致現(xiàn)有光傳輸技術與PCIe協(xié)議之間存在許多不兼容的地方,如圖2。
圖2
首先,PCIe鏈路的建立包括接收端檢測、電氣空閑狀態(tài)和協(xié)商鏈路速率等過程,常規(guī)的光模塊設計通常針對的是簡單的光信號傳輸,不具備處理這些復雜的協(xié)議過程的能力。
其次,PCIe鏈路的穩(wěn)定建立需要輔助信號的支持,如PERST#、PRSNT# 等,而光模塊內部通常沒有預留傳輸輔助信號的通道。這些不兼容的地方阻礙了PCIe協(xié)議與光傳輸的結合。
眾所周知,隨著PCIe速率的增加,傳統(tǒng)銅纜在長距離傳輸面臨著越來越大的挑戰(zhàn)。例如,PCIe 1.0時,銅纜傳輸距離可達10米,而PCIe 4.0時,這一距離縮短至3、4米;當速率進一步提高到64 GT/s和128 GT/s,也即PCIe 6.0和未來的PCIe 7.0,銅纜傳輸距離將進一步縮短至幾十厘米,無法滿足數據中心的長距離傳輸需求,PCIe光互連變得不可或缺。
浪潮信息PCIe光互連方案:突破距離限制,實現(xiàn)高效能數據中心互連
浪潮信息針對PCIe電互連在傳輸帶寬和距離上的局限性,創(chuàng)新研發(fā)了PCIe光互連方案,成功將PCIe信號從1.4米傳輸距離拓展至30米,滿足數據中心對長距離高性能互連網絡的需求。
針對光傳輸中與PCIe協(xié)議的不兼容問題,浪潮信息的工程師們深入研究了PCIe協(xié)議以及光電轉換組件的工作原理,提出了混合速率線性光傳輸方案,如圖3。
圖3
該方案包含三大關鍵技術特征:
· 將輔助信號匯合并編譯為600Mbps的低壓差分信號,與寬速率范圍的高速數據信號一起,通過光纖鏈路實現(xiàn)同步傳輸。
· 利用線性直驅技術構建了高速信號的光傳輸鏈路,這不僅優(yōu)化了光電轉換過程,還擴大了光電器件的傳輸帶寬,同時減少了光鏈路的能耗和傳輸延遲。
· 通過硬件升級來擴展和升級鏈路,確保能夠適應未來PCIe Gen6和Gen7設備的組網互連需求。
基于上述方案,浪潮信息的工程師們開發(fā)了PCIe光互連的原型,并進行了傳輸驗證。測試結果顯示,該原型不僅實現(xiàn)了30米光纖鏈路PCIe Gen5信號傳輸,還實現(xiàn)了PCIe輔助信號的光傳輸,圖4為30米光互連鏈路眼圖測試結果。作為對比,同樣的系統(tǒng)架構,銅纜方案最遠傳輸距離約1.4米,因此光互連方案成功實現(xiàn)將PCIe Gen5信號傳輸距離提升20倍。并且在性能測試環(huán)節(jié),PCIe光互連鏈路通過2小時的NVMe-based FIO讀寫測試和24小時GPU帶寬測試,遠距離傳輸性能與NVMe盤和GPU直連CPU的測試數據基本一致,證明了該方案的有效性和可靠性。
而且在針對不同距離條件下信號傳輸質量的測試中,30米長度的光纖鏈路眼高和眼寬結果與1米長度的光纖鏈路基本一致,如圖5的(1)和(2)。這表明信號的傳輸質量幾乎不隨光鏈路長度增加而衰減,這種優(yōu)勢是電互連傳輸技術所不具備的。
備注:眼高和眼寬是用于評估高速信號質量的兩個重要參數,據此可直觀地觀察高速信號在傳輸過程中受到的噪聲和抖動影響,從而評估信號的整體傳輸質量。
圖4
圖5(1)
圖5(2)
PCIe協(xié)議仍在不斷迭代,數據傳輸速率和功能不斷提升,在服務器系統(tǒng)高速互連中的作用愈發(fā)關鍵。光互連傳輸技術通過提供更遠的傳輸距離、更低的延遲和更低的功耗,克服了傳統(tǒng)電互連的局限性。展望未來,PCIe光互連技術將在智算中心、大規(guī)模數據中心等領域發(fā)揮更大作用,為現(xiàn)代計算和數據通信領域帶來更多創(chuàng)新和突破。