用戶名: 密碼: 驗證碼:

騰訊全自研200G/400G網(wǎng)絡的創(chuàng)新與實踐

摘要:騰訊網(wǎng)絡平臺部通過對自研交換機平臺(TONS)以及開放光平臺(TOOP)的產(chǎn)品升級,構(gòu)建了全面自研的100G服務器接入、200G匯聚、400G數(shù)據(jù)中心互聯(lián)的網(wǎng)絡體系。

  騰訊云業(yè)務的高速發(fā)展不但推動了云上層架構(gòu)的創(chuàng)新,也對基礎網(wǎng)絡提出了更高的要求。一方面,池化讓云資源的獲取突破了服務器的邊界,大量的數(shù)據(jù)流往返于服務器間,加大了網(wǎng)內(nèi)的數(shù)據(jù)傳輸量。另一方面,隨著存儲介質(zhì)、計算部件的性能提升,使得網(wǎng)絡性能陡然成為新的瓶頸。在此趨勢下,云基礎網(wǎng)絡向大規(guī)模、高帶寬、低延遲的方向演進的訴求更加迫切。如今,騰訊網(wǎng)絡平臺部通過對自研交換機平臺(TONS)以及開放光平臺(TOOP)的產(chǎn)品升級,構(gòu)建了全面自研的100G服務器接入、200G匯聚、400G數(shù)據(jù)中心互聯(lián)的網(wǎng)絡體系。

  如果把當前的網(wǎng)絡速率迭代比作交通路網(wǎng)升級,那么TONS與TOOP不光從硬件上拓寬了道路,更從軟件上解決了復雜的交通管理難題。

  其中,TONS針對DCN海量交付以及高速率接入需求,在交換機硬件上具備部件級成本透明、樂高式模塊化設計、高精度狀態(tài)采集以及極簡無背板框架等特點,打造了高可控、高質(zhì)量、低成本的交換機產(chǎn)品平臺。在軟件上通過基于開源SONiC深度自研的TCSOS,不光提供了自動化、智能化的可運營能力,更結(jié)合可編程芯片在高性能的基礎上,實現(xiàn)高靈活性。

  而TOOP針對DCI互聯(lián)場景的特點,也從軟硬件層面對波分系統(tǒng)進行了顛覆性創(chuàng)新。首先對波分系統(tǒng)做減法,極大的降低了系統(tǒng)復雜度,通過三個層面的解耦(光電解耦,波道解耦,相干器件解耦),實現(xiàn)了系統(tǒng)交付成本的大幅降低。TOOP硬件產(chǎn)品在DCI盒式產(chǎn)品中首次引入了可切換分段增益光放技術(shù)與Flex-grid技術(shù),實現(xiàn)了極簡運營的能力 。在軟件上,實現(xiàn)1秒級全量PM telemetry上傳,結(jié)合控制器軟件高速迭代,全面打造高度自動化的光網(wǎng)絡系統(tǒng)。

  騰訊自研交換機平臺——TONS

  1.高可控&低成本的硬件設計

  TCS8400與 TCS9400的硬件發(fā)布,宣告了其作為騰訊下一代數(shù)據(jù)中心網(wǎng)絡架構(gòu)的主要載體,提供了100G服務器接入能力以及200G/400G的匯聚能力,同時兼顧端到端的最優(yōu)成本、持續(xù)供應、可靠性以及可運維能力,旨在構(gòu)建高敏捷、最優(yōu)性能、低成本、自服務的閉環(huán)硬件生態(tài)。集中體現(xiàn)在:

TCS8400 & TCS9400前視圖

      自主可控的樂高式部件設計

  新一代交換機硬件平臺由騰訊自主設計,擁有自主產(chǎn)權(quán),可以方便地在ODM廠轉(zhuǎn)產(chǎn),使得各廠商提供的產(chǎn)品做到了硬件歸一,網(wǎng)絡操作系統(tǒng)即插即用。騰訊自研交換機采用了樂高式的部件化設計,將整機電路解耦成不同的模塊與部件。其中CPU扣/底板、BMC扣板、MAC主板等模塊來自于騰訊自研硬件通用平臺,通過繼承這些成熟應用,降低了設計、生產(chǎn)難度及風險。部件選型時更多考慮騰訊數(shù)據(jù)中心良好的溫濕度環(huán)境,選用了最優(yōu)性價比部件,如PSU選用的CRPS電源等。最終讓海量供應有保障的同時,達到成本最優(yōu)。

TCS9400部件拆解圖

       極簡無背板去PHY設計

  傳統(tǒng)交換機方案多借助PHY芯片來提升SI的裕量,但是PHY芯片的引入在增加整機成本的同時、也加大了功耗以及端口link-up時間,最終拉低了設備MTBF。TCS9400的產(chǎn)品形態(tài)為128*200G/64*400G端口,其中速率可配置。在設計時利用多維空間盡量縮短了走線距離,在無PHY的情況下滿足了SI要求, 將MTBF提升30%,單Gbit功耗降低10%,做到了硬件架構(gòu)極簡,成本最低。

  TCS9400整機4RU高度,由于無PHY方案因為SerDes較多,要在同一平面使用多個跨板連接器,存在一定的容差風險。通過對比不同連接器3D圖形間隙,結(jié)合其他連接器的容差參數(shù)計算方法,在結(jié)構(gòu)件設計、定位設計、裝配方案設計上做了針對性的論證和改進。同時對連接器測試指標,環(huán)溫壓力,測試周期等進行修訂并導入。經(jīng)過試驗板實際測試驗證,改進方案可以提高容差能力,排除容差風險。

ASIC芯片I/O封裝內(nèi)走線長度對損耗的影響

  TCS9400的SI是當下高速設計領域的頂級挑戰(zhàn),兼有512路56Gbps PAM4信號、700A大電流,最高密度BGA等業(yè)內(nèi)難題,因此SI的設計和仿真毫無疑問是解決問題的重中之重。SI設計不但考慮了Chip Ball to IO Connector Pin-Channel的設計優(yōu)化,還考慮到了芯片內(nèi)不同Die走線長度的影響。把系統(tǒng)裕量損耗升至25%,足以應對任何不利因素。

串擾優(yōu)化仿真及實測眼圖

  在串擾優(yōu)化設計中,針對跨板連接器這一最大串擾源,通過TX/RX隔離避免了系統(tǒng)近端串擾,全部串擾源最優(yōu)化,將Fanout Via Crosstalk控制在-57db下。所有端口的一致性測試結(jié)果對比IEEE規(guī)范眼高均有60%以上的裕量。

  高精度數(shù)據(jù)采集

  隨著交換機接口帶寬的快速增加,傳統(tǒng)上基于交換機CPU的流量采集,BFD保護等技術(shù),面臨著精度低、成本高的問題。為此我們在交換機內(nèi)部引入了FPGA,通過軟硬協(xié)同的方式提高業(yè)務信息以及網(wǎng)元健康情況的采集精度,為業(yè)務的高性能訴求提供給了高可用保障。

  FPGA通過兩個10GE接口與交換芯片連接,構(gòu)建高帶寬和低時延的報文接收和發(fā)送通道,實現(xiàn)大吞吐的流量采樣、流量注入等功能。FPGA和交換芯片通過CPU PCIe RC橋可以進行PCIe End to End通信,能夠在CPU無感的情況下直接與交換芯片交互,實時獲取到芯片內(nèi)部狀態(tài),同時降低了輪詢數(shù)據(jù)對CPU性能的消耗。

高精度數(shù)據(jù)采集FPGA

  彈性設計、敏捷安裝

  TCS9400的128個業(yè)務口對稱均勻分布,可靈活實現(xiàn)200G/400G端口組合,方便布線和網(wǎng)絡架構(gòu)設計,除PSU接口外,其余端口均在前面板,運維操作更便捷。側(cè)面抬手采用航空級壓鑄鋁材料,造型符合人體工程設計,更方便安裝使用。前面板增加兩個拉手,拆卸時可以通過拉手將設備從機架中拉出,實現(xiàn)快速替換維修。同時,線上設備可以無感知CPLD邏輯進行熱升級。

通過更換端口封裝支持不同速率

  為了匹配TCS9400交換機的快速安裝,我們開發(fā)了光纖理線架。理線架位于交換機上方,光纖沿垂直方向出線到上方理線架,內(nèi)部設計了導線槽和繞柱,保證光纖布線滿足最小折彎半徑。光纖從理線器左右兩邊出線到機柜布線槽,通過理線器實現(xiàn)了隱藏式布線,有效保護光纖的同時,減少了人為對光纖的誤動作。

  2.智能化&高性能的軟件設計

  騰訊交換機硬件平臺搭載了基于開源SONiC深度自研的操作系統(tǒng)。與騰訊網(wǎng)絡建模系統(tǒng)相輔相成,構(gòu)建了智能化的運維體系。在200G/400G網(wǎng)絡時代,TCS OS持續(xù)改進,貼合海量規(guī)模運維以及高性能的需求,讓網(wǎng)絡擁有了更高的升級效率以及更強的可編程能力。集中體現(xiàn)在:

  數(shù)據(jù)模型驅(qū)動的全自動化運營能力

  Tencent YANG Model通過將網(wǎng)絡特性抽象成結(jié)構(gòu)化數(shù)據(jù),為上層應用提供了靈活的可編程能力,加速應用產(chǎn)能的同時,也解放了上層的設計思想。TONS天然支持Tencent YANG Model,通過JSON(Tencent YANG)到JSON(Sonic YANG)的映射,將翻譯層下沉至OS側(cè),快速支持配置與狀態(tài)模型的更新,解決了建模系統(tǒng)中“翻譯難”的問題。同時用gRPC框架替代傳統(tǒng)CLI下發(fā)通道,提高配置下發(fā)與提取性能。

  在該框架下,針對TONS的網(wǎng)絡架構(gòu)設計以及建設運營正式邁向全自動化。相關應用主要有:

  1) 快速故障自愈:利用TCSOS軟件快速迭代的優(yōu)勢,從網(wǎng)元級,鏈路級,操作系統(tǒng)以及芯片級四個維度填充了當前的監(jiān)控盲區(qū)。并結(jié)合gRPC毫秒級下發(fā)能力,實現(xiàn)快速故障自愈。

  2) 配置自動審計:通過每日的數(shù)據(jù)拉取以及對比,清晰的感知配置在現(xiàn)網(wǎng)的變化以及與架構(gòu)標準的偏差。

  3) 基于可編程的配置修改自動化:當網(wǎng)絡架構(gòu)的標準配置用YANG模型來設計時,可以利用層次化可復用的代碼化思想來加速設計效率,當配置需要變更時,結(jié)合配置審計,將與配置標準的偏差自動推送到變更平臺實施,整個流程與軟件發(fā)布異曲同工。

  4) 基于網(wǎng)絡應用商店的軟件升級自動化:在快速迭代的云數(shù)據(jù)中心,對數(shù)以萬計的網(wǎng)絡設備進行頻繁的軟件升級,長久以來給運營帶來了巨大挑戰(zhàn),我們將軟件功能的發(fā)布與更新提升至以周為單位,同時避免對網(wǎng)絡的可靠性和安全性帶來影響。

  相對于OS版本,應用的更新顯得更為頻繁,為了便于對線上設備的應用進行管理和升級,騰訊自研交換機引入了"網(wǎng)絡應用商店",提升運營部署效率。

  其過程為:

  應用開發(fā)完之后,通過版本發(fā)布系統(tǒng)自動推送到版本倉庫,并自動創(chuàng)建下載任務。

  應用商店收到下載任務之后,根據(jù)任務信息批量通告現(xiàn)網(wǎng)設備進行應用下載。

  可以看到引入應用商店之后,一旦版本發(fā)布,便自動更新到關聯(lián)設備上。運營人員部署應用時無需進行版本下載,只需下發(fā)升級指令即可,這樣節(jié)省掉最耗時的下載步驟。整個部署過程和手機應用下載流程很類似,應用自動更新至最新版本,然后由用戶來決定是否更新,并根據(jù)授權(quán)級別判斷是否安裝。

網(wǎng)絡應用商店

  面向高性能網(wǎng)絡的數(shù)據(jù)面可編程能力

  進入到200G/400G網(wǎng)絡時代,上層業(yè)務與控制軟件對底層網(wǎng)絡的特殊需求日益增多,如高帶寬、低時延、大象流處理、小包線速、高精度流控等。DPDK相對優(yōu)秀,可以達到很高的包轉(zhuǎn)發(fā)速率,但需通過多服務器、多核負載均衡實現(xiàn),傳統(tǒng)網(wǎng)絡設備雖然可以提供高性能網(wǎng)絡傳輸,但其轉(zhuǎn)發(fā)邏輯被固化,難以實現(xiàn)靈活的網(wǎng)絡轉(zhuǎn)發(fā)控制。

  搭載新一代Trident 4可編程交換芯片的自研交換機TCS-PS,向上兼容多種業(yè)務組件及控制器,向下屏蔽底層可編程硬件差異(可編程交換芯片、FPGA等),不僅支持交換機的基礎網(wǎng)絡功能,還可以定制特殊數(shù)據(jù)面轉(zhuǎn)發(fā)邏輯,性能與靈活性完美結(jié)合,可以優(yōu)雅適配更多的業(yè)務場景。例如,在骨干網(wǎng)及專線接入點部署TCS-PS,實現(xiàn)基于租戶及五元組的精細化流量調(diào)度及限速能力,快速解決流量熱點,有效提高網(wǎng)絡利用率;利用TCS-PS對云網(wǎng)關場景服務器集群進行流量卸載加速,解決大象流處理、小包線速、前置交換機HASH不均等軟轉(zhuǎn)發(fā)性能問題;通過TCS-PS在安全防護及流量分析場景細分業(yè)務的差異化應用,大幅減少其后端分析服務器集群的帶寬及計算壓力,成倍降低安全防護與流量分析的成本。

  02 騰訊開放光平臺——TOOP

  為了匹配TONS在數(shù)據(jù)中心園區(qū)提供的200G/400G能力,用于數(shù)據(jù)中心間互聯(lián)的開放光網(wǎng)絡平臺(TOOP)也進行了2.0版本升級迭代。升級后光層OPC與電層TPC各自分別支持了柔性光網(wǎng)絡能力與基于可插拔方案的單波400G產(chǎn)品。其中,在L0層OPC-4光層產(chǎn)品首次在DCI層面引入了Flex-grid功能,賦予OPC-4光層產(chǎn)品支持向未來的平滑演進能力,即無論是當前的400G還是未來的單載波800G/1600G,OPC-4均無需更換硬件可直接支持任意速率波長接入能力;而在L1層,TPC-4電層產(chǎn)品通過深化解耦思路,將開放解耦進一步下探至相干器件層面,即T2X4C8電層板卡支持多廠商DCO混合部署,打破壟斷增加核心成本器件的競爭力,進一步降低了DCI帶寬飛速增長的成本壓力。

波長通道劣化快速辨識

  TOOP旨在通過技術(shù)創(chuàng)新來降低CapEx與OpEx。我們在設計400G做了一些微創(chuàng)新。

  電芯片層面加了性能預判機制

  相干系統(tǒng)通過強大的FEC(前向糾錯編碼)技術(shù)實現(xiàn)對傳送的bit進行錯誤修正,F(xiàn)EC編碼算法就像微信的語音轉(zhuǎn)換文字功能,其具備一定的口音糾錯能力。進行語音文字轉(zhuǎn)換時,算法會根據(jù)語意來判斷是否修正口音帶來的干擾。當你的口音很重或者引入過多方言時,超過算法的容忍上限時其轉(zhuǎn)換也會出錯。如同我們可以用轉(zhuǎn)換正確率來評估普通話標準與否一樣,我們可以根據(jù)Pre-fec前向糾錯誤碼率來評估系統(tǒng)的性能情況。TOOP通過CFP2-DCO的Pin37 管腳來上報pre-fec前向糾錯編碼超限的事件,實現(xiàn)了對性能劣化事件的提前關注。當DCO檢測到Pre-fec越過設定門限,即拉高Pin37管腳,為業(yè)務的無損切換提供可能性。

  業(yè)內(nèi)首創(chuàng)的DSP收斂計時上報,實現(xiàn)業(yè)務受損時間監(jiān)控


  保護路徑切換的業(yè)務受損時間精準計時

  引入了DCO模塊收斂計時功能,如上圖所示,TOOP系統(tǒng)可以記錄光路倒換過程的持續(xù)時間,包括光保護(OP)板卡的光開關切換時間與DCO模塊的業(yè)務中斷時間。我們定義了DCO模塊的業(yè)務中斷計時功能,定義0x910e(高位)與0x910f(低位)寄存器內(nèi)儲存了DSP收斂時間,其十進制值即收斂時間,單位us,上圖中的測試結(jié)果為4971us=4.971ms,這樣的數(shù)據(jù)協(xié)助我們診斷系統(tǒng)的性能問題。例如,當某次保護切換事件發(fā)生時,OP開關切換時間較短,而DSP的收斂時間較久,則說明線路性能余量不足,在光信號劣化至光開關切換門限值之前DSP已經(jīng)產(chǎn)生了誤碼。

  DSP收斂時間這個功能讓我們第一次在ms級尺度上對一個瞬態(tài)進行描述,目的是減少上層業(yè)務的感知,進一步優(yōu)化四纖三路由系統(tǒng),讓我們打造更加可靠且穩(wěn)定的底層系統(tǒng)。

  DSP 色散掃描范圍自動配置

  當前400G場景下,因光纜中斷而引起的倒換事件對業(yè)務的影響時間由原先的100ms級別(業(yè)務層面丟失時間),降低到了10ms級別(業(yè)務層面丟失時間),從而降低光纜中斷引起的業(yè)務損失。

  在線路開通時,OPC-4的OTDR會探測線路實際距離(主備用路由收發(fā)雙芯分別探測),通過距離配置DSP的色散掃描范圍,由默認的-20000~2000ps,配置成符合主備用光纜距離的實際值,例如-5000 ~ 2000ps,得益于DSP的算法優(yōu)化與色散掃描范圍的自動配置,通過減少DSP的resync的色散搜索時間,進一步提升保護倒換的速度,進而減少業(yè)務受損時間。

保護路徑切換導致的業(yè)務受損時間大幅縮短

  根據(jù)實際測試及過,儀表顯示波分系統(tǒng)在保護倒換過程中的切換時間最長為8ms,最短為3.8ms,上圖左側(cè)部分顯示通過交換機加載流量端到端測試結(jié)果,TOOP 400G系統(tǒng)在倒換過程中速度更快,減少了業(yè)務受損時間,為線上服務的可靠性提供了有效保障。

  DCO自動測量端到端RTT時延功能

  通過下插探測信號序列,實現(xiàn)DCO寄存器讀取線路RTT時延,從而對開通系統(tǒng)的線路性能指標進行準確預估,此功能為自動重路由功能提供了數(shù)據(jù)基礎。

  DCO內(nèi)全量PM數(shù)據(jù)秒級telemetry提取

  定義超過85項的PM數(shù)據(jù)通過telemetry進行秒級采集,是業(yè)內(nèi)第一次將ASIC中的信息進行如此全面的采集,傳統(tǒng)的MSA模塊也沒有做到如此精細化程度。進而通過數(shù)據(jù)分析提供DCO硬件故障預測與線路狀態(tài)預測功能,T2X4C8單板具備硬件反饋機制,該機制使子框內(nèi)OP-6單板支持通過DCO的BER觸發(fā)OCH1+1保護倒換。

  海量的PM數(shù)據(jù)是我們未來重點挖掘的數(shù)據(jù)寶藏,這將賦予我們一些偵測線路信息的能力。

  OOP向柔性網(wǎng)絡演進,F(xiàn)lex-grid 為我們打造未來平臺


所見即所得的可視化精準運維

  TOOP首次在DCI平臺引入靈活柵格技術(shù)(flex-grid),實現(xiàn)了柔性光網(wǎng)絡的能力。在面對400G以及400G+場景的平滑演進提供了基礎。TOOP選擇了“簡單”作為其設計語言。通過友好的施工管理設計,利用MUX-PAENL對64個通道進行散出,背面與前部走線設計減少布線復雜度。控制層面通過拓撲管理組件實現(xiàn)簡明扼要的指示,避免維護時的復雜度。

  CMUX-64單板與MUX-PANEL采用了專利設計,實現(xiàn)了低損耗的OMSP與Flex-grid應用。在點到點OMSP場景時無需額外增加OP單板即可實現(xiàn),在采用OCH1+1場景或無需光層保護場景時也不會額外增加插損。整體功率計算符合鏈路落波與合波需求,滿足400G及400G+場景的需求,該系統(tǒng)可以平滑向未來演進,進而降低光層的重復投資與提升頻譜利用率。

高品質(zhì)Flex-Grid讓光層基礎設施更穩(wěn)定更長壽

  CMUX-64所采用的WSS器件具備優(yōu)秀濾波特性,讓我們減少了對DCO模塊內(nèi)置TOF的需求,進一步降低DCO模塊的成本。同時Flex-grid賦予我們無需標準化FEC,兩端IDC的不同DSP廠商的DCO可以自適應匹配,無需繁瑣的現(xiàn)場操作。這里劃重點,TOOP產(chǎn)品的設計語言是“簡”,我們希望現(xiàn)場處理問題的方式就是安裝與替換,縮短系統(tǒng)開通與故障處理的時間,提升業(yè)務的可用率。電層設備與合波器之間的頻率分配,互聯(lián)關系等問題可以做到無圖紙化施工,我們引入了自適應功能來實現(xiàn)匹配波長功能。同時CMUX-64可以針對不同模塊的發(fā)射功率差異與不同波特率的問題,包括正在測試中的基于PCS-16QAM的69Gbaud CFP2-DCO的高性能 400G所需81.5GHz頻譜間隔應用,采用Flex-grid可以很好的解決。

  結(jié)語

  路寬難平,快馬難馴?;厥?A href="http://m.huaquanjd.cn/site/CN/Search.aspx?page=1&keywords=%e8%85%be%e8%ae%af&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">騰訊在200G/400G網(wǎng)絡中的創(chuàng)新與實踐之路,我們不僅僅是為了貼合業(yè)務算力要求而做了速率提升,更是通過構(gòu)建端到端全面自研的底層基礎設施,并搭載智能化的網(wǎng)絡系統(tǒng),借助自主可控創(chuàng)造了高速率,也馴服了高速率,最終為云業(yè)務提供高帶寬、低延時、更靈活的云網(wǎng)絡服務。相信在該體系的奠基下,后續(xù)騰訊網(wǎng)絡會持續(xù)穩(wěn)步邁向400G/800G網(wǎng)絡時代。

內(nèi)容來自:鵝廠網(wǎng)事
本文地址:http://m.huaquanjd.cn//Site/CN/News/2021/05/28/20210528074026550684.htm 轉(zhuǎn)載請保留文章出處
關鍵字: 騰訊 TOOP
文章標題:騰訊全自研200G/400G網(wǎng)絡的創(chuàng)新與實踐
【加入收藏夾】  【推薦給好友】 
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、免責聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請聯(lián)系本網(wǎng),將第一時間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right