騰訊網(wǎng)絡(luò)硬件驗(yàn)證中心——打造“硬核”技術(shù)基石

訊石光通訊網(wǎng) 2022/7/28 14:32:03

  近幾年,騰訊云業(yè)務(wù)的迅猛發(fā)展讓基礎(chǔ)網(wǎng)絡(luò)設(shè)施的“大規(guī)?!背蔀榱艘恢崩@不開(kāi)的話題,這給網(wǎng)絡(luò)建設(shè)、運(yùn)營(yíng)都帶來(lái)巨大挑戰(zhàn),因此需要一個(gè)快速迭代、智能運(yùn)營(yíng)、場(chǎng)景豐富、成本節(jié)約的網(wǎng)絡(luò)產(chǎn)品。于是,我們堅(jiān)定地走在了網(wǎng)絡(luò)產(chǎn)品自研的道路中,從單純的軟件自研,再到如今的大規(guī)模軟硬皆自研,“網(wǎng)絡(luò)硬件驗(yàn)證中心”便是這一盛況的“幕后英雄”。打一塊好鐵,除了需要具備“自身硬”的基本條件外,最重要的是要懂得客戶怎么用的順手。對(duì)此,“網(wǎng)絡(luò)硬件驗(yàn)證中心”結(jié)合騰訊業(yè)務(wù)需求,全方位地打通DCN(Data Center Network)、DCI(Network Center Interconnection)、OTN (Optical Transport Network)的全鏈路網(wǎng)絡(luò)硬件技術(shù)。

  經(jīng)過(guò)騰訊網(wǎng)絡(luò)硬件驗(yàn)證中心認(rèn)證的網(wǎng)絡(luò)產(chǎn)品覆蓋自研50G NRZ網(wǎng)卡(水杉)/ 100G PAM4網(wǎng)卡(銀杉)、200G互聯(lián)線纜(Y-AOC / Y-DAC / Y-ACC)、25G / 100G 交換機(jī),200G 交換機(jī)、200G光模塊、400G DCI交換機(jī)、TOOP開(kāi)放光產(chǎn)品、可編程交換機(jī)等。自研網(wǎng)絡(luò)產(chǎn)品,如下圖1-1所示。

圖1-1 騰訊自研網(wǎng)絡(luò)產(chǎn)品矩陣

  網(wǎng)絡(luò)硬件驗(yàn)證中心的“前世今生”

  騰訊云業(yè)務(wù)的增長(zhǎng)和用戶需求的變化驅(qū)動(dòng)網(wǎng)絡(luò)技術(shù)的迭代,過(guò)去5年騰訊基礎(chǔ)網(wǎng)絡(luò)經(jīng)歷幾次關(guān)鍵的演進(jìn)。

  2018年,騰訊云業(yè)務(wù)開(kāi)始井噴式增長(zhǎng),基礎(chǔ)網(wǎng)絡(luò)開(kāi)始大規(guī)模建設(shè)。為優(yōu)化網(wǎng)絡(luò)設(shè)備的采購(gòu)成本,我們對(duì)互聯(lián)硬件和網(wǎng)絡(luò)設(shè)備進(jìn)行解耦。解耦后網(wǎng)絡(luò)設(shè)備和互聯(lián)硬件均存在多廠家、多型號(hào)、多版本,兼容性驗(yàn)證需要遍歷N種組合,當(dāng)時(shí)只能依賴設(shè)備商進(jìn)行兼容性適配驗(yàn)證,適配周期長(zhǎng),并且基本上沒(méi)有設(shè)備商能做到全場(chǎng)景的組合驗(yàn)證。這導(dǎo)致網(wǎng)絡(luò)建設(shè)和現(xiàn)網(wǎng)運(yùn)營(yíng)中存在各種適配問(wèn)題,我們當(dāng)時(shí)扮演的是“網(wǎng)絡(luò)消防員”角色,在生產(chǎn)環(huán)境線上debug,到處“救火”。對(duì)于簡(jiǎn)單問(wèn)題,比如設(shè)備配置異常、模塊收發(fā)光異常、版本不匹配等,可以快速定位,但對(duì)于復(fù)雜問(wèn)題,比如鏈路單通、抖動(dòng)、丟包、端口批量不linkup等,生產(chǎn)環(huán)境根本不具備debug條件,問(wèn)題定位周期長(zhǎng)。

  隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,用戶對(duì)網(wǎng)絡(luò)服務(wù)的定制化要求越來(lái)越高,希望網(wǎng)絡(luò)服務(wù)靈活多變,一張網(wǎng)絡(luò)可以滿足不同的業(yè)務(wù)需求,并且質(zhì)量高,成本低。為此,我們開(kāi)始定制網(wǎng)絡(luò)產(chǎn)品,在硬件上做減法,打造符合云網(wǎng)絡(luò)的硬件,在軟件上做差異化,打造運(yùn)維智能化、應(yīng)用場(chǎng)景化的網(wǎng)絡(luò)應(yīng)用。這有點(diǎn)像“蓋澆飯”,燜煮一鍋大米飯,根據(jù)顧客的需求烹飪澆頭即可,但大米飯的質(zhì)量直接影響顧客的體驗(yàn)。同樣,定制一款滿足不同用戶需求的網(wǎng)絡(luò)硬件,對(duì)性能、質(zhì)量有很大挑戰(zhàn)。由于定制的網(wǎng)絡(luò)硬件,測(cè)試驗(yàn)證在設(shè)備商完成,無(wú)法覆蓋所有云應(yīng)用場(chǎng)景。這導(dǎo)致定制化的網(wǎng)絡(luò)硬件,現(xiàn)網(wǎng)運(yùn)行一段時(shí)間后,開(kāi)始出現(xiàn)一些內(nèi)存異常訪問(wèn)、端口I2C異常等問(wèn)題,由于定位手段有限,導(dǎo)致硬件問(wèn)題定位周期長(zhǎng),嚴(yán)重影響網(wǎng)絡(luò)質(zhì)量,運(yùn)營(yíng)壓力大。

  為此,我們對(duì)網(wǎng)絡(luò)演進(jìn)過(guò)程中遇到的問(wèn)題進(jìn)行詳細(xì)的復(fù)盤,總結(jié)出“打鐵還需自身硬”的道理,想要打造一把“寶劍”,需要經(jīng)過(guò)反復(fù)的捶打、鍛造。打造一款質(zhì)量、性能過(guò)硬的網(wǎng)絡(luò)硬件,需要對(duì)技術(shù)方案、應(yīng)用場(chǎng)景充分驗(yàn)證。基于此,2018年底,我們開(kāi)始規(guī)劃建造網(wǎng)絡(luò)硬件驗(yàn)證中心,經(jīng)過(guò)幾年的建設(shè)和發(fā)展逐漸成熟,如圖1-1所示,如今的網(wǎng)絡(luò)硬件驗(yàn)證中心總面積超過(guò)150平方米,由高速信號(hào)實(shí)驗(yàn)室、兼容性驗(yàn)證實(shí)驗(yàn)室、系統(tǒng)驗(yàn)證實(shí)驗(yàn)室和環(huán)境實(shí)驗(yàn)室組成。我們?cè)诓煌膶?shí)驗(yàn)室配置了不同的儀表和設(shè)備,網(wǎng)絡(luò)硬件驗(yàn)證中心具備從信號(hào)層面到系統(tǒng)層面全鏈路驗(yàn)證能力,并且可以快速定位分析現(xiàn)網(wǎng)問(wèn)題。

圖1-1 騰訊網(wǎng)絡(luò)硬件驗(yàn)證中心

  在高速信號(hào)實(shí)驗(yàn)室,我們配備了信號(hào)測(cè)量必備的儀表,如圖1-2所示,比如高速采樣示波器、高速誤碼儀、矢量網(wǎng)絡(luò)分析儀VNA(Vector Network Analyzers)、不同帶寬的CDR(Clock Data Recovery)、不同封裝類型的MCB / HCB(Host / Module Compliance Board )、低速示波器、光功率計(jì)、可調(diào)光衰、I2C 通信板、光開(kāi)關(guān)、穩(wěn)壓電源等。對(duì)自研網(wǎng)絡(luò)產(chǎn)品進(jìn)行信號(hào)級(jí)別的評(píng)估,如以太網(wǎng)端口發(fā)端電眼一致性、光模塊發(fā)端光眼、SI信號(hào)完整性、I2C信號(hào)一致性等,如圖1-2所示。

圖1-2 高速信號(hào)實(shí)驗(yàn)室

  在兼容性驗(yàn)證實(shí)驗(yàn)室,我們配置現(xiàn)網(wǎng)所有型號(hào)的網(wǎng)卡、接入線纜、LEAF/SPINE/CORE交換機(jī)、光模塊、數(shù)通儀表TestCenter,如圖1-3,可以充分且快速地驗(yàn)證各部件之間兼容性,比如驗(yàn)證同型號(hào)不同廠家光模塊互聯(lián)互通,不同型號(hào)網(wǎng)卡與不同廠家線纜、交換機(jī)互聯(lián)之間通信鏈路是否正常。

圖1-3 兼容性驗(yàn)證實(shí)驗(yàn)室

  系統(tǒng)驗(yàn)證實(shí)驗(yàn)室配置現(xiàn)網(wǎng)中所有型號(hào)的DCI交換機(jī)、開(kāi)放光產(chǎn)品、光模塊,如圖1-4所示。在系統(tǒng)驗(yàn)證實(shí)驗(yàn)室可以1:1還原現(xiàn)網(wǎng)真實(shí)網(wǎng)絡(luò)拓?fù)?,進(jìn)行DCI交換機(jī)、傳輸設(shè)備、互聯(lián)模塊之間系統(tǒng)適配,驗(yàn)證端到端系統(tǒng)運(yùn)行穩(wěn)定性以及波分保護(hù)倒換成功率。

圖1-4 系統(tǒng)驗(yàn)證實(shí)驗(yàn)室

  環(huán)境實(shí)驗(yàn)室配置了兩個(gè)不同級(jí)別的溫箱,如圖1-5所示,設(shè)備熱流儀(左)和溫箱(右),熱流儀用于評(píng)估芯片和光模塊,溫箱用于評(píng)估網(wǎng)絡(luò)交換機(jī)。主要是模擬惡劣的工作環(huán)境,研發(fā)階段將網(wǎng)絡(luò)產(chǎn)品暴露在高溫高濕、變溫、低溫、溫循等不同環(huán)境下,評(píng)估:1)光模塊工作穩(wěn)定性。高低溫環(huán)境加速光模塊激光器老化,排除早期老化風(fēng)險(xiǎn)。2)設(shè)備端口參數(shù)的健壯性。在不同溫濕度環(huán)境下,驗(yàn)網(wǎng)絡(luò)產(chǎn)品物理端口參數(shù)設(shè)定margin是否充足。3)系統(tǒng)工作穩(wěn)定性:驗(yàn)證產(chǎn)品自身系統(tǒng)在不同溫度環(huán)境下工作是否穩(wěn)定性。

圖1-5 環(huán)境實(shí)驗(yàn)室

  網(wǎng)絡(luò)硬件驗(yàn)證中心的“地利人和”

  隨著網(wǎng)絡(luò)硬件驗(yàn)證中心基礎(chǔ)設(shè)施建設(shè)完成,我們不光擁有了從交換機(jī)硬件,到互聯(lián)硬件,再到傳輸硬件的全方位“地利”條件。更是結(jié)合“人和”,通過(guò)騰訊的網(wǎng)管系統(tǒng),更好地貼合了騰訊現(xiàn)網(wǎng)產(chǎn)品的快速迭代驗(yàn)證需求,將大量重復(fù)性工作進(jìn)行自動(dòng)化處理,盡量減少重復(fù)勞動(dòng)。分別對(duì)部件級(jí)、設(shè)備級(jí)和系統(tǒng)級(jí)不同層面測(cè)試進(jìn)行自動(dòng)化實(shí)現(xiàn)。

  · 部件級(jí):光電信號(hào)測(cè)試自動(dòng)化

  自研網(wǎng)絡(luò)產(chǎn)品研發(fā)過(guò)程中有很多通用部件需要對(duì)其性能信號(hào)的一致性進(jìn)行評(píng)估,比如說(shuō)交換機(jī)、波分、光模塊端口收端電眼,光模塊的發(fā)端光眼、I2C Timing等高低速信號(hào),這類測(cè)試具備通用的測(cè)試流程,但每個(gè)產(chǎn)品上指標(biāo)的協(xié)議規(guī)范是不同的,通過(guò)實(shí)現(xiàn)測(cè)試流程自動(dòng)化,來(lái)提高效率。

  以光模塊光電指標(biāo)測(cè)試為例進(jìn)行說(shuō)明,騰訊當(dāng)前現(xiàn)網(wǎng)使用的不同廠商不同型號(hào)的互聯(lián)模塊超過(guò)100種,在光模塊產(chǎn)品準(zhǔn)入測(cè)試或者產(chǎn)品迭代過(guò)程,全靠人工按測(cè)試用例進(jìn)行測(cè)試,測(cè)試的工作量是巨大的,并且人工測(cè)試結(jié)果記錄存在誤差。為了滿足效率和準(zhǔn)確度的要求,我們建設(shè)光模塊指標(biāo)自動(dòng)化測(cè)試能力,減少人為重復(fù)操作。通過(guò)開(kāi)發(fā)自動(dòng)化測(cè)試腳本,對(duì)光模塊測(cè)試所用到儀表進(jìn)行集中控制,實(shí)現(xiàn)測(cè)試自動(dòng)化。

圖2-1 光模塊光學(xué)指標(biāo)測(cè)試組網(wǎng)

  如圖2-1所示,光模塊光學(xué)指標(biāo)測(cè)試組網(wǎng)關(guān)系圖,把測(cè)試儀表高速采樣示波器,誤碼儀,光開(kāi)關(guān)和I2C Adapter分別通過(guò)USB數(shù)據(jù)線接入到同一臺(tái)控制主機(jī)(controller)。這里需要人工參與的點(diǎn)只有更換模塊樣品和觸發(fā)測(cè)試流程,自動(dòng)化腳本會(huì)自動(dòng)輸出光眼并保存測(cè)試結(jié)果,如圖2-2所示。針對(duì)一款模塊8只樣品的測(cè)試工作,手動(dòng)測(cè)試與自動(dòng)化測(cè)試對(duì)比,由5天/人提高到2天/人。

圖2-2 光模塊自動(dòng)化測(cè)試輸出光眼圖

  · 設(shè)備級(jí):系統(tǒng)兼容性測(cè)試自動(dòng)化

  系統(tǒng)級(jí)兼容性測(cè)試按測(cè)試場(chǎng)景,可分為接入線纜兼容性測(cè)試和互聯(lián)模塊兼容性測(cè)試。接入線纜兼容性是測(cè)試接入線纜與交換機(jī)、網(wǎng)卡整條鏈路的兼容性,互聯(lián)模塊兼容性是測(cè)試同種型號(hào)不同廠家模塊之間對(duì)接兼容性和模塊與交換機(jī)之間的兼容性。這部分自動(dòng)化測(cè)試組網(wǎng)如圖2-3所示,將所有網(wǎng)絡(luò)設(shè)備包括都接入同一個(gè)管理網(wǎng)內(nèi),待測(cè)網(wǎng)絡(luò)設(shè)備接入同一個(gè)智能PDU上,對(duì)設(shè)備供電進(jìn)行統(tǒng)一化管理。完成基本的測(cè)試組網(wǎng)后,在controller上觸發(fā)對(duì)應(yīng)的兼容性適配測(cè)試程序,程序自動(dòng)完成對(duì)網(wǎng)絡(luò)設(shè)備配置下發(fā),然后開(kāi)始跑常規(guī)的測(cè)試用例,最后自動(dòng)保存測(cè)試報(bào)告,并給出測(cè)試結(jié)果分析。

圖2-3 系統(tǒng)兼容性適配組網(wǎng)

  光模塊兼容性適配可以自動(dòng)完成以下4個(gè)測(cè)試用例。1)測(cè)試儀打流;2)交換機(jī)冷、熱重啟;3)端口震蕩;4)I2C壓力訪問(wèn);執(zhí)行完測(cè)試流程后。

  接入線纜兼容性適配可以自動(dòng)完成以下6個(gè)測(cè)試用例:1)服務(wù)器對(duì)打iperf流量;2)交換機(jī)/服務(wù)器冷、熱重啟;3)交換機(jī)端口震蕩;4)服務(wù)器端口震蕩;5)I2C壓力訪問(wèn);6)服務(wù)器錯(cuò)包分析。

  · 系統(tǒng)級(jí):光網(wǎng)協(xié)同保護(hù)倒換測(cè)試自動(dòng)化

  保護(hù)倒換是系統(tǒng)專項(xiàng)測(cè)試之一,通過(guò)模擬光纖故障,反復(fù)觸發(fā)系統(tǒng)倒換,通過(guò)儀表監(jiān)測(cè)倒換動(dòng)作發(fā)生時(shí),流量中斷時(shí)長(zhǎng)。每個(gè)設(shè)備版本迭代,需進(jìn)行上千次保護(hù)倒換測(cè)試,常規(guī)方式是手動(dòng)拔纖觸發(fā)倒換,測(cè)試周期需1周,自動(dòng)化倒換使測(cè)試周期縮短至8小時(shí)。同時(shí)人工拔纖方式不穩(wěn)定,人工操作次數(shù)過(guò)多容易動(dòng)作變形,會(huì)將設(shè)備超時(shí)誤判為拔纖操作問(wèn)題,不利于偶發(fā)問(wèn)題的發(fā)現(xiàn),自動(dòng)化倒換測(cè)試觸發(fā)動(dòng)作穩(wěn)定,結(jié)果采集規(guī)范,易發(fā)現(xiàn)低概率偶發(fā)缺陷。

圖2-4 保護(hù)倒換測(cè)試平臺(tái)觸發(fā)與結(jié)果展示

  保護(hù)倒換測(cè)試依托OXC光交叉平臺(tái)、網(wǎng)絡(luò)測(cè)試儀、智研平臺(tái)等,將上萬(wàn)次的拔纖倒換測(cè)試自動(dòng)化。倒換觸發(fā)方面,通過(guò)OXC制造單芯中斷、雙芯中斷場(chǎng)景,節(jié)約了人力。結(jié)果監(jiān)控方面,如圖2-4,測(cè)試儀表、設(shè)備性能、設(shè)備告警均全面分析,更易暴露偶發(fā)問(wèn)題。保護(hù)倒換自動(dòng)化測(cè)試,可覆蓋8種倒換方式,累計(jì)測(cè)試10萬(wàn)次量級(jí),推動(dòng)7次版本迭代,保障了項(xiàng)目高質(zhì)量交付。

圖2-5 光網(wǎng)絡(luò)系統(tǒng)測(cè)試自動(dòng)化框架

  光網(wǎng)絡(luò)系統(tǒng)測(cè)試自動(dòng)化平臺(tái)能力已經(jīng)構(gòu)建完成,如圖2-5,設(shè)備層通過(guò)OXC實(shí)現(xiàn)動(dòng)態(tài)拓?fù)湔{(diào)整,接口層打通各類儀表、設(shè)備,頂層接入公司級(jí)公共服務(wù)平臺(tái),應(yīng)用層依據(jù)測(cè)試用例逐步實(shí)現(xiàn)中。

  網(wǎng)絡(luò)硬件驗(yàn)證中心:利刃出鞘

  基礎(chǔ)設(shè)施建設(shè)完成之后,各方面能力是否符合預(yù)期,實(shí)戰(zhàn)是做好的檢驗(yàn)方式。讓我們一起看看網(wǎng)絡(luò)硬件驗(yàn)證中心如何利刃出鞘,在解決實(shí)際問(wèn)題中發(fā)揮其獨(dú)特的優(yōu)勢(shì)。

  · 服務(wù)自研:提升研發(fā)效率,保證研發(fā)質(zhì)量

  借助于網(wǎng)絡(luò)硬件驗(yàn)證中心,我們把系統(tǒng)后端驗(yàn)證前置到網(wǎng)絡(luò)產(chǎn)品研發(fā)階段,網(wǎng)絡(luò)硬件DVT階段開(kāi)始進(jìn)行系統(tǒng)兼容性驗(yàn)證和端到端系統(tǒng)驗(yàn)證。這樣做到好處是,系統(tǒng)后端驗(yàn)證與網(wǎng)絡(luò)硬件研發(fā)并行,系統(tǒng)適配的問(wèn)題在研發(fā)階段暴露并解決。

  典型的例子是100G PAM4接入網(wǎng)絡(luò)產(chǎn)品研發(fā)項(xiàng)目,涉及的網(wǎng)絡(luò)硬件包括TCS840接入交換機(jī),200G Y-ACC/AOC 接入線纜和自研銀杉2x100G /商業(yè)2x100G PAM4網(wǎng)卡,如圖3-1所示。在DVT階段后期,網(wǎng)絡(luò)產(chǎn)品功能驗(yàn)證完成之后,我們直接進(jìn)入互聯(lián)兼容性適配,驗(yàn)證網(wǎng)卡、線纜、交換機(jī)整條鏈路互聯(lián)互通性,鏈路性能是否滿足現(xiàn)網(wǎng)使用標(biāo)準(zhǔn)。整個(gè)項(xiàng)目的研發(fā)周期至少縮短3個(gè)月。

圖3-1 100G PAM4接入網(wǎng)絡(luò)

  騰訊100G PAM4接入網(wǎng)絡(luò)提供200G Y-AOC / DAC / ACC光電共存的互聯(lián)方案。由于100G接入網(wǎng)絡(luò)采用高階PAM4調(diào)制技術(shù),并且騰訊是業(yè)內(nèi)最早嘗試使用PAM4網(wǎng)卡、線纜、交換機(jī)的互聯(lián)網(wǎng)廠商,沒(méi)有成熟的經(jīng)驗(yàn)參考,經(jīng)過(guò)我們幾個(gè)月的調(diào)試,網(wǎng)卡和交換機(jī)的固件版本先后迭代十幾個(gè),修復(fù)問(wèn)題近20項(xiàng),成功研發(fā)出200G 接入線纜、完成網(wǎng)卡、交換機(jī)的物理層參數(shù)調(diào)教并批量上線,業(yè)內(nèi)首家批量部署100G PAM4網(wǎng)卡。

  回顧調(diào)試過(guò)程,我們攻克了兩大阻塞問(wèn)題: 1)200G Y-AOC互聯(lián)linkup時(shí)間長(zhǎng)。最初使用200G Y-AOC進(jìn)行網(wǎng)卡和交換機(jī)互聯(lián)時(shí),鏈路linkup時(shí)間比較長(zhǎng)并且不穩(wěn)定,時(shí)間從30s到3min不等。通過(guò)分析網(wǎng)卡端口物理層狀態(tài)機(jī)發(fā)現(xiàn),網(wǎng)卡和交換機(jī)之間自協(xié)商(AN, auto-negotiation,參考IEEE802.3 Clause 73)過(guò)程長(zhǎng),導(dǎo)致linkup超時(shí)。結(jié)合騰訊自研硬件特征參數(shù)及應(yīng)用場(chǎng)景的需求,對(duì)網(wǎng)卡的AN過(guò)程狀態(tài)機(jī)進(jìn)行優(yōu)化,最終把linkup時(shí)間穩(wěn)定控制在15s以內(nèi)。2)200G Y-DAC/ACC互聯(lián)鏈路性能不符合預(yù)期。在200G Y-DAC/ACC進(jìn)行互聯(lián)適配時(shí)發(fā)現(xiàn)鏈路性能嚴(yán)重不符合預(yù)期,pre fec ber >1E-4,pre fec margin=0,超出fec糾錯(cuò)能力,最直接的表現(xiàn)就是會(huì)有丟包。通過(guò)系統(tǒng)分析,該問(wèn)題有2種方面原因:a)200G Y-ACC鏈路長(zhǎng),信號(hào)嚴(yán)重失真,收端系統(tǒng)無(wú)法識(shí)別。b)網(wǎng)卡和交換機(jī)系統(tǒng)之間Link Training算法有缺陷。針對(duì)以上2個(gè)因素,分別從線纜、系統(tǒng)端尋找解決方案。尋找最優(yōu)的re-driver IC參數(shù)設(shè)定,保證整條鏈路的線性度和高頻特性。系統(tǒng)端link Training算法優(yōu)化,詳細(xì)link training機(jī)制參見(jiàn)IEEE 802.3 Clause 72。經(jīng)過(guò)以上兩種方向的優(yōu)化,鏈路性能最終符合預(yù)設(shè)標(biāo)準(zhǔn),pre fec ber < 1E-7, fec margin >50%。

  · 服務(wù)現(xiàn)網(wǎng):故障快速定位,保證現(xiàn)網(wǎng)質(zhì)量

  借助于網(wǎng)絡(luò)硬件驗(yàn)證中心,我們可以對(duì)現(xiàn)網(wǎng)問(wèn)題快速?gòu)?fù)現(xiàn),進(jìn)一步分析出故障根因,并提出有效的解決措施。另外,針對(duì)同類的問(wèn)題,我們可以在實(shí)驗(yàn)室進(jìn)行全場(chǎng)景充分驗(yàn)證,輸出有效的指導(dǎo)方案給到現(xiàn)網(wǎng)運(yùn)營(yíng)團(tuán)隊(duì)。

圖3-2 現(xiàn)網(wǎng)故障網(wǎng)絡(luò)拓?fù)?

  典型的現(xiàn)網(wǎng)故障處理案例是:21年騰訊兩個(gè)數(shù)據(jù)中心之間光纖鏈路抖動(dòng),傳輸保護(hù)倒換完成之后,數(shù)通交換機(jī)仍有部分鏈路不通,導(dǎo)致兩個(gè)數(shù)據(jù)中心內(nèi)網(wǎng)質(zhì)量出現(xiàn)嚴(yán)重丟包,影響騰訊重要業(yè)務(wù)?,F(xiàn)網(wǎng)故障網(wǎng)絡(luò)拓?fù)淙鐖D3-2所示。

  接到現(xiàn)網(wǎng)報(bào)障后,我們?cè)谙到y(tǒng)驗(yàn)證實(shí)驗(yàn)室搭建和現(xiàn)網(wǎng)同樣的網(wǎng)絡(luò)環(huán)境進(jìn)行定位復(fù)現(xiàn),經(jīng)分析,主要原因是Switch-1交換機(jī)聚合鏈路的抖動(dòng),觸發(fā)了上層協(xié)議的重新收斂。邏輯聚合口linkup時(shí)間長(zhǎng),現(xiàn)網(wǎng)Switch-1交換機(jī)的配置不能穩(wěn)定濾除物理層up/down對(duì)上層協(xié)議的影響。對(duì)此,我們?cè)谙到y(tǒng)驗(yàn)證實(shí)驗(yàn)室充分驗(yàn)證合理的網(wǎng)絡(luò)配置,并把配置提供給現(xiàn)網(wǎng)運(yùn)營(yíng)團(tuán)隊(duì),2天之內(nèi)找到根因并解決問(wèn)題。另外,針對(duì)現(xiàn)網(wǎng)中相同的場(chǎng)景,我們?cè)谙到y(tǒng)實(shí)驗(yàn)室充分驗(yàn)證波分保護(hù)倒換成功率,通過(guò)遍歷互聯(lián)關(guān)系、設(shè)備型號(hào)、設(shè)備版本,累計(jì)測(cè)試120個(gè)場(chǎng)景,發(fā)現(xiàn)20多個(gè)缺陷,最終將現(xiàn)網(wǎng)波分保護(hù)倒換成功率提升至99.9%。

  服務(wù)新技術(shù):快速驗(yàn)證新技術(shù),享受技術(shù)紅利

  騰訊硬件驗(yàn)證中心的一個(gè)重要功能是對(duì)網(wǎng)絡(luò)新技術(shù)進(jìn)行快速驗(yàn)證。隨著網(wǎng)絡(luò)產(chǎn)品的迭代,網(wǎng)絡(luò)技術(shù)也在不斷演進(jìn),當(dāng)前網(wǎng)絡(luò)物理通道單通道速率正從56G向112G/224G演進(jìn)。結(jié)合56G研發(fā)過(guò)程的經(jīng)驗(yàn)和教訓(xùn),首次嘗試新技術(shù)面臨的挑戰(zhàn)是巨大的,為了降低研發(fā)期間試錯(cuò)成本,因此需要在研初期對(duì)光電芯片的性能進(jìn)行全面評(píng)估,判斷是否符合產(chǎn)品設(shè)計(jì)要求。為此,我們對(duì)下一代112G主流Serdes IP能力進(jìn)行評(píng)估,如圖3-3所示,選擇滿足騰訊應(yīng)用場(chǎng)景的芯片,從而在產(chǎn)品設(shè)計(jì)上達(dá)到質(zhì)量、效率、成本上的平衡。

圖3-3 112G Serdes IP 評(píng)估原理圖

  總結(jié)

  騰訊網(wǎng)絡(luò)硬件驗(yàn)證中心具備豐富的網(wǎng)絡(luò)設(shè)備資源,靈活多樣的驗(yàn)證能力,不僅可以進(jìn)行信號(hào)層面的評(píng)估驗(yàn)證,還可以進(jìn)行全場(chǎng)景的端到端系統(tǒng)驗(yàn)證,在騰訊網(wǎng)絡(luò)產(chǎn)品研發(fā)、現(xiàn)網(wǎng)問(wèn)題定位、新技術(shù)評(píng)估方面發(fā)揮著重要作用。另外,隨著網(wǎng)絡(luò)技術(shù)的演進(jìn),網(wǎng)絡(luò)硬件驗(yàn)證中心也在不斷提升各項(xiàng)技術(shù)能力,更好地服務(wù)騰訊網(wǎng)絡(luò)產(chǎn)品研發(fā)和現(xiàn)網(wǎng)質(zhì)量維護(hù),為騰訊自研網(wǎng)絡(luò)質(zhì)量保駕護(hù)航。

新聞來(lái)源:鵝廠網(wǎng)事

相關(guān)文章