騰訊開放光網(wǎng)絡(luò)實現(xiàn)多廠商設(shè)備開放組網(wǎng)。通過不同廠商設(shè)備的自由組合與靈活替換,降低了帶寬成本,提高了帶寬交付效率。然而,多廠商、多型號設(shè)備的混合組網(wǎng)模式,也為傳送網(wǎng)絡(luò)的運營帶來了新的挑戰(zhàn)。在不同廠商設(shè)備混合組網(wǎng)的開放網(wǎng)絡(luò)中,定位設(shè)備故障是一個復(fù)雜的問題。傳統(tǒng)依賴廠商工程師的模式難以為繼,需要系統(tǒng)具備快速診斷、定位設(shè)備故障的能力,能夠在開放網(wǎng)絡(luò)中,精確識別不同廠商設(shè)備的異常狀態(tài),定位故障點,準(zhǔn)確分析故障影響,為設(shè)備故障處理等相關(guān)運營流程提供技術(shù)支撐。騰訊開放光網(wǎng)絡(luò)基于多維度運行數(shù)據(jù),利用智能算法,構(gòu)建實時故障監(jiān)測系統(tǒng)。實現(xiàn)對設(shè)備故障全面覆蓋,故障定位準(zhǔn)確率達到90%以上,故障查全率高達97%。
1、設(shè)備故障定位的挑戰(zhàn)
圖一 傳統(tǒng)光傳輸系統(tǒng)故障定位流程
眾所周知,根據(jù)墨菲定律,只要硬件有故障的幾率,無論這個幾率再小故障都會發(fā)生。更不用提在開放光網(wǎng)絡(luò)中,各類業(yè)務(wù)板卡/光模塊的數(shù)量在幾k到數(shù)十k的級別,在這么大的設(shè)備基數(shù)面前,故障是很常見的。那么廠商工程師的排障邏輯是什么樣的呢?一個最重要的信息來源就是告警。當(dāng)設(shè)備產(chǎn)生告警或者業(yè)務(wù)受到影響時,值班人員會去詢問廠商工程師進行確認故障具體點位,然后配合駐場來對故障設(shè)備進行更換。在這個處理流程中有幾大痛點:
告警多:每月與波分電層相關(guān)的告警數(shù)量極為龐大,已遠遠超出人力資源所能承受的范圍。
誤報多:與每月設(shè)備上報海量告警相對的是,但實際發(fā)生的設(shè)備故障數(shù)量大概只有二十幾例。
信息指向不明確:板卡、模塊告警無法與業(yè)務(wù)相關(guān)聯(lián),故障指示性差。
2、自研實時故障監(jiān)測系統(tǒng)設(shè)計
圖二 實時故障監(jiān)測系統(tǒng)流程
為了解決上述痛點,我們構(gòu)建了實時故障監(jiān)測系統(tǒng)。它的核心部分是上圖中的智能故障出單。開放光網(wǎng)絡(luò)系統(tǒng)的精細化監(jiān)控能力帶來了秒級性能數(shù)據(jù)和告警的采集,這極大地將開放光網(wǎng)絡(luò)透明化可視化,開放光網(wǎng)絡(luò)中設(shè)備的各個維度的信息變得觸手可及。通過將這些信息輸入我們自研的數(shù)據(jù)挖掘和分析算法,故障事件單以及對應(yīng)的處理建議將會自動且快速輸出。這些故障事件單會以告警的形式接入運營監(jiān)控平臺,并自動觸發(fā)工單,通知值班人員關(guān)注。值班同學(xué)根據(jù)故障告警的分析建議,指導(dǎo)駐場直接對故障設(shè)備做出相應(yīng)的操作,如復(fù)位、拔插、更換等等。相對于傳統(tǒng)的商用系統(tǒng)排障方式,騰訊自研實時故障監(jiān)測系統(tǒng)的優(yōu)勢體現(xiàn)在如下幾個方面:
準(zhǔn)確定位:故障定位的累積準(zhǔn)確率在90%以上,出單的算法邏輯也一直針對具體的故障情況進行優(yōu)化,避免誤報。
全面覆蓋:故障定位的累積查全率在97%左右,可覆蓋各種故障場景,避免絕大多數(shù)故障漏報。
快速響應(yīng):相較于依賴工程師定位故障需要半天到天級的響應(yīng)和溝通時間,實時故障監(jiān)測系統(tǒng)可以做到分鐘級告警上報,真正實現(xiàn)了全天候不間斷監(jiān)測。
自適應(yīng)指導(dǎo):自研的故障監(jiān)測系統(tǒng)通過回顧歷史故障數(shù)據(jù)庫,積累了大量的故障處理經(jīng)驗,可以根據(jù)故障點位和類型自適應(yīng)生成設(shè)備維護建議,不僅定位準(zhǔn)確,還能合理維護。
3、核心故障出單邏輯設(shè)計
圖三 智能故障出單層級結(jié)構(gòu)圖
如上圖,在實時故障監(jiān)測系統(tǒng)中,一共有六種不同的設(shè)備/模塊被納入了監(jiān)測對象。不同硬件在系統(tǒng)中完成功能不同,性能指標(biāo)種類存在明顯差異,運營過程中關(guān)注點也不同。因此需要根據(jù)每種板卡/模塊的運行特征,具體為其設(shè)計故障分析邏輯。
但是不同的故障分析邏輯,其本源是對性能、告警、狀態(tài)等數(shù)據(jù)源產(chǎn)生數(shù)據(jù)的分析。因此,針對單一數(shù)據(jù)源的特征分析和針對多數(shù)據(jù)源的聯(lián)合分析,作為基本分析方法,是故障檢測系統(tǒng),實現(xiàn)不同硬件故障分析邏輯的技術(shù)基礎(chǔ)。其中涉及的一些技術(shù)要點會在下文給出簡要介紹。
技術(shù)要點一
性能數(shù)據(jù)異常實時發(fā)現(xiàn)。上文提到,在開放光網(wǎng)絡(luò)系統(tǒng)中,設(shè)備因秒級的性能數(shù)據(jù)采集和推送變得透明化和可視化。這也對實時性能處理和分析提出了更高的要求,采集窗口必須實時貼近故障事件的反應(yīng)時間,監(jiān)測算法必須保證低算法復(fù)雜度以配合實時故障發(fā)現(xiàn)的需求。為了應(yīng)對這些需求,我們引入了時間序列自適應(yīng)滑動窗口階躍監(jiān)測技術(shù)。
圖四 自適應(yīng)滑動窗口階躍監(jiān)測
如圖所示,我們將設(shè)備推送的秒級數(shù)據(jù)(例如模塊發(fā)光頻率,發(fā)光頻偏,板卡溫度等)收集到控制器端,然后對歷史時間窗進行滑動監(jiān)測。監(jiān)測算法的思想是動態(tài)截取時間窗,并計算時間窗在當(dāng)前時刻的統(tǒng)計值,這個統(tǒng)計值和數(shù)據(jù)的波動情況正相關(guān)。換言之,異常性能數(shù)據(jù)時間窗內(nèi)經(jīng)過統(tǒng)計分析會計算得到一個較高值。該值與統(tǒng)計所得閾值做比較,低于閾值則為正常范圍波動,高出閾值則被判定為故障態(tài)。算法中的各項具體數(shù)值(例如閾值、標(biāo)準(zhǔn)差)都是經(jīng)過對歷史故障數(shù)據(jù)的詳細分析后得出的,使故障態(tài)識別更加精確。另外,性能數(shù)據(jù)的偶然波動(單個采集窗口的數(shù)據(jù)異常,可能是設(shè)備誤報導(dǎo)致)導(dǎo)致的信號突變也會在該算法中進行排除。通過這種滑動窗口階躍監(jiān)測技術(shù),20s內(nèi)的窗口異常波動都可以有效檢出,且占用資源低,可以實時對控制器管控的海量設(shè)備同時監(jiān)控。在性能監(jiān)測方面,除了自適應(yīng)滑動窗口階躍監(jiān)測之外,還有發(fā)光平坦度監(jiān)測、電源實時轉(zhuǎn)化率分析、風(fēng)扇轉(zhuǎn)速與設(shè)備功耗數(shù)據(jù)關(guān)聯(lián)度分析等手段,可根據(jù)設(shè)備的特性進行應(yīng)用。
技術(shù)要點二
多維度信息綜合分析提升根因定位準(zhǔn)確性。雖然上述的性能數(shù)據(jù)是可以通過數(shù)學(xué)建模來利用算法直接判斷異常態(tài),但是某些設(shè)備的性能數(shù)據(jù)對于故障的指向性不是特別明確,甚至缺少關(guān)鍵性能數(shù)據(jù),此時就需要控制器采集設(shè)備其他維度的信息來進行綜合研判。例如設(shè)備自身上報的告警,設(shè)備關(guān)聯(lián)業(yè)務(wù)的健康度,相關(guān)聯(lián)的交換機端口狀態(tài)等等。我們以波長轉(zhuǎn)換板卡(OTU板卡)為例簡要說明綜合分析過程。在之前的運營中,OTU板卡故障一般是在上層業(yè)務(wù)受損后被發(fā)現(xiàn)的。然后人工查詢并判斷是數(shù)通層面故障還是波分層面故障,定位到波分層面故障后再定位具體的故障點位。定位到具體故障設(shè)備后,再來通過相關(guān)的設(shè)備告警定位故障具體發(fā)生在客戶側(cè)模塊,線路側(cè)模塊還是OTU電卡。整個故障定位流程十分冗長且需要人工確認,并且在確認眾多告警和故障之間的關(guān)聯(lián)時需要豐富的經(jīng)驗,這對后續(xù)的排障工作也帶來了較很高的難度。
圖五 多維度信息綜合分析流程
因此我們將告警、業(yè)務(wù)狀態(tài)、巡檢結(jié)果都融入自動化故障監(jiān)測體系中。從OTU板卡告警觸發(fā),開始關(guān)聯(lián)分析業(yè)務(wù)的狀態(tài)。若業(yè)務(wù)狀態(tài)異常,則進一步分析這個告警的嚴(yán)重程度,根據(jù)其和故障的相關(guān)性分級處理,結(jié)合受影響業(yè)務(wù)的數(shù)量來判斷具體是OTU故障還是潛在的上插模塊的故障。另一方面,日常的巡檢收集對業(yè)務(wù)無影響的告警,從故障防控的角度提前知曉設(shè)備劣化的動態(tài),并發(fā)出故障預(yù)測??傮w而言,通過編排告警的優(yōu)先級以及對應(yīng)處理方式,可以為后續(xù)排障工作提供準(zhǔn)確的指導(dǎo)建議,進一步提高故障處理的效率。
總結(jié)
騰訊開放光網(wǎng)絡(luò)系統(tǒng)實時設(shè)備故障監(jiān)測系統(tǒng),依托于騰訊開放光網(wǎng)絡(luò)系統(tǒng)秒級telemetry性能監(jiān)控能力的海量運營數(shù)據(jù),引入先進數(shù)據(jù)分析算法,實時發(fā)現(xiàn)設(shè)備性能異動;結(jié)合設(shè)備告警、業(yè)務(wù)狀態(tài)信息分析等手段,顯著提升了故障定位的準(zhǔn)確性、查全度、時效性,有效解決了在不同廠商設(shè)備混合組網(wǎng)的開放網(wǎng)絡(luò)中,定位設(shè)備故障的難題,提升了光網(wǎng)絡(luò)系統(tǒng)故障應(yīng)對效率。展望未來:一方面故障監(jiān)測系統(tǒng)將會不斷優(yōu)化算法,進一步提升故障定位準(zhǔn)確率和排障效率,同時,更多新的故障類型將會納入實時監(jiān)測體系中。另一方面,將會探索故障監(jiān)測系統(tǒng)與優(yōu)化系統(tǒng)聯(lián)動配合,實現(xiàn)故障、監(jiān)測,優(yōu)化的閉環(huán)。
作者:懷健、王宇、明剛