騰訊開放光網(wǎng)絡(luò)實(shí)現(xiàn)多廠商設(shè)備開放組網(wǎng)。通過不同廠商設(shè)備的自由組合與靈活替換,降低了帶寬成本,提高了帶寬交付效率。然而,多廠商、多型號(hào)設(shè)備的混合組網(wǎng)模式,也為傳送網(wǎng)絡(luò)的運(yùn)營帶來了新的挑戰(zhàn)。在不同廠商設(shè)備混合組網(wǎng)的開放網(wǎng)絡(luò)中,定位設(shè)備故障是一個(gè)復(fù)雜的問題。傳統(tǒng)依賴廠商工程師的模式難以為繼,需要系統(tǒng)具備快速診斷、定位設(shè)備故障的能力,能夠在開放網(wǎng)絡(luò)中,精確識(shí)別不同廠商設(shè)備的異常狀態(tài),定位故障點(diǎn),準(zhǔn)確分析故障影響,為設(shè)備故障處理等相關(guān)運(yùn)營流程提供技術(shù)支撐。騰訊開放光網(wǎng)絡(luò)基于多維度運(yùn)行數(shù)據(jù),利用智能算法,構(gòu)建實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)。實(shí)現(xiàn)對(duì)設(shè)備故障全面覆蓋,故障定位準(zhǔn)確率達(dá)到90%以上,故障查全率高達(dá)97%。
1、設(shè)備故障定位的挑戰(zhàn)
圖一 傳統(tǒng)光傳輸系統(tǒng)故障定位流程
眾所周知,根據(jù)墨菲定律,只要硬件有故障的幾率,無論這個(gè)幾率再小故障都會(huì)發(fā)生。更不用提在開放光網(wǎng)絡(luò)中,各類業(yè)務(wù)板卡/光模塊的數(shù)量在幾k到數(shù)十k的級(jí)別,在這么大的設(shè)備基數(shù)面前,故障是很常見的。那么廠商工程師的排障邏輯是什么樣的呢?一個(gè)最重要的信息來源就是告警。當(dāng)設(shè)備產(chǎn)生告警或者業(yè)務(wù)受到影響時(shí),值班人員會(huì)去詢問廠商工程師進(jìn)行確認(rèn)故障具體點(diǎn)位,然后配合駐場(chǎng)來對(duì)故障設(shè)備進(jìn)行更換。在這個(gè)處理流程中有幾大痛點(diǎn):
告警多:每月與波分電層相關(guān)的告警數(shù)量極為龐大,已遠(yuǎn)遠(yuǎn)超出人力資源所能承受的范圍。
誤報(bào)多:與每月設(shè)備上報(bào)海量告警相對(duì)的是,但實(shí)際發(fā)生的設(shè)備故障數(shù)量大概只有二十幾例。
信息指向不明確:板卡、模塊告警無法與業(yè)務(wù)相關(guān)聯(lián),故障指示性差。
2、自研實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)設(shè)計(jì)
圖二 實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)流程
為了解決上述痛點(diǎn),我們構(gòu)建了實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)。它的核心部分是上圖中的智能故障出單。開放光網(wǎng)絡(luò)系統(tǒng)的精細(xì)化監(jiān)控能力帶來了秒級(jí)性能數(shù)據(jù)和告警的采集,這極大地將開放光網(wǎng)絡(luò)透明化可視化,開放光網(wǎng)絡(luò)中設(shè)備的各個(gè)維度的信息變得觸手可及。通過將這些信息輸入我們自研的數(shù)據(jù)挖掘和分析算法,故障事件單以及對(duì)應(yīng)的處理建議將會(huì)自動(dòng)且快速輸出。這些故障事件單會(huì)以告警的形式接入運(yùn)營監(jiān)控平臺(tái),并自動(dòng)觸發(fā)工單,通知值班人員關(guān)注。值班同學(xué)根據(jù)故障告警的分析建議,指導(dǎo)駐場(chǎng)直接對(duì)故障設(shè)備做出相應(yīng)的操作,如復(fù)位、拔插、更換等等。相對(duì)于傳統(tǒng)的商用系統(tǒng)排障方式,騰訊自研實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)的優(yōu)勢(shì)體現(xiàn)在如下幾個(gè)方面:
準(zhǔn)確定位:故障定位的累積準(zhǔn)確率在90%以上,出單的算法邏輯也一直針對(duì)具體的故障情況進(jìn)行優(yōu)化,避免誤報(bào)。
全面覆蓋:故障定位的累積查全率在97%左右,可覆蓋各種故障場(chǎng)景,避免絕大多數(shù)故障漏報(bào)。
快速響應(yīng):相較于依賴工程師定位故障需要半天到天級(jí)的響應(yīng)和溝通時(shí)間,實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)可以做到分鐘級(jí)告警上報(bào),真正實(shí)現(xiàn)了全天候不間斷監(jiān)測(cè)。
自適應(yīng)指導(dǎo):自研的故障監(jiān)測(cè)系統(tǒng)通過回顧歷史故障數(shù)據(jù)庫,積累了大量的故障處理經(jīng)驗(yàn),可以根據(jù)故障點(diǎn)位和類型自適應(yīng)生成設(shè)備維護(hù)建議,不僅定位準(zhǔn)確,還能合理維護(hù)。
3、核心故障出單邏輯設(shè)計(jì)
圖三 智能故障出單層級(jí)結(jié)構(gòu)圖
如上圖,在實(shí)時(shí)故障監(jiān)測(cè)系統(tǒng)中,一共有六種不同的設(shè)備/模塊被納入了監(jiān)測(cè)對(duì)象。不同硬件在系統(tǒng)中完成功能不同,性能指標(biāo)種類存在明顯差異,運(yùn)營過程中關(guān)注點(diǎn)也不同。因此需要根據(jù)每種板卡/模塊的運(yùn)行特征,具體為其設(shè)計(jì)故障分析邏輯。
但是不同的故障分析邏輯,其本源是對(duì)性能、告警、狀態(tài)等數(shù)據(jù)源產(chǎn)生數(shù)據(jù)的分析。因此,針對(duì)單一數(shù)據(jù)源的特征分析和針對(duì)多數(shù)據(jù)源的聯(lián)合分析,作為基本分析方法,是故障檢測(cè)系統(tǒng),實(shí)現(xiàn)不同硬件故障分析邏輯的技術(shù)基礎(chǔ)。其中涉及的一些技術(shù)要點(diǎn)會(huì)在下文給出簡要介紹。
技術(shù)要點(diǎn)一
性能數(shù)據(jù)異常實(shí)時(shí)發(fā)現(xiàn)。上文提到,在開放光網(wǎng)絡(luò)系統(tǒng)中,設(shè)備因秒級(jí)的性能數(shù)據(jù)采集和推送變得透明化和可視化。這也對(duì)實(shí)時(shí)性能處理和分析提出了更高的要求,采集窗口必須實(shí)時(shí)貼近故障事件的反應(yīng)時(shí)間,監(jiān)測(cè)算法必須保證低算法復(fù)雜度以配合實(shí)時(shí)故障發(fā)現(xiàn)的需求。為了應(yīng)對(duì)這些需求,我們引入了時(shí)間序列自適應(yīng)滑動(dòng)窗口階躍監(jiān)測(cè)技術(shù)。
圖四 自適應(yīng)滑動(dòng)窗口階躍監(jiān)測(cè)
如圖所示,我們將設(shè)備推送的秒級(jí)數(shù)據(jù)(例如模塊發(fā)光頻率,發(fā)光頻偏,板卡溫度等)收集到控制器端,然后對(duì)歷史時(shí)間窗進(jìn)行滑動(dòng)監(jiān)測(cè)。監(jiān)測(cè)算法的思想是動(dòng)態(tài)截取時(shí)間窗,并計(jì)算時(shí)間窗在當(dāng)前時(shí)刻的統(tǒng)計(jì)值,這個(gè)統(tǒng)計(jì)值和數(shù)據(jù)的波動(dòng)情況正相關(guān)。換言之,異常性能數(shù)據(jù)時(shí)間窗內(nèi)經(jīng)過統(tǒng)計(jì)分析會(huì)計(jì)算得到一個(gè)較高值。該值與統(tǒng)計(jì)所得閾值做比較,低于閾值則為正常范圍波動(dòng),高出閾值則被判定為故障態(tài)。算法中的各項(xiàng)具體數(shù)值(例如閾值、標(biāo)準(zhǔn)差)都是經(jīng)過對(duì)歷史故障數(shù)據(jù)的詳細(xì)分析后得出的,使故障態(tài)識(shí)別更加精確。另外,性能數(shù)據(jù)的偶然波動(dòng)(單個(gè)采集窗口的數(shù)據(jù)異常,可能是設(shè)備誤報(bào)導(dǎo)致)導(dǎo)致的信號(hào)突變也會(huì)在該算法中進(jìn)行排除。通過這種滑動(dòng)窗口階躍監(jiān)測(cè)技術(shù),20s內(nèi)的窗口異常波動(dòng)都可以有效檢出,且占用資源低,可以實(shí)時(shí)對(duì)控制器管控的海量設(shè)備同時(shí)監(jiān)控。在性能監(jiān)測(cè)方面,除了自適應(yīng)滑動(dòng)窗口階躍監(jiān)測(cè)之外,還有發(fā)光平坦度監(jiān)測(cè)、電源實(shí)時(shí)轉(zhuǎn)化率分析、風(fēng)扇轉(zhuǎn)速與設(shè)備功耗數(shù)據(jù)關(guān)聯(lián)度分析等手段,可根據(jù)設(shè)備的特性進(jìn)行應(yīng)用。
技術(shù)要點(diǎn)二
多維度信息綜合分析提升根因定位準(zhǔn)確性。雖然上述的性能數(shù)據(jù)是可以通過數(shù)學(xué)建模來利用算法直接判斷異常態(tài),但是某些設(shè)備的性能數(shù)據(jù)對(duì)于故障的指向性不是特別明確,甚至缺少關(guān)鍵性能數(shù)據(jù),此時(shí)就需要控制器采集設(shè)備其他維度的信息來進(jìn)行綜合研判。例如設(shè)備自身上報(bào)的告警,設(shè)備關(guān)聯(lián)業(yè)務(wù)的健康度,相關(guān)聯(lián)的交換機(jī)端口狀態(tài)等等。我們以波長轉(zhuǎn)換板卡(OTU板卡)為例簡要說明綜合分析過程。在之前的運(yùn)營中,OTU板卡故障一般是在上層業(yè)務(wù)受損后被發(fā)現(xiàn)的。然后人工查詢并判斷是數(shù)通層面故障還是波分層面故障,定位到波分層面故障后再定位具體的故障點(diǎn)位。定位到具體故障設(shè)備后,再來通過相關(guān)的設(shè)備告警定位故障具體發(fā)生在客戶側(cè)模塊,線路側(cè)模塊還是OTU電卡。整個(gè)故障定位流程十分冗長且需要人工確認(rèn),并且在確認(rèn)眾多告警和故障之間的關(guān)聯(lián)時(shí)需要豐富的經(jīng)驗(yàn),這對(duì)后續(xù)的排障工作也帶來了較很高的難度。
圖五 多維度信息綜合分析流程
因此我們將告警、業(yè)務(wù)狀態(tài)、巡檢結(jié)果都融入自動(dòng)化故障監(jiān)測(cè)體系中。從OTU板卡告警觸發(fā),開始關(guān)聯(lián)分析業(yè)務(wù)的狀態(tài)。若業(yè)務(wù)狀態(tài)異常,則進(jìn)一步分析這個(gè)告警的嚴(yán)重程度,根據(jù)其和故障的相關(guān)性分級(jí)處理,結(jié)合受影響業(yè)務(wù)的數(shù)量來判斷具體是OTU故障還是潛在的上插模塊的故障。另一方面,日常的巡檢收集對(duì)業(yè)務(wù)無影響的告警,從故障防控的角度提前知曉設(shè)備劣化的動(dòng)態(tài),并發(fā)出故障預(yù)測(cè)??傮w而言,通過編排告警的優(yōu)先級(jí)以及對(duì)應(yīng)處理方式,可以為后續(xù)排障工作提供準(zhǔn)確的指導(dǎo)建議,進(jìn)一步提高故障處理的效率。
總結(jié)
騰訊開放光網(wǎng)絡(luò)系統(tǒng)實(shí)時(shí)設(shè)備故障監(jiān)測(cè)系統(tǒng),依托于騰訊開放光網(wǎng)絡(luò)系統(tǒng)秒級(jí)telemetry性能監(jiān)控能力的海量運(yùn)營數(shù)據(jù),引入先進(jìn)數(shù)據(jù)分析算法,實(shí)時(shí)發(fā)現(xiàn)設(shè)備性能異動(dòng);結(jié)合設(shè)備告警、業(yè)務(wù)狀態(tài)信息分析等手段,顯著提升了故障定位的準(zhǔn)確性、查全度、時(shí)效性,有效解決了在不同廠商設(shè)備混合組網(wǎng)的開放網(wǎng)絡(luò)中,定位設(shè)備故障的難題,提升了光網(wǎng)絡(luò)系統(tǒng)故障應(yīng)對(duì)效率。展望未來:一方面故障監(jiān)測(cè)系統(tǒng)將會(huì)不斷優(yōu)化算法,進(jìn)一步提升故障定位準(zhǔn)確率和排障效率,同時(shí),更多新的故障類型將會(huì)納入實(shí)時(shí)監(jiān)測(cè)體系中。另一方面,將會(huì)探索故障監(jiān)測(cè)系統(tǒng)與優(yōu)化系統(tǒng)聯(lián)動(dòng)配合,實(shí)現(xiàn)故障、監(jiān)測(cè),優(yōu)化的閉環(huán)。
作者:懷健、王宇、明剛