摘 要: 告警相關(guān)性分析有多種方法,本文所討論的基于微波通信的告警相關(guān)性分析基于代碼方法的基本思想,是建立潛在的問題(故障)和表征這些問題癥狀(告警)的關(guān)聯(lián)矩陣,并用其進(jìn)行故障定位。此方法適用范圍廣、速度快,能夠處理較高比率的癥狀丟失和虛假癥狀,本文主要研究關(guān)聯(lián)規(guī)則在微波通信告警中的具體應(yīng)用。
關(guān)鍵詞: 基于代碼方法;告警相關(guān)性分析;故障管理
在電信市場日趨開放的今天,競爭日益激烈,各種新興電信業(yè)務(wù)不斷涌現(xiàn)。為了提高電信企業(yè)的市場競爭力,降低企業(yè)的維護(hù)成本,減少直至避免用戶服務(wù)終端受到影響,必須對整個電信網(wǎng)絡(luò)的管理方式進(jìn)行一些改進(jìn)。在規(guī)模、技術(shù)及競爭相對層次較低的情況下,采取原來的處理方式是可行的。但隨著數(shù)字化、集成化的發(fā)展,各種新業(yè)務(wù)、新技術(shù)被廣泛應(yīng)用,電信網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生了根本性的改變。傳統(tǒng)的網(wǎng)絡(luò)管理已經(jīng)不能滿足企業(yè)日益發(fā)展的需要,并會造成人力和財力的大量浪費(fèi)。
在電信網(wǎng)絡(luò)管理中,故障管理是一個重要而且難度很大的任務(wù)。尤其是通信網(wǎng)絡(luò),每天都會產(chǎn)生大量的告警信息。面對著大量告警,網(wǎng)絡(luò)管理員很難快速進(jìn)行故障定位和診斷。一個大型網(wǎng)站應(yīng)用層故障恢復(fù)的時間中約有93%的時間花費(fèi)在對故障的檢測和診斷上。因此,在進(jìn)行故障定位之前必須對網(wǎng)絡(luò)產(chǎn)生的大量告警信息進(jìn)行有效地分析和解釋。網(wǎng)管中心的任務(wù)是在接收到網(wǎng)絡(luò)產(chǎn)生的告警之后對告警進(jìn)行分析。告警分析意味著對告警中包含的零散信息進(jìn)行整合,并從整體上對告警作出解釋。在故障管理中有些告警處理軟件采用了告警關(guān)聯(lián)技術(shù),稱為告警關(guān)聯(lián)系統(tǒng)。它的主要作用是自動過濾掉冗余的告警、識別故障以及建議一些預(yù)見性的措施,因此在故障管理中極具價值。目前,很多電信網(wǎng)管都采用了告警關(guān)聯(lián)系統(tǒng)作為網(wǎng)管智能化的一部分。
1 現(xiàn)階段國內(nèi)外研究方法及缺點
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,越來越多的研究人員采用數(shù)據(jù)挖掘方法分析告警數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)可以進(jìn)行網(wǎng)絡(luò)故障隔離和診斷、選擇正確措施、進(jìn)行預(yù)維護(hù)和趨勢分析。最近人們已經(jīng)提出了很多算法用于完成這一任務(wù),然而現(xiàn)存的算法都有其自身的缺陷,不能有效挖掘告警信息。
(1)基于關(guān)聯(lián)規(guī)則挖掘方法的告警分析
基于關(guān)聯(lián)規(guī)則挖掘的方法在告警分析數(shù)據(jù)挖掘領(lǐng)域內(nèi)占據(jù)了十分重要的位置,這是因為關(guān)聯(lián)規(guī)則挖掘方法具有其他方法無法比擬的優(yōu)點。正如參考文獻(xiàn)[1]中總結(jié)的那樣,通過這種挖掘方法得出的規(guī)則符合人的思維,容易理解,因此,目前處理告警序列的操作員樂于用這種規(guī)則的形式表達(dá)知識。而且這樣的規(guī)則可以表達(dá)這一領(lǐng)域內(nèi)的簡單聯(lián)系,并且有助于高效地挖掘出數(shù)據(jù)中隱藏的信息。然而,現(xiàn)存算法挖掘效率還比較低,并且參考文獻(xiàn)[5]研究發(fā)現(xiàn),一般關(guān)聯(lián)規(guī)則挖掘方法對大規(guī)模數(shù)據(jù)庫會產(chǎn)過多的規(guī)則,即產(chǎn)生所謂的規(guī)則爆炸問題,使決策者面對太多的規(guī)則而無所適從。
(2)基于神經(jīng)網(wǎng)絡(luò)方法的告警分析
神經(jīng)網(wǎng)絡(luò)方法模擬人腦神經(jīng)網(wǎng)絡(luò),神經(jīng)元是其基本處理單元。由神經(jīng)元可以構(gòu)成各種不同拓?fù)浣Y(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。為了讓神經(jīng)網(wǎng)絡(luò)實現(xiàn)事件關(guān)聯(lián)功能,首先要對其進(jìn)行訓(xùn)練,將網(wǎng)絡(luò)設(shè)備上的告警信息與實際網(wǎng)絡(luò)故障情況作為神經(jīng)網(wǎng)絡(luò)的輸入和輸出,不斷調(diào)整神經(jīng)元相互連接的權(quán)值。經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)就能根據(jù)存儲在神經(jīng)元連接上的權(quán)值識別出特定的故障。參考文獻(xiàn)[2,4]指出,如果目標(biāo)僅僅是進(jìn)行好的預(yù)測,神經(jīng)網(wǎng)絡(luò)的確具有一定功能。然而,這種方法需要有較好的訓(xùn)練數(shù)據(jù),并且在當(dāng)前應(yīng)用中,重要的一點是發(fā)現(xiàn)的知識應(yīng)該具有可理解性,因為電信公司不會愿意把許多黑匣子安到其系統(tǒng)中去。因此,神經(jīng)網(wǎng)絡(luò)方法在這方面仍需改進(jìn)。
(3)基于案例推理方法的告警分析
案例推理是基于集中存儲的認(rèn)知模型。其基本思想是將以前解決問題的經(jīng)驗以案例的形式存放在案例庫中,當(dāng)遇到問題時就從案例庫中查找同類案例的求解,從而獲得當(dāng)前問題的解決方法。參考文獻(xiàn)[3]開發(fā)了三個模塊對告警關(guān)聯(lián)方法進(jìn)行模擬:一個模塊用于生成故障和告警,另一個模塊用于定義網(wǎng)絡(luò)配置,最后一個模塊再進(jìn)行告警過濾和關(guān)聯(lián)。但是這種方法是基于經(jīng)驗和事例來解決問題的,所以對于網(wǎng)絡(luò)處理反應(yīng)不敏感,不適應(yīng)要求實時性高的告警處理。
(4)基于代碼方法的告警分析
代碼方法的基本思想是建立潛在的問題(故障)和表征這些問題癥狀(告警)的關(guān)聯(lián)矩陣并用其進(jìn)行故障定位。參考文獻(xiàn)[6]提出一種綜合方法。該方法結(jié)合小代碼書和簡單專家規(guī)則的優(yōu)點進(jìn)行告警分析,取得了一定成果。使用代碼方法簡單、適用范圍廣、速度快,能夠處理較高比率的癥狀丟失和虛假癥狀。此方法適合微波通信小心的故障管理系統(tǒng)。
(5)其他方法
除上述所列方法外,還有其他方法,如聚類方法、模糊邏輯等。聚類是把一組個體按照相似性歸成若干類別。參考文獻(xiàn)[7]通過聚類算法預(yù)測出一些告警集合的發(fā)生可以導(dǎo)致哪些告警集合的隨后發(fā)生。參考文獻(xiàn)[8]在進(jìn)行告警數(shù)據(jù)分析時采用了遺傳算法生成相關(guān)性規(guī)則的預(yù)測模式,用來對故障進(jìn)行預(yù)測。對融合算法的研究也逐漸進(jìn)入了人們的視野。根據(jù)當(dāng)前專家系統(tǒng)不能適應(yīng)網(wǎng)絡(luò)日益發(fā)展的需要,提出一種綜合智能解決方法,將神經(jīng)網(wǎng)絡(luò)和基于案例的推理進(jìn)行結(jié)合從而完成對告警數(shù)據(jù)的分析。將遺傳算法和神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,通過實驗證明,該方法在網(wǎng)絡(luò)學(xué)習(xí)和訓(xùn)練效率上高于傳統(tǒng)的BP算法、標(biāo)準(zhǔn)遺傳算法和一般的自適應(yīng)遺傳算法。
2 告警相關(guān)性在微波通信中的應(yīng)用
由于通信告警在邏輯上具有告警相關(guān)性,單個的故障告警往往會觸發(fā)一系列的相關(guān)聯(lián)的告警,導(dǎo)致產(chǎn)生大量告警信息,使對故障的判斷和定位變得困難。例如:在微波通信中,在網(wǎng)絡(luò)管理客戶端上對同一個MPT進(jìn)行收發(fā)頻率的配置,如果配置的收發(fā)頻率和MPT真實的收發(fā)頻率不一致,會出現(xiàn)Incompatible Frequency Alarm,同時會導(dǎo)致Incompatible Shifer Alarm告警的產(chǎn)生,這就是由于兩個告警之間的關(guān)聯(lián)性,一個告警的產(chǎn)生,導(dǎo)致另一個告警的產(chǎn)生。如果網(wǎng)絡(luò)中同時發(fā)生多個故障,告警的情況就會變得更為復(fù)雜。網(wǎng)絡(luò)管理員面對這些大量的告警信息是很難找出故障發(fā)生的根本原因,從而無法修復(fù)所發(fā)生的故障。
告警相關(guān)性分析的目標(biāo)是為網(wǎng)絡(luò)中某個設(shè)備故障抑制不必要或不相關(guān)的告警,為網(wǎng)絡(luò)管理員提供更準(zhǔn)確的故障告警信息,找到產(chǎn)生故障告警的根源,以實現(xiàn)快速、準(zhǔn)確的故障定位。告警相關(guān)性分析,一定的告警可以抑制比它級別低的告警,同時也可以被比它級別高的告警抑制。
告警相關(guān)性分析的過程,就是比較所有出現(xiàn)的通信告警之間的優(yōu)先級關(guān)系,抑制告警級別低的告警,使其不上報給網(wǎng)絡(luò)管理系統(tǒng),只向上發(fā)送最高級別的告警,以減少告警上報的數(shù)量,有利于告警根源的準(zhǔn)確判斷。告警抑制功能用來減少故障告警的上報數(shù)量,硬件告警能夠抑制所有的通信告警,被抑制的告警將不再上報給網(wǎng)絡(luò)管理系統(tǒng)。如出現(xiàn)MPT Card Fail Alarm,則所有的通信業(yè)務(wù)將中斷,也就不會出現(xiàn)通信告警。高級別的通信告警會抑制低級別的告警,被抑制的通信告警將不再被上報給網(wǎng)管系統(tǒng)顯示。如出現(xiàn)Demodulator Fail告警,就不會在上報High BER告警。
告警處理過程模型如圖1所示。
3 告警相關(guān)性處理流程圖
告警相關(guān)性是告警處理的重要組成部分,告警管理模塊從微波通信接收和發(fā)射設(shè)備中獲得通信告警相關(guān)信息,并在告警管理模塊中完成告警的處理。告警相關(guān)性組件只能利用檢測到的告警狀態(tài)去做告警相關(guān)性處理。告警相關(guān)性處理流程如圖2所示。
(1)告警管理進(jìn)程從微波通信接收和發(fā)射設(shè)備中獲得告警的狀態(tài)。
(2)如果檢測到的告警狀態(tài)和老的告警不相同,則保存新的檢測到的告警,并且轉(zhuǎn)到(3),否則什么都不做。
(3)計算是否有比這個告警級別高的告警,如果有,則重新計算告警相關(guān)性狀態(tài),保存并發(fā)送到告警上報模塊;如果沒有,則計算是否有比此告警級別低的告警,如果有,則重新計算告警相關(guān)性狀態(tài),保存并發(fā)送到告警上報模塊。
4 實驗結(jié)果
實驗結(jié)果如圖3所示。
本文提出的告警相關(guān)性分析模型與其他模型比較具有以下優(yōu)點:(1)更可靠,易于實現(xiàn);(2)便于修改告警相關(guān)性規(guī)則;(3)自適于網(wǎng)絡(luò)配置信息的改變;(4)適用于微波通信設(shè)備的故障診斷,但由于組成微波通信網(wǎng)的設(shè)備很復(fù)雜,生產(chǎn)廠商型號、規(guī)格的不同,為得到一個通用相關(guān)性模型,使它適用于各種電信網(wǎng)絡(luò),還需繼續(xù)研究。
參考文獻(xiàn)
[1] KICIMAN E, FOX A. Detecting and localizing anomalous behavior to discover failures in component-based internet ser vices[R]. Technical Report, Stanford, 2004.
[2] CHEN M S, HAN J, YU P S. Data mining: an overview from database perspective[J]. IEEE Transactions on Knowledge and Data Engineering, 1996,8(6):866-883.
[3] WIETGREFE H. Investigation and practical assessment of alarm correlation methods for the use in GSM access networks[C]. In: R. Stadler and M.Ulema,Editors, Proc. Network Operation and Management Symposium, 2002:391-404.
[4] 鄭慶國,呂衛(wèi)鋒.通信網(wǎng)絡(luò)中的告警相關(guān)性研究[J].計算機(jī)工程與應(yīng)用,2002(2):11-14.
[5] KLEMETTINEN M, MANNILA H, TOIVONEN H. Interactive exploration of interesting findings in the telecommunication network alarm sequence analyzer TASA[J]. Information and Software Technology, 1999,41:557-567.
[6] KLEMETTINEN M. A knowledge discovery methodology for telecommunication network alarm databases[D]. Finland: Department of Computer Science, University of Helsinki, 1999.
[7] MANNILA H, TOIVONEN H. Discovering generalized episodesusing minimal occurrences[C]. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining(KDD’96).關(guān)聯(lián)規(guī)則挖掘在電信網(wǎng)絡(luò)告警分析中的應(yīng)用研究Portland,Oregon:AAAI Press,1996:146-151.
[8] 胡一飛.計算機(jī)網(wǎng)絡(luò)中告警數(shù)據(jù)處理技術(shù)的研究[J].福建電腦,2005(11):32-33.