編者按:隨著我省無線電管理廣域網建設的逐步推進和深入,網絡中會出現(xiàn)各種各樣的故障。為了使網絡管理人員能夠更好的識別和了解常見的網絡故障,并能較快的加以排查和解決,我們收集了有關資料,并結合實際管理中的一些經驗和體會,撰寫此文僅供大家參閱。
在現(xiàn)行的網絡管理體制中,由于網絡故障的多樣性和復雜性,網絡故障分類方法也不盡相同。根據網絡故障的性質可以分為物理故障與邏輯故障,也可以根據網絡故障的對象分為線路故障、路由器故障和主機故障。
一、按網絡故障的性質劃分
1.物理故障
物理故障,是指設備或線路損壞、插頭松動、線路受到嚴重電磁干擾等情況。比如說,網絡中某條線路突然中斷,如已安裝網絡監(jiān)控軟件就能夠從監(jiān)控界面上發(fā)現(xiàn)該線路流量突然掉下來或系統(tǒng)彈出報警界面,更直接的反映就是處于該線路端口上的無線電管理信息系統(tǒng)無法使用。
解決方法:首先用DOS命令集中的ping命令檢查線路與網絡管理中心服務器端口是否連通,如果不連通,則檢查端口插頭是否松動,如果松動則插緊,再用ping命令檢查,如果已連通則故障解決。也有可能是線路遠離網絡管理中心的那端插頭松動,則需要檢查終端設備的連接狀況。如果插口沒有問題,則可利用網線測試設備進行通路測試,發(fā)現(xiàn)問題應重新更換一條網線。
另一種常見的物理故障就是網絡插頭誤接。這種情況經常是沒有搞清網絡插頭規(guī)范或沒有弄清網絡拓撲結構的情況下導致的。
解決方法:熟悉掌握網絡插頭規(guī)范,如T568A和T568B,搞清網線中每根線的顏色和意義,做出符合規(guī)范的插頭。
還有一種情況,比如兩個路由器直接連接,這時應該讓一臺路由器的出口連接另一路由器的入口,而這臺路由器的入口連接另一路由器的出口才行,這時制作的網線就應該滿足這一特性,否則也會導致網絡誤解。不過像這種網絡連接故障顯得很隱蔽,要診斷這種故障沒有什么特別好的工具,只有依靠網絡管理的經驗進行解決。
2. 邏輯故障
邏輯故障中的一種常見情況就是配置錯誤,就是指因為網絡設備的配置原因而導致的網絡異常或故障。配置錯誤可能是路由器端口參數設定有誤,或路由器路由配置錯誤以致于路由循環(huán)或找不到遠端地址,或者是網絡掩碼設置錯誤等。比如,同樣是網絡中某條線路故障,發(fā)現(xiàn)該線路沒有流量,但又可以Ping通線路兩端的端口,這時很可能就是路由配置錯誤導致循環(huán)了。
解決方法:診斷該故障可以用traceroute工具,可以發(fā)現(xiàn)在traceroute的結果中某一段之后,兩個IP地址循環(huán)出現(xiàn)。這時,一般就是線路遠端把端口路由又指向了線路的近端,導致IP包在該線路上來回反復傳遞。這時需要更改遠端路由器端口配置,把路由設置為正確配置,就能恢復線路了。當然處理該故障的所有動作都要記錄在日志中,防止再次出現(xiàn)。
邏輯故障中另一類故障就是一些重要進程或端口關閉,以及系統(tǒng)的負載過高。比如,路由器的SNMP進程意外關閉或死掉,這時網絡管理系統(tǒng)將不能從路由器中采集到任何數據,因此網絡管理系統(tǒng)失去了對該路由器的控制。還有,也是線路中斷,沒有流量,這時用ping發(fā)現(xiàn)線路近端的端口ping不通。
解決方法:檢查發(fā)現(xiàn)該端口處于down的狀態(tài),就是說該端口已經給關閉了,因此導致故障。這時只需重新啟動該端口,就可以恢復線路的連通了。
此外,還有一種常見情況是路由器的負載過高,表現(xiàn)為路由器CPU溫度太高、CPU利用率太高,以及內存余量太小等,雖然這種故障不能直接影響網絡的連通,但卻影響到網絡提供服務的質量,而且也容易導致硬件設備的損害。
二、按網絡故障的對象劃分
1.線路故障
線路故障最常見的情況就是線路不通,診斷這種故障可用ping檢查線路遠端的路由器端口是否還能響應,或檢測該線路上的流量是否還存在。一旦發(fā)現(xiàn)遠端路由器端口不通,或該線路沒有流量,則該線路可能出現(xiàn)了故障。這時有幾種處理方法。首先是ping線路兩端路由器端口,檢查兩端的端口是否關閉了。如果其中一端端口沒有響應則可能是路由器端口故障。如果是近端端口關閉,則可檢查端口插頭是否松動,路由器端口是否處于down的狀態(tài);如果是遠端端口關閉,則要通知線路對方進行檢查。進行這些故障處理之后,線路往往就通暢了。如果線路仍然不通,一種可能就得線路本身的問題,看是否線路中間被切斷;另一種可能就是路由器配置出錯,比如路由循環(huán)了。就是遠端端口路由又指向了線路的近端,這樣線路遠端連接的網絡用戶就不通了,這種故障可以用traceroute來診斷。解決路由循環(huán)的方法就是重新配置路由器端口的靜態(tài)路由或動態(tài)路由。
2.路由器故障
事實上,線路故障中很多情況都涉及到路由器,因此也可以把一些線路故障歸結為路由器故障。但線路涉及到兩端的路由器,因此在考慮線路故障是要涉及到多個路由器。有些路由器故障僅僅涉及到它本身,這些故障比較典型的就是路由器CPU溫度過高、CPU利用率過高和路由器內存余量太小。其中最危險的是路由器CPU溫度過高,因為這可能導致路由器燒毀。而路由器CPU利用率過高和路由器內存余量太小都將直接影響到網絡服務的質量,比如路由器上丟包率就會隨內存余量的下降而上升。檢測這種類型的故障,需要利用MIB變量瀏覽器這種工具,從路由器MIB變量中讀出有關的數據,通常情況下網絡管理系統(tǒng)有專門的管理進程不斷地檢測路由器的關鍵數據,并及時給出報警。而解決這種故障,只有對路由器進行升級、擴內存等,或者重新規(guī)劃網絡的拓撲結構。
另一種路由器故障就是自身的配置錯誤。比如配置的協(xié)議類型不對,配置的端口不對等。這種故障比較少見,在使用初期配置好路由器基本上就不會出現(xiàn)了。
3.主機故障
主機故障常見的現(xiàn)象就是主機的配置不當。比如,主機配置的IP地址與其他主機沖突,或IP地址根本就不在子網范圍內,這將導致該主機不能連通。如泰州無線電管理處的網段范圍是172.17.14.1—172.17.14.253,所以主機地址只有設置在此段區(qū)間內才有效。還有一些服務設置的故障。比如E-Mail服務器設置不當導致不能收發(fā)E-Mail,或者域名服務器設置不當將導致不能解析域名。主機故障的另一種可能是主機安全故障。比如,主機沒有控制其上的finger,rpc,rlogin等多余服務。而惡意攻擊者可以通過這些多余進程的正常服務或bug攻擊該主機,甚至得到該主機的超級用戶權限等。
另外,還有一些主機的其他故障,比如不當共享本機硬盤等,將導致惡意攻擊者非法利用該主機的資源。發(fā)現(xiàn)主機故障是一件困難的事情,特別是別人惡意的攻擊。一般可以通過監(jiān)視主機的流量、或掃描主機端口和服務來防止可能的漏洞。當發(fā)現(xiàn)主機受到攻擊之后,應立即分析可能的漏洞,并加以預防,同時通知網絡管理人員注意?,F(xiàn)在,各市都安裝了防火墻,如果防火墻地址權限設置不當,也會造成網絡的連接故障,只要在設置使用防火墻時加以注意,這種故障就能解決。