《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 業(yè)界動態(tài) > 都2022年了,為什么還有這么多網(wǎng)絡故障?

都2022年了,為什么還有這么多網(wǎng)絡故障?

2022-01-21
來源:CSDN程序人生

故障年年有,今年特別早。

前幾天,我在寫《2022年通信行業(yè)十大看點》的時候,就提到了網(wǎng)絡安全穩(wěn)定的重要性。沒想到,這還不到一個禮拜,國內(nèi)第一個斷網(wǎng)事件就誕生了。

根據(jù)媒體報道,1月12日凌晨,有大量用戶反映某運營商服務斷網(wǎng)。基于網(wǎng)友反饋的坐標來看,包括北京、廣州、杭州、長春、烏魯木齊等地,均出現(xiàn)了斷網(wǎng)問題。

據(jù)悉,此次大規(guī)模斷網(wǎng)事件,導致47%的該運營商用戶無法訪問網(wǎng)絡,骨干網(wǎng)受到影響,具體表現(xiàn)為路由追蹤無信息。

本次斷網(wǎng)發(fā)生在深夜,且很快得到了恢復(不到半小時),客觀來說,影響不大。

但是,斷網(wǎng)的原因卻遲遲未能公布(估計不會公布了)。

這次斷網(wǎng),不禁讓人深思——都2022年了,運營商和設備商每天都把技術吹得天花亂墜,為什么我們的網(wǎng)絡還是會斷?

今天,小棗君就簡單和大家聊聊這個話題。

斷網(wǎng)的原因分析

前段時間,西安一碼通宕機的時候,幾乎所有人都把關注目光放在“單一來源采購”和“項目轉包”上。

我們在日常工作中,也經(jīng)常見到甚至參與過類似的項目——高價中標,然后層層轉包,最后一個千萬級的項目,很可能是一個大學生團隊完成的。

軟件行業(yè)這種現(xiàn)象略見不鮮,于是人們就會覺得,通信行業(yè)出現(xiàn)問題,是不是也和項目轉包或者低價中標有關?

其實,通信行業(yè)的情況,和IT行業(yè)還是有些區(qū)別的。

通信項目,尤其是面向三大運營商的公共通信網(wǎng)絡項目,對安全性和可靠性的要求極高。

公共通信網(wǎng)絡(手機網(wǎng)絡、寬帶網(wǎng)絡)承載著海量的用戶,支撐國民經(jīng)濟各個領域(金融、制造、交通)的發(fā)展,對于社會穩(wěn)定意義重大。各個運營商身負非常嚴格的網(wǎng)絡安全運行考核指標,一旦出現(xiàn)問題,不是扣工資那么簡單,而是領導下課,甚至瀆職入獄。

所以,對于通信網(wǎng)絡主設備和核心服務的采購,運營商非常嚴謹和認真。能夠中標的,都是華為、中興、愛立信、諾基亞這樣的大型企業(yè)。

運營商那么重視,設備商就更不用說了。在目前激烈的市場競爭下,設備商們再摳門,也不敢在安全上松懈。一旦出事,大領導就要屁顛屁顛去道歉。一旦出大事,這個省的份額基本上就是完蛋,卷鋪蓋走人。

所以,通信網(wǎng)絡設備的采購,尤其是集團層面的集采,貓膩空間有限。目前,貓膩較多的,或者說存在低價競爭、灰色交易的,是一些中小型的采購。大家可以去運營商的采購網(wǎng)站看,每天都有幾十個采購項目掛出來,什么辦公樓裝修啊,顯示屏采購啊,信息系統(tǒng)運維啊,之類的。

通信圈里很多人抱怨運營商壓價,其實運營商壓價的項目,主要是運維、代運維、站點勘察之類的體力勞動項目。甲方會通過施工標準來卡供應商。

既要低價,又要符合標準,就看乙方供應商的本事。硬件和物料是明的,不好偷工減料,于是,就把目光放在員工身上,大幅克扣合作方員工的工資和獎金,以此達到壓低成本的目的。

說起來大家可能不信,有設備商在招外包合作的時候,明確要求了給外包員工的薪資比例。例如設備商給分包商1萬,那么,分包商必須承諾,至少要給員工7000,以此保證底層員工的積極性和態(tài)度。

為了保證分包商員工不瞎搞,設備商和運營商還專門制定了大量的流程制度和行為規(guī)范,文檔也是不斷地checklist,對操作步驟嚴格管控,防止出事。

前幾年廣西那個故障,就是外包員工誤操作,導致某設備商賠了幾個億。所以,設備商不會為了省那么幾個錢,在核心環(huán)節(jié)摳成本。

說來說去,我想表達的意思就是——通信網(wǎng)絡因為層層轉包、偷工減料導致出現(xiàn)重大網(wǎng)絡的可能性,極低極低。運營商、設備商、分包商,都不敢拿網(wǎng)絡安全當兒戲。

真正的原因

那么問題來了,通信網(wǎng)絡出現(xiàn)重大故障的主要原因,究竟是什么呢?

其實還是技術原因。

我們搞技術的通信人都知道,現(xiàn)在的通信網(wǎng)絡是極為健壯的,即使你想故意搞癱它,都很難。

通信網(wǎng)絡在設計之初,就有無數(shù)的專家進行架構設計和評審,考慮各種冗余和容災方案。為了避免癱局,所有的單板都是主備兩塊。再往上,網(wǎng)元也是容災的,要么pool池,要么1+1或1:1備份。傳輸設備就更不用說,各種環(huán)型組網(wǎng),各種主備保護,就是為了應對設備故障或意外情況(地震、水災、恐襲等)。

電子設備是不穩(wěn)定的,CPU、內(nèi)存、主板、硬盤、強弱電,都有可能故障。公共通信網(wǎng)絡要實現(xiàn)99.9999%以上的可靠性,必須做容災備份。說白了,就是砸錢。看上去是一套設備,其實后面是一堆設備。

但是,越復雜的網(wǎng)絡,其中的隱患就越難以察覺。目前,我們經(jīng)歷2/3/4/5G的發(fā)展,網(wǎng)絡變得太過臃腫和復雜。網(wǎng)絡的開放化,也導致了廠商的魚龍混雜。

舊設備舍不得淘汰,新設備(新技術)剛剛上線,是混亂的高發(fā)期。

運維人員對設備和網(wǎng)絡的缺乏了解,信息的不對稱,導致了應對突發(fā)局面的慌亂和倉促。

說句實在話,目前運營商的一些員工,在技術上無法做到及時的技能更新,對設備商依賴越來越大,正在喪失對技術的控制和主導權。

少部分的運營商基層技術牛人,因為職業(yè)發(fā)展的原因,要么升職去做管理了,要么躺平或離職了,青黃不接,沒辦法和設備商工程師進行對等溝通,影響了故障的緊急恢復。沒有造成二次傷害,就已經(jīng)不錯了。

全網(wǎng)級的重大故障,要么是核心網(wǎng)的鍋,要么是傳輸網(wǎng)的鍋?,F(xiàn)在出故障,想都不用想,要么是骨干網(wǎng)路由掛了,要么是光纖斷了,要么就是DNS、鑒權這樣的基礎服務掛了。連Facebook和Google這樣的頂級技術巨頭,都會在BGP這樣的基礎路由協(xié)議上栽跟頭,你說還有什么不可能發(fā)生?

我們總吹牛,說自己控制了網(wǎng)絡。其實,一線技術人員都知道,很多技術上的事情,都是玄學。你根本不知道它為什么會好,也根本不知道它為什么會壞。

網(wǎng)絡出現(xiàn)故障的可能性太多了,蝴蝶效應也非常明顯。我們國內(nèi)的工程質量把關很嚴格,還好一些。很多海外項目,簡直讓人抓狂。

舉個例子,曾經(jīng)在印度的一個項目,本地員工中繼線接錯了,主用對的,備用錯了。結果,傳輸網(wǎng)絡一個閃斷,主用切備用,癱了。線癱了就癱了唄,結果數(shù)據(jù)溢出,把傳輸設備沖癱了。傳輸設備癱了,導致整網(wǎng)信令擁塞,又把MGW媒體網(wǎng)關(兼做信令網(wǎng)關)沖癱了,一路癱下去,一個邦(相當于國內(nèi)一個省)就這么斷網(wǎng)了。你說神不神奇?

我們作為技術人,要對技術有敬畏之心。我們對技術的掌握,遠遠沒有到爐火純青的地步。所以,完全杜絕網(wǎng)絡故障,是不可能的。常在河邊走,哪有不濕鞋。出來混,還是要看點運氣。

從技術的長遠發(fā)展來看,現(xiàn)在都講網(wǎng)絡的自動駕駛(和開車沒關系,是網(wǎng)絡自己管理網(wǎng)絡的意思),講AI的智能化運維。其實我覺得,AI輔助運維應該可行,但是全面接管的話,還是蠻遙遠的。

目前,我們的通信網(wǎng)絡過于復雜,人員水平層次不齊,在沒有外部主動攻擊的情況下,我們都無法保證網(wǎng)絡的100%安全。一旦發(fā)生了敵對勢力對網(wǎng)絡的超限戰(zhàn),會發(fā)生什么,誰也不知道。

客觀發(fā)生的情況我們控制不住,但是,主觀的預防行為我們還是可以做的。

一方面,加強對技術人員的尊重,給予合適的待遇,規(guī)劃技術線的跑道,有利于穩(wěn)定技術人員隊伍。

另一方面,及時對員工進行技術培訓和實踐訓練,彌補技術差異,有利于故障的快速恢復。

第三,容災演練要落到實處,少搞貓膩,想方設法多設計一些極限的緊急情況,完善容災預案,會有很大幫助。

第四,簡化網(wǎng)絡架構設計,加速舊設備的淘汰,實現(xiàn)網(wǎng)絡極簡,有利于減小故障發(fā)生的風險。

好了,以上就是小棗君關于網(wǎng)絡故障的一些想法,歡迎大家補充、拍磚。

2022沒有開個好頭,希望后面大家平平安安,該拜還是多拜拜。




最后文章空三行圖片.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。