《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 解決方案 > 移動(dòng)網(wǎng)管基礎(chǔ)架構(gòu)新變革

移動(dòng)網(wǎng)管基礎(chǔ)架構(gòu)新變革

2010-11-03
作者:陸旻 來曉陽 吳翔
來源:通信世界周刊

中國移動(dòng)江蘇公司(以下簡稱“江蘇移動(dòng)”)網(wǎng)絡(luò)支撐系統(tǒng)自2000年開始建設(shè)了話務(wù)網(wǎng)管、數(shù)據(jù)網(wǎng)管、傳輸網(wǎng)管、電子運(yùn)維、綜合資源管理、7號(hào)信令監(jiān)測(cè)、數(shù)據(jù)業(yè)務(wù)監(jiān)測(cè)、網(wǎng)間信令監(jiān)測(cè)、自動(dòng)撥測(cè)、動(dòng)力環(huán)境監(jiān)控、綜合監(jiān)控、綜合分析、網(wǎng)優(yōu)平臺(tái)、網(wǎng)絡(luò)投訴處理平臺(tái)、IT網(wǎng)管、安全管控平臺(tái)等近20套專業(yè)網(wǎng)管支撐系統(tǒng)。這些支撐系統(tǒng)所管理的數(shù)據(jù)從方方面面監(jiān)控了移動(dòng)通信網(wǎng)絡(luò)的運(yùn)行信息,從而支撐各項(xiàng)運(yùn)維工作的順利開展。

江蘇移動(dòng)的網(wǎng)絡(luò)支撐系統(tǒng)已形成一定規(guī)模,業(yè)務(wù)支撐系統(tǒng)遇到的問題在網(wǎng)管中都會(huì)遇到,并且有著自身的特點(diǎn):單一系統(tǒng)的規(guī)模較小、種類繁多,調(diào)整頻繁、主機(jī)資源利用不均衡?;谙到y(tǒng)現(xiàn)狀和對(duì)發(fā)展的思考,江蘇移動(dòng)引入IBM動(dòng)態(tài)基礎(chǔ)架構(gòu)理念,嘗試部署主機(jī)動(dòng)態(tài)資源池,有效解決了網(wǎng)管系統(tǒng)“演進(jìn)”過程中遇到的一些難題。

網(wǎng)管系統(tǒng)IT架構(gòu)的 諸多挑戰(zhàn)

江蘇移動(dòng)的用戶規(guī)模已突破5000萬,其網(wǎng)管支撐系統(tǒng)的規(guī)模也經(jīng)歷了一個(gè)從量變到質(zhì)變的過程,從管理著幾個(gè)分散的網(wǎng)管系統(tǒng)到運(yùn)營著一個(gè)大型的數(shù)據(jù)中心。在演變中,不僅遇到了其他數(shù)據(jù)中心從小到大時(shí)所必經(jīng)的一般性問題,還存在自身沿革過程中產(chǎn)生的特殊性問題。

“煙囪式”基礎(chǔ)架構(gòu)—每個(gè)系統(tǒng)的建設(shè)都需要采購?fù)暾姆?wù)器設(shè)備,如WEB服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器、存儲(chǔ)交換機(jī)、存儲(chǔ)磁盤等。這種傳統(tǒng)建設(shè)方式導(dǎo)致了諸如服務(wù)器物理臺(tái)數(shù)的快速增長、采購成本高昂、各系統(tǒng)之間計(jì)算資源不可綜合調(diào)度利用以及IT運(yùn)維人員工作負(fù)荷過高等不盡合理的諸多弊端。

IT基礎(chǔ)設(shè)施缺乏彈性—話務(wù)網(wǎng)管系統(tǒng)的正常運(yùn)行直接影響一系列重要運(yùn)維KPI指標(biāo),其對(duì)安全性與穩(wěn)定性有著極高的要。峰值負(fù)載時(shí)需要至少18顆CPU的一臺(tái)服務(wù)器來滿足處理的要求,而平均負(fù)載僅需要2~4顆CPU。由于采用獨(dú)立物理服務(wù)器或靜態(tài)分區(qū)技術(shù),網(wǎng)管系統(tǒng)的部分服務(wù)器計(jì)算能力未能充分利用。

容量規(guī)劃困難—容量估算涉及因素很多,如未來業(yè)務(wù)總量、用戶數(shù)、性能要求、應(yīng)用程序開發(fā)水平、各系統(tǒng)間交互等。但上述信息通常并不完整或根本沒有,只能參照類似系統(tǒng)或猜測(cè)系統(tǒng)生命周期中工作負(fù)載的增長。如此,業(yè)務(wù)部門難以對(duì)需求估算精確,有時(shí)會(huì)導(dǎo)致設(shè)備超量抑或上線不久因負(fù)荷過高而緊急擴(kuò)容。

建設(shè)維護(hù)缺乏規(guī)范性—江蘇移動(dòng)網(wǎng)絡(luò)支撐網(wǎng)各個(gè)系統(tǒng)的維護(hù)管理雖按應(yīng)用和平臺(tái)進(jìn)行了區(qū)分,但平臺(tái)管理員仍需了解主機(jī)硬件、操作系統(tǒng)、數(shù)據(jù)庫、中間件甚至備份的各方面知識(shí)。但現(xiàn)實(shí)中由于管理員精力和時(shí)間有限,加上各層面的管理工具、方法也有諸多差異,管理員難以全面精通或掌控各個(gè)層面的管理。

應(yīng)用平臺(tái)整合初見成效

以前按項(xiàng)目買設(shè)備,設(shè)備只是被某項(xiàng)目獨(dú)占,而非共享,因此某些設(shè)備上的資源是多余的,但是另外的項(xiàng)目卻不能夠利用它。所以一定程度上造成資源的浪費(fèi)。利用服務(wù)器虛擬化技術(shù),打破應(yīng)用和 IT 資源之間的綁定關(guān)系,把應(yīng)用和硬件解耦合,多個(gè)應(yīng)用能共享 IT 資源。

同平臺(tái)應(yīng)用整合

同平臺(tái)應(yīng)用整合從技術(shù)容易實(shí)現(xiàn),成本和風(fēng)險(xiǎn)都比較小。要整合服務(wù)器資源,非常重要的前提是梳理各個(gè)網(wǎng)管系統(tǒng)的運(yùn)行特點(diǎn),也就是說,需要非常明確的知道各系統(tǒng)的峰值負(fù)載、節(jié)假日突發(fā)高峰、批處理時(shí)間、響應(yīng)要求、業(yè)務(wù)等級(jí)等等。在明確了這些信息之后,制定資源整合計(jì)劃。通過評(píng)估,有些業(yè)務(wù)是可以通過分區(qū)整合到一臺(tái)服務(wù)器上的,可以獲得明顯的利益,較少甚至沒有負(fù)面影響。而有些業(yè)務(wù)不合適整合,遇到類似情況,我們也不會(huì)為了整合而整合。在整合服務(wù)器資源中,我們也注重探索集成多種環(huán)境,獲得理想的技術(shù)組合,以實(shí)現(xiàn)服務(wù)目標(biāo)。如圖 1,對(duì)于壓力較大,且重要級(jí)別較高的系統(tǒng)如話務(wù)網(wǎng)管、資源管理等被部署到獨(dú)占 CPU 的動(dòng)態(tài)邏輯分區(qū)上,并配置獨(dú)立的物理板卡,以保證性能。對(duì)于壓力較小的 PBOSS 系統(tǒng),我們通過微分區(qū)來部署,且由于其 I/O 流量很小,因此可以通過虛擬 I/O 服務(wù)器(VIOS)來共享以太網(wǎng)卡和存儲(chǔ)卡,在不影響業(yè)務(wù)效率的前提下,減少了物理設(shè)備,提高了靈活性。

控制臺(tái)集中管理

通過 IBM Systems Director 集中控制臺(tái),實(shí)現(xiàn)跨機(jī)房、多網(wǎng)段的服務(wù)器的自動(dòng)發(fā)現(xiàn)(通過 IP 地址),系統(tǒng)同時(shí)能自動(dòng)更新已發(fā)現(xiàn)服務(wù)器的信息。管理員能借助這套系統(tǒng)快速的了解每臺(tái)服務(wù)器,如物理、邏輯、或虛擬硬件,操作系統(tǒng)類型及版本,硬件固件及 BIOS 信息,所安裝的軟件信息等等。

通過制定系統(tǒng)一致性策略,管理員可以實(shí)時(shí)監(jiān)控受管系統(tǒng)更新狀態(tài)和自動(dòng)接收更新提醒,這包括了受管操作系統(tǒng)和服務(wù)器固件更新管理。

Director 同時(shí)整合了多個(gè)硬件管理控制臺(tái)(HMC),提供了層次化的資源關(guān)系表以及圖形視圖。管理員可以利用這些關(guān)系表和視圖方便查看服務(wù)器拓?fù)浣Y(jié)構(gòu)和虛擬化層次。

問題定位和瓶頸識(shí)別

管理員可以自定義一個(gè) Systems Director 集中受管系統(tǒng)健康狀況視圖,所有受管系統(tǒng)硬件層面告警都將集中在該視圖展現(xiàn)。通過設(shè)置過濾,管理員可以快速檢查重要告警信息,比如CPU 利用率、內(nèi)存利用率、I/O 吞吐量、頁交換等等。監(jiān)控結(jié)果可以觸發(fā)自動(dòng)化響應(yīng)策略。

對(duì)劃分了分區(qū)的服務(wù)器來說,Director 分別顯示每個(gè)分區(qū)的資源利用率,同時(shí)也顯示整臺(tái)服務(wù)器的資源利用率。這對(duì)于采用了超用 CPU 模式(uncapped)的微分區(qū)來說,是非常關(guān)鍵的。管理員根據(jù)這些信息來動(dòng)態(tài)評(píng)估服務(wù)器的分區(qū)規(guī)劃是否合理。這些歷史性能信息也為管理員進(jìn)行服務(wù)器容量規(guī)劃提供依據(jù)。

主機(jī)CPU、內(nèi)存自動(dòng)化彈性調(diào)整

通過分區(qū)虛擬化實(shí)現(xiàn)同平臺(tái)應(yīng)用整合,仍然處于靜態(tài)方式。業(yè)務(wù)是動(dòng)態(tài)發(fā)展的,網(wǎng)管中心的支持要能對(duì)此作出快速響應(yīng)。服務(wù)器 CPU 池化的技術(shù)很好的解決這一問題。

基于 Power 服務(wù)器微分區(qū),我們?cè)O(shè)置兩種策略來確保分區(qū)能自動(dòng)實(shí)現(xiàn)彈性化調(diào)整:首先多個(gè)業(yè)務(wù)分區(qū)共享多個(gè)物理 CPU,每個(gè)分區(qū)設(shè)定適量初始授權(quán) CPU 用量以及適量的虛擬 CPU 個(gè)數(shù),這非常關(guān)鍵。業(yè)務(wù)分區(qū)在壓力很小時(shí),虛擬 CPU 基本不占用或只用很少量的物理 CPU 處理能力。當(dāng)某個(gè)分區(qū)業(yè)務(wù)突發(fā)增大時(shí),該分區(qū)的虛擬 CPU 可實(shí)時(shí)動(dòng)態(tài)的調(diào)用更多物理 CPU,在超過初始授權(quán)值時(shí),只要 CPU 池中還有空閑物理 CPU,那么該分區(qū)可以超用 CPU。第二,我們?cè)诒匾那闆r下可以對(duì)各個(gè)分區(qū)設(shè)定合適的權(quán)重。如果有多個(gè)分區(qū)都超用 CPU,權(quán)重較大的分區(qū)在超用 CPU 時(shí)可以占用較多的資源。這種調(diào)整都是可以動(dòng)態(tài)實(shí)現(xiàn)。

構(gòu)建資源池與映像庫

業(yè)務(wù)部門需要基礎(chǔ)平臺(tái),傳統(tǒng)上的流程較復(fù)雜,首先用戶提出要求,然后 IT 部門新購(或利舊)設(shè)備,物理設(shè)備連接,安裝操作系統(tǒng)、打補(bǔ)丁,安裝應(yīng)用軟件、打補(bǔ)丁等,最后測(cè)試再提交使用。流程長,牽扯較多人力,各個(gè)系統(tǒng)之間的軟件版本也較難保持一致性,導(dǎo)致維護(hù)復(fù)雜。

在實(shí)現(xiàn)統(tǒng)一服務(wù)器管理的前提下,再結(jié)合服務(wù)器虛擬化技術(shù),使得我們有能力構(gòu)建“統(tǒng)一管理,優(yōu)化標(biāo)準(zhǔn),快速部署”的 IT 基礎(chǔ)環(huán)境。

首先是服務(wù)器被統(tǒng)一管理,納入計(jì)算資源池中。然后,我們通過 Director 對(duì)常用的軟件版本組合(操作系統(tǒng)、數(shù)據(jù)庫、中間件等)進(jìn)行捕捉,創(chuàng)建標(biāo)準(zhǔn)化映像,保存在統(tǒng)一映像庫中。在需要新基礎(chǔ)平臺(tái)時(shí),管理員通過 Director 在計(jì)算資源池中查找合適的受管服務(wù)器,然后從映像庫中選擇合適的映像。之后 Director 能自動(dòng)創(chuàng)建分區(qū),并把映像部署到指定的受管服務(wù)器上。整個(gè)部署過程都通過網(wǎng)絡(luò)進(jìn)行,管理員不再需要到現(xiàn)場(chǎng)。 交付使用的系統(tǒng),也被納入統(tǒng)一監(jiān)控系統(tǒng)中,結(jié)合用戶的反饋意見等,管理員可以優(yōu)化、創(chuàng)建新的系統(tǒng)映像保存在映像庫中。 

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。