《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計應(yīng)用 > 淘寶彈性網(wǎng)絡(luò)架構(gòu)的秘密
淘寶彈性網(wǎng)絡(luò)架構(gòu)的秘密
來源:網(wǎng)界網(wǎng)
網(wǎng)界網(wǎng) 蒙克
摘要: 在每年的淘寶網(wǎng)購狂歡節(jié)中,IT系統(tǒng)都是其背后最關(guān)鍵的支撐平臺。而網(wǎng)絡(luò)基礎(chǔ)設(shè)施則又是IT系統(tǒng)賴以完美運行的幕后英雄。讓我們撩開神秘的面紗,一睹淘寶彈性網(wǎng)絡(luò)架構(gòu)的真實容顏。
Abstract:
Key words :

         2012年11月11日,應(yīng)該是中國電子商務(wù)發(fā)展進程中一個史無前例的里程碑。這一天,在淘寶的最新文章">淘寶和天貓組織的“雙十一”網(wǎng)購狂歡節(jié)中,支付寶實現(xiàn)交易數(shù)額10580萬筆,總銷售額達191億元(其中天貓132億,淘寶59億),遠超過美國“網(wǎng)購星期一”約15億美元的金額。這些數(shù)字在經(jīng)濟萎靡的大背景下讓傳統(tǒng)零售業(yè)怎一個“怕”字了得!

在天文數(shù)字的交易額背后,是強大IT系統(tǒng)的支持。經(jīng)歷前三年“雙十一”購物節(jié)的歷練,阿里巴巴集團的技術(shù)團隊已經(jīng)具有了充分的技術(shù)儲備和運維經(jīng)驗來應(yīng)對中國目前最大規(guī)模的電子商務(wù)流量沖擊。

前支付寶技術(shù)專家、現(xiàn)任丁香園CTO馮大輝在其博客文章《談?wù)劙⒗锵档募夹g(shù)積累》中,總結(jié)阿里巴巴技術(shù)團隊達到目前水準的幾個決定性前提時,提到了六個因素:

第一,支付寶、淘寶團隊在大規(guī)模分布式事務(wù)(Transaction) 處理能力上多年來的技術(shù)積累;第二, 2009 年阿里巴巴骨干傳輸網(wǎng) ABTN (Alibaba Backbone Transmission Network) 的建成,為整個阿里系子公司的網(wǎng)絡(luò)服務(wù)能力提供了網(wǎng)絡(luò)基礎(chǔ)保障;第三,開源領(lǐng)域技術(shù)專家、LVS 項目創(chuàng)建人章文嵩帶領(lǐng)的基礎(chǔ)核心軟件研發(fā)團隊基于 LVS 實現(xiàn)高性能負載均衡組件,構(gòu)建了強大且高效的 CDN 系統(tǒng),使得淘寶在底層基礎(chǔ)設(shè)施上的技術(shù)能力大幅提升;第四,硬件帶來的紅利。固態(tài)硬盤(SSD) 與 PCI-E Flash 等硬件組件技術(shù)已經(jīng)足夠成熟并被大規(guī)模應(yīng)用,為數(shù)據(jù)庫服務(wù)器處理能力提供了硬件層面上的支撐能力;第五,在 2008 與 2009 年大刀闊斧的系統(tǒng)結(jié)構(gòu)上的改進,比如外界所知道的支付寶 SOA 化,淘寶五彩石項目等;第六,淘寶技術(shù)團隊對運維能力的掌控與技術(shù)積累,具備了相當靈活的分配調(diào)度硬件,以及網(wǎng)絡(luò)資源的能力。

很顯然,對網(wǎng)絡(luò)、服務(wù)器、CDN系統(tǒng)等資源的靈活調(diào)度成為淘寶IT系統(tǒng)彈性能力的核心組成部分之一。近日,《網(wǎng)絡(luò)世界》記者有幸采訪到阿里巴巴集團高級技術(shù)專家孫磊先生和網(wǎng)絡(luò)架構(gòu)的最新文章">網(wǎng)絡(luò)架構(gòu)師龐俊英女士,請他們和讀者一道來分享淘寶彈性網(wǎng)絡(luò)架構(gòu)的奧秘。

有備方無患

“類似‘雙十一’這樣的購物節(jié),網(wǎng)絡(luò)流量比平時有3倍的增長。比如,如果說平時并發(fā)流量超過100G/秒,高峰時就會達到300G/秒。這既包括去互聯(lián)網(wǎng)方向的流量,也包括數(shù)據(jù)中心之間的流量。” 孫磊表示。

要想從容應(yīng)對這樣的沖擊可不是件容易的事。龐俊英說,淘寶主要采取了兩個方面的措施來保障網(wǎng)絡(luò)的暢通無阻。一是在自己可控的范圍內(nèi),對負載均衡設(shè)備做彈性的擴容,并在交換機的最新文章">交換機和服務(wù)器方面預(yù)備更多的彈性資源;二是,跟運營商更緊密地配合,爭取更多的互聯(lián)網(wǎng)接入帶寬。

更重要的是,要預(yù)先做容量規(guī)劃和模擬壓力測試。龐俊英說,由于“今年已是第四年舉辦“雙十一”購物節(jié),因此可以根據(jù)以前的情況預(yù)估出大致的網(wǎng)絡(luò)容量,然后按預(yù)估做壓力測試及“大促”準備。”

孫磊表示,“雙十一”、“雙十二”前,淘寶運維團隊都會做網(wǎng)絡(luò)應(yīng)急預(yù)案,并和電信運營商、設(shè)備供應(yīng)商,以及IDC資源提供商在應(yīng)急方案上進行合作,當天會有工程師在IDC機房進行現(xiàn)場巡檢。“如果準備充分的話,即使遇到問題也會平滑地過渡。比如,應(yīng)用了雙機房冗余及網(wǎng)絡(luò)架構(gòu)冗余設(shè)計后,即使核心交換機出了故障,其業(yè)務(wù)負載立刻就能被備份交換機接過去。”孫磊胸有成竹地說。他還透露,淘寶每年的網(wǎng)絡(luò)流量增長都在70%~80%左右,因此每個季度做規(guī)劃時都會為下個季度的增長預(yù)留出硬件冗余資源。

在解決新問題時,淘寶從來不避諱使用創(chuàng)新技術(shù)。比如,面對著高吞吐量和低轉(zhuǎn)發(fā)時延的網(wǎng)絡(luò)需求,淘寶采用了多鏈路增強以太網(wǎng)、網(wǎng)絡(luò)虛擬化、大buffer(緩沖)交換機等新技術(shù)。這其中使用的產(chǎn)品包括思科的Nexus7000、H3C12500、戴爾Force10的E1200、S60交換機及定制Deeper buffer交換機等。

但是,淘寶并不會為了技術(shù)而技術(shù)。比如當今炒得很熱的大二層技術(shù),龐俊英就認為有著明顯的缺陷,并且成本居高不下。“對于我們來說,網(wǎng)絡(luò)是二層或三層并不重要,我們是根據(jù)自己的業(yè)務(wù)需求來設(shè)計網(wǎng)絡(luò)架構(gòu),而不會讓網(wǎng)絡(luò)架構(gòu)綁架自己的業(yè)務(wù)。”龐俊英表示,淘寶希望用開放的網(wǎng)絡(luò)協(xié)議去組網(wǎng),目前正在做SDN" style="color: rgb(0, 0, 0); text-decoration: none; border-bottom-color: rgb(7, 129, 199); border-bottom-width: 1px; border-bottom-style: dotted; " target="_blank" title="SDN的最新文章">SDN方面的研究和嘗試。

期待擁抱40G和100G

目前,淘寶數(shù)據(jù)中心的核心交換和服務(wù)器上聯(lián)交換主要應(yīng)用的是萬兆交換機。而未來,龐俊英坦承:“對40G/100G的需求已是當務(wù)之急,只是因為目前其成熟度和性價比不是很好,所以放慢了應(yīng)用的腳步。”

迫切需要40G/100G交換的重要原因之一,在于淘寶正在大力推動對萬兆服務(wù)器的應(yīng)用。“目前萬兆服務(wù)器在淘寶已經(jīng)有一些應(yīng)用場景。而一旦其成為主流應(yīng)用,必然會帶來網(wǎng)絡(luò)的升級需求。因此,“預(yù)計在2013~2014年,淘寶面臨著網(wǎng)絡(luò)架構(gòu)的更新?lián)Q代?,F(xiàn)在我們已經(jīng)在做一些預(yù)研、測試和架構(gòu)調(diào)整,在網(wǎng)絡(luò)規(guī)劃方面,淘寶一直是按照三年的滾動規(guī)劃往前走的。”龐俊英說。

談及服務(wù)器的應(yīng)用,在業(yè)界,淘寶以在一百多個CDN節(jié)點中的十多個節(jié)點部署了英特爾凌動低功耗服務(wù)器而聞名。不過,據(jù)龐俊英介紹,低功耗只是淘寶選擇服務(wù)器的考量之一,

“功耗考量是一直存在的,但我們不會為了低功耗而犧牲性能,我們追求的是服務(wù)器資源利用的最大化——CPU、內(nèi)存、硬盤的平衡。我們根據(jù)業(yè)務(wù)類型將服務(wù)器按需求分為幾大類。比如,計算密集型、存儲密集型等。”龐俊英說。而在淘寶龐大的服務(wù)器采購需求中,戴爾等服務(wù)器主流廠商都位列其中。

和上層的應(yīng)用系統(tǒng)相比,網(wǎng)絡(luò)、服務(wù)器等硬件基礎(chǔ)設(shè)施一直是幕后英雄。但是,這不意味著它們之間的配合不重要。龐俊英說,在淘寶,IT基礎(chǔ)設(shè)施團隊和上層應(yīng)用系統(tǒng)團隊之間的溝通交流非常多。“比如,計劃啟動一個新業(yè)務(wù)時,網(wǎng)絡(luò)團隊會參與進去,了解新業(yè)務(wù)對網(wǎng)絡(luò)的依賴程度并提出自己的建議。這是因為如果軟件架構(gòu)做得好,就可能節(jié)約很多的網(wǎng)絡(luò)和服務(wù)器端口及資源。由此不僅節(jié)約了大量硬件成本,帶來的運維壓力也會大不一樣。”

展望未來,龐俊英說:“云計算之后 ,網(wǎng)絡(luò)資源成為彈性調(diào)度資源的一部分。我們希望網(wǎng)絡(luò)能夠變得透明簡單,資源能夠被抽象出來。對于流量能夠通過系統(tǒng)層面去調(diào)度,而與網(wǎng)絡(luò)拓樸無關(guān)。比如,由我們來定義API,提出netconf(網(wǎng)絡(luò)配置)的標準和要求,推動廠商去實現(xiàn),然后由我們直接調(diào)用接口即可。”

龐俊英透露,為了更好地優(yōu)化網(wǎng)絡(luò),擁有更多手段對網(wǎng)絡(luò)資源進行彈性調(diào)度,現(xiàn)在淘寶正在做基礎(chǔ)數(shù)據(jù)的分析。“運維數(shù)據(jù)在我們眼里非常重要,如關(guān)鍵路徑上交易的流量、流向,其與應(yīng)用的關(guān)系等等。了解這些,就可以對資源進行調(diào)度和管理,從而使得整個機房所有的帶寬、服務(wù)器成為一個資源池。目前淘寶正在朝這個方向走。

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。