2012年11月11日,應該是中國電子商務發(fā)展進程中一個史無前例的里程碑。這一天,在淘寶的最新文章">淘寶和天貓組織的“雙十一”網(wǎng)購狂歡節(jié)中,支付寶實現(xiàn)交易數(shù)額10580萬筆,總銷售額達191億元(其中天貓132億,淘寶59億),遠超過美國“網(wǎng)購星期一”約15億美元的金額。這些數(shù)字在經(jīng)濟萎靡的大背景下讓傳統(tǒng)零售業(yè)怎一個“怕”字了得!
在天文數(shù)字的交易額背后,是強大IT系統(tǒng)的支持。經(jīng)歷前三年“雙十一”購物節(jié)的歷練,阿里巴巴集團的技術團隊已經(jīng)具有了充分的技術儲備和運維經(jīng)驗來應對中國目前最大規(guī)模的電子商務流量沖擊。
前支付寶技術專家、現(xiàn)任丁香園CTO馮大輝在其博客文章《談談阿里系的技術積累》中,總結阿里巴巴技術團隊達到目前水準的幾個決定性前提時,提到了六個因素:
第一,支付寶、淘寶團隊在大規(guī)模分布式事務(Transaction) 處理能力上多年來的技術積累;第二, 2009 年阿里巴巴骨干傳輸網(wǎng) ABTN (Alibaba Backbone Transmission Network) 的建成,為整個阿里系子公司的網(wǎng)絡服務能力提供了網(wǎng)絡基礎保障;第三,開源領域技術專家、LVS 項目創(chuàng)建人章文嵩帶領的基礎核心軟件研發(fā)團隊基于 LVS 實現(xiàn)高性能負載均衡組件,構建了強大且高效的 CDN 系統(tǒng),使得淘寶在底層基礎設施上的技術能力大幅提升;第四,硬件帶來的紅利。固態(tài)硬盤(SSD) 與 PCI-E Flash 等硬件組件技術已經(jīng)足夠成熟并被大規(guī)模應用,為數(shù)據(jù)庫服務器處理能力提供了硬件層面上的支撐能力;第五,在 2008 與 2009 年大刀闊斧的系統(tǒng)結構上的改進,比如外界所知道的支付寶 SOA 化,淘寶五彩石項目等;第六,淘寶技術團隊對運維能力的掌控與技術積累,具備了相當靈活的分配調(diào)度硬件,以及網(wǎng)絡資源的能力。
很顯然,對網(wǎng)絡、服務器、CDN系統(tǒng)等資源的靈活調(diào)度成為淘寶IT系統(tǒng)彈性能力的核心組成部分之一。近日,《網(wǎng)絡世界》記者有幸采訪到阿里巴巴集團高級技術專家孫磊先生和網(wǎng)絡架構的最新文章">網(wǎng)絡架構師龐俊英女士,請他們和讀者一道來分享淘寶彈性網(wǎng)絡架構的奧秘。
有備方無患
“類似‘雙十一’這樣的購物節(jié),網(wǎng)絡流量比平時有3倍的增長。比如,如果說平時并發(fā)流量超過100G/秒,高峰時就會達到300G/秒。這既包括去互聯(lián)網(wǎng)方向的流量,也包括數(shù)據(jù)中心之間的流量。” 孫磊表示。
要想從容應對這樣的沖擊可不是件容易的事。龐俊英說,淘寶主要采取了兩個方面的措施來保障網(wǎng)絡的暢通無阻。一是在自己可控的范圍內(nèi),對負載均衡設備做彈性的擴容,并在交換機的最新文章">交換機和服務器方面預備更多的彈性資源;二是,跟運營商更緊密地配合,爭取更多的互聯(lián)網(wǎng)接入帶寬。
更重要的是,要預先做容量規(guī)劃和模擬壓力測試。龐俊英說,由于“今年已是第四年舉辦“雙十一”購物節(jié),因此可以根據(jù)以前的情況預估出大致的網(wǎng)絡容量,然后按預估做壓力測試及“大促”準備。”
孫磊表示,“雙十一”、“雙十二”前,淘寶運維團隊都會做網(wǎng)絡應急預案,并和電信運營商、設備供應商,以及IDC資源提供商在應急方案上進行合作,當天會有工程師在IDC機房進行現(xiàn)場巡檢。“如果準備充分的話,即使遇到問題也會平滑地過渡。比如,應用了雙機房冗余及網(wǎng)絡架構冗余設計后,即使核心交換機出了故障,其業(yè)務負載立刻就能被備份交換機接過去。”孫磊胸有成竹地說。他還透露,淘寶每年的網(wǎng)絡流量增長都在70%~80%左右,因此每個季度做規(guī)劃時都會為下個季度的增長預留出硬件冗余資源。
在解決新問題時,淘寶從來不避諱使用創(chuàng)新技術。比如,面對著高吞吐量和低轉發(fā)時延的網(wǎng)絡需求,淘寶采用了多鏈路增強以太網(wǎng)、網(wǎng)絡虛擬化、大buffer(緩沖)交換機等新技術。這其中使用的產(chǎn)品包括思科的Nexus7000、H3C12500、戴爾Force10的E1200、S60交換機及定制Deeper buffer交換機等。
但是,淘寶并不會為了技術而技術。比如當今炒得很熱的大二層技術,龐俊英就認為有著明顯的缺陷,并且成本居高不下。“對于我們來說,網(wǎng)絡是二層或三層并不重要,我們是根據(jù)自己的業(yè)務需求來設計網(wǎng)絡架構,而不會讓網(wǎng)絡架構綁架自己的業(yè)務。”龐俊英表示,淘寶希望用開放的網(wǎng)絡協(xié)議去組網(wǎng),目前正在做SDN" style="color: rgb(0, 0, 0); text-decoration: none; border-bottom-color: rgb(7, 129, 199); border-bottom-width: 1px; border-bottom-style: dotted; " target="_blank" title="SDN的最新文章">SDN方面的研究和嘗試。
期待擁抱40G和100G
目前,淘寶數(shù)據(jù)中心的核心交換和服務器上聯(lián)交換主要應用的是萬兆交換機。而未來,龐俊英坦承:“對40G/100G的需求已是當務之急,只是因為目前其成熟度和性價比不是很好,所以放慢了應用的腳步。”
迫切需要40G/100G交換的重要原因之一,在于淘寶正在大力推動對萬兆服務器的應用。“目前萬兆服務器在淘寶已經(jīng)有一些應用場景。而一旦其成為主流應用,必然會帶來網(wǎng)絡的升級需求。因此,“預計在2013~2014年,淘寶面臨著網(wǎng)絡架構的更新?lián)Q代。現(xiàn)在我們已經(jīng)在做一些預研、測試和架構調(diào)整,在網(wǎng)絡規(guī)劃方面,淘寶一直是按照三年的滾動規(guī)劃往前走的。”龐俊英說。
談及服務器的應用,在業(yè)界,淘寶以在一百多個CDN節(jié)點中的十多個節(jié)點部署了英特爾凌動低功耗服務器而聞名。不過,據(jù)龐俊英介紹,低功耗只是淘寶選擇服務器的考量之一,
“功耗考量是一直存在的,但我們不會為了低功耗而犧牲性能,我們追求的是服務器資源利用的最大化——CPU、內(nèi)存、硬盤的平衡。我們根據(jù)業(yè)務類型將服務器按需求分為幾大類。比如,計算密集型、存儲密集型等。”龐俊英說。而在淘寶龐大的服務器采購需求中,戴爾等服務器主流廠商都位列其中。
和上層的應用系統(tǒng)相比,網(wǎng)絡、服務器等硬件基礎設施一直是幕后英雄。但是,這不意味著它們之間的配合不重要。龐俊英說,在淘寶,IT基礎設施團隊和上層應用系統(tǒng)團隊之間的溝通交流非常多。“比如,計劃啟動一個新業(yè)務時,網(wǎng)絡團隊會參與進去,了解新業(yè)務對網(wǎng)絡的依賴程度并提出自己的建議。這是因為如果軟件架構做得好,就可能節(jié)約很多的網(wǎng)絡和服務器端口及資源。由此不僅節(jié)約了大量硬件成本,帶來的運維壓力也會大不一樣。”
展望未來,龐俊英說:“云計算之后 ,網(wǎng)絡資源成為彈性調(diào)度資源的一部分。我們希望網(wǎng)絡能夠變得透明簡單,資源能夠被抽象出來。對于流量能夠通過系統(tǒng)層面去調(diào)度,而與網(wǎng)絡拓樸無關。比如,由我們來定義API,提出netconf(網(wǎng)絡配置)的標準和要求,推動廠商去實現(xiàn),然后由我們直接調(diào)用接口即可。”
龐俊英透露,為了更好地優(yōu)化網(wǎng)絡,擁有更多手段對網(wǎng)絡資源進行彈性調(diào)度,現(xiàn)在淘寶正在做基礎數(shù)據(jù)的分析。“運維數(shù)據(jù)在我們眼里非常重要,如關鍵路徑上交易的流量、流向,其與應用的關系等等。了解這些,就可以對資源進行調(diào)度和管理,從而使得整個機房所有的帶寬、服務器成為一個資源池。目前淘寶正在朝這個方向走。