數(shù)據(jù)是人類活動的基礎(chǔ),數(shù)據(jù)隨著人類的發(fā)展,產(chǎn)生了爆炸式的增長,數(shù)據(jù)的管理和傳遞越來越成為人類活動的基礎(chǔ)。海量的數(shù)據(jù)產(chǎn)生后,相應的提出了數(shù)據(jù)的安全、數(shù)據(jù)的集中管理、數(shù)據(jù)的可靠性傳送、數(shù)據(jù)的快速處理等需求,數(shù)據(jù)中心就是為了解決和滿足這些需求應用而生。為了支持和滿足新形勢下的數(shù)據(jù)中心建設(shè)要求,位于核心位置的交換機系統(tǒng)成為關(guān)鍵的設(shè)備。
以太網(wǎng)經(jīng)過近30年的發(fā)展,帶寬從10M開始,分別經(jīng)歷了100M、1000M、10G、40G、100G的發(fā)展階段,現(xiàn)階段10GE的以太網(wǎng)已經(jīng)批量的應用,40GE和100GE的以太網(wǎng)開始逐步應用。因此,這也對承載以太網(wǎng)帶寬發(fā)展的核心交換機提出了要求。
數(shù)據(jù)中心網(wǎng)絡(luò)和以太網(wǎng)標準的發(fā)展,都對新一代核心交換機提出了更高的要求。什么樣的系統(tǒng)架構(gòu)才能更好的支持數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)的發(fā)展?才能更有效的支撐以太網(wǎng)標準的演進?本文就是帶著這個問題,深刻解析了交換機架構(gòu)近十幾年來的發(fā)展,從硬件架構(gòu)、高速鏈路、整機系統(tǒng)、端口密度等多個角度、多個領(lǐng)域進行分析,展現(xiàn)給大家一個核心交換機不同階段的發(fā)展歷程,從而說明新一代核心交換機的體系架構(gòu)應具有的核心要素。
核心交換機硬件架構(gòu)的發(fā)展
核心交換機的發(fā)展經(jīng)歷了下面幾個階段,從最初提供FE匯聚和GE上行接口,到后來的GE匯聚和10GE上行,目前已經(jīng)演進到10GE/40GE匯聚,100GE上行階段。不同的演進階段對核心交換機的硬件架構(gòu)要求是不一樣的。
2000年~2006年,階段一,高密FE/GE接入?yún)R聚,少量10GE上行
這個階段的核心交換機以中心交換加LSW為主構(gòu)成,中心交換主要是以太交換芯片為主,線卡單板以FE/GE和少量10GE的LSW作為接口芯片,背板鏈路以1.25G~6.25Gbps為主,線卡提供48GE線速轉(zhuǎn)發(fā),業(yè)務(wù)處理基本以二層和三層為主,QoS處理主要以簡單的優(yōu)先級隊列調(diào)度為主。典型的產(chǎn)品有CISCO 4500/6500、H3C 6500/7500等。
這類產(chǎn)品的應用范圍滿足了FE/GE接入和少量10GE上行的場景,在數(shù)據(jù)中心領(lǐng)域以GE服務(wù)器為主的場景下,可以滿足少量服務(wù)器組成的小型數(shù)據(jù)中心網(wǎng)絡(luò)。
2006年~2012年,階段二,高密GE/10GE接入?yún)R聚,少量10GE/40GE上行
在這個階段,中心交換的形態(tài)很多,有的是共享緩存的簡單交換網(wǎng),有的是集中仲裁的交換網(wǎng),還有以6.25G為主的CLOS交換架構(gòu)。線卡單板以GE和10GE的LSW作為接口芯片,少量40GE上行接口為主。背板鏈路以5G~10Gbps為主,每線卡槽位的帶寬小于480G,目前最大能力16~48*10GE線速轉(zhuǎn)發(fā),業(yè)務(wù)處理基本以二層和三層為主,具有簡單的HQoS調(diào)度,緩存范圍很廣,依賴于LSW芯片,有的交換機是2ms/端口,有的是10ms/端口。典型的產(chǎn)品有CISCO N7000、H3C 10500/12500等。
這類產(chǎn)品的應用范圍滿足了GE接入和10GE上行的場景,在數(shù)據(jù)中心領(lǐng)域以GE服務(wù)器為主的場景下,可以滿足GE服務(wù)器組成的中、小型數(shù)據(jù)中心網(wǎng)絡(luò)。
2012年~2020年,階段三,高密10GE/40GE接入?yún)R聚,少量100GE上行
這個階段的核心交換機以CLOS動態(tài)路由交換為主,線卡單板以具有復雜業(yè)務(wù)處理能力的PP芯片為主,提供高密度的10GE/40GE線速轉(zhuǎn)發(fā)和業(yè)務(wù)處理,少量100GE上行接口為主。背板鏈路以10G起步,未來可演進到25Gbps,每線卡槽位的帶寬是1T~4T為主,目前最大能力48~96*10GE線速轉(zhuǎn)發(fā),或者24*40GE線速轉(zhuǎn)發(fā),具有完善的QoS處理能力,能支持比較大的緩存,可以達到100ms/端口。典型的產(chǎn)品有華為即將推出的CE12800。
這類產(chǎn)品的應用范圍滿足了高密度10GE/40GE接入的場景,按照服務(wù)器的發(fā)展演進,從2012年開始將主要以10GE服務(wù)器為主,在2015年逐漸出現(xiàn)40GE服務(wù)器,因此這個階段的數(shù)據(jù)中心核心交換機必須能提供高密度10GE/40GE接口,滿足10GE/40GE服務(wù)器組成的大、中型數(shù)據(jù)中心網(wǎng)絡(luò)。
華為CE12800作為新一代核心交換機產(chǎn)品,具備了高密度10GE/40GE、帶寬1T~4T、完善的QoS處理和每端口至少100ms的大緩存能力,是新一代交換機的旗艦產(chǎn)品。通過上述三個階段的分析,我們可以得出不同階段的核心交換機的產(chǎn)品競爭力屬性:
核心交換機端到端高速鏈路的發(fā)展
我們知道在核心交換機中,最重要的屬性是高密度、高帶寬,而支撐高密度和高帶寬屬性的是系統(tǒng)內(nèi)的高速鏈路,簡單的說如果我們核心交換機的背板是10G的鏈路,那我們的單板就可以支持48*10GE線速;如果是25G的鏈路,那我們的單板未來就可以支持48*100GE線速。因此,核心交換機怎樣才能支持更高速的鏈路,是核心交換機長期演進面臨的重要課題。下圖展示了一個典型的核心交換機系統(tǒng)中,端到端高速鏈路由哪些部分組成。
▲圖4:核心交換機端到端高速鏈路組成示意圖
我們從圖中可以很顯然的看到,高速鏈路從一個芯片的一個管腳輸出后,經(jīng)過線卡PCB、背板連接器、背板PCB、背板連接器、線卡PCB輸入到芯片輸入端,在中間傳輸過程中,為了更好的提升高速鏈路的性能,特別需要做好兩件事,一是盡量降低到端到鏈路的長度,二是盡量降低中間連接器的串擾。
1) 降低端到端的走線長度
為什么要降低端到端走線長度,下圖很好的解釋了這個原因。
▲圖5:核心交換機端到端高速鏈路插損描述
上圖中X是信號的通道損耗(db),Y是信號的誤碼率。上圖綜合描述了通道損耗(IL)對誤碼率(BER)的影響,在板材、層疊等相同的情況下,高速通道的損耗主要由走線長度決定,可以看到在相同誤碼率條件下通道越短就可以支持更高的信號速率,而在信號速率確定的情況下通道越短,就可以獲得更加理想的誤碼率。
因此如何降低高速通道的走線長度是核心交換機演進能力的重要體現(xiàn)。我們分析核心交換機的架構(gòu),可以看到走線長度是由線卡走線+背板走線組成,如果把背板的走線降低為0,就可以大大縮短端到端的鏈路走線,這就是下圖新一代核心交換機采用的正交架構(gòu),背板上的高速鏈路走線為0。
核心交換機的線卡和交換網(wǎng)板,直接通過正交連接器對插,省掉了中間背板的走線連接,因此端到端的走線控制在最短,高速通道的阻抗一致性更好,能夠保證在更高的帶寬下通道的平順性,以支持系統(tǒng)實現(xiàn)更高速率演進的能力。
2) 提升高速連接器的性能
前面的分析我們也看到,除了降低走線長度,提升高速鏈路性能的另外一個重要環(huán)節(jié)是背板的高速連接器,高速連接器的串擾對性能影響最大,10G~25G鏈路,最好的連接器串擾小于35dB。
對于高速連接器來說,串擾的屬性很大程度上受連接器Wafer之間的距離影響,而目前業(yè)界主流的連接器,Wafer距離一般都處于2mm左右,并不能很好的滿足高速連接器串擾的要求,新一代核心交換機要支持更高的速率,必須采用新一代的高速連接器。上一代的連接器是無法滿足核心交換機長期的演進發(fā)展的,目前業(yè)界主流的核心交換機都是基于上一代的高速連接器設(shè)計,高速鏈路的性能基本上到10G已經(jīng)到了極限,不再可能升級到更高速率,也就不具備未來支持48*40GE/100GE的能力。
華為CE12800核心交換機作為新一代的核心交換機,采用了高性能的正交體系架構(gòu),與業(yè)界主流的連接器廠家合作開發(fā)了2.7mm的新一代正交高速連接器,能支持從10G向25G的演進,很好的滿足了未來4T的槽位帶寬演進需求。
核心交換機整機散熱系統(tǒng)的演進
核心交換機的整機散熱發(fā)展也經(jīng)歷了傳統(tǒng)的橫向風道設(shè)計、前后進風的風道設(shè)計,現(xiàn)在正在向嚴格的前后風道設(shè)計方向發(fā)展。在原來以FE/GE、非線速10GE為主的系統(tǒng)中,單板功率小,散熱要求不高,橫向風道或者非嚴格的前后風道都是可以滿足要求的;在后續(xù)以高密度線速10GE/40GE為主的核心交換機系統(tǒng)中,單板功率增加,嚴格的前后散熱風道成為必須滿足的架構(gòu)要素。
為什么在數(shù)據(jù)中心領(lǐng)域,一定是前進風、后出風的散熱風道最能滿足要求,下圖詳細描述了數(shù)據(jù)中心機房建設(shè)的風道設(shè)計和要求,相應的核心交換機要能滿足這個嚴格的前進風后出風的散熱風道。
▲圖7:數(shù)據(jù)中心機房冷熱風道嚴格的隔離散熱
在數(shù)據(jù)中心建設(shè)中,節(jié)能減排是最重要的屬性,為了提升設(shè)備的散熱效率,降低對機房的能耗要求,因此采用嚴格的冷熱風道隔離,一排機柜是前面集中送冷風進來,通過設(shè)備的散熱交換,機柜后面集中回收熱風,因此要求核心交換機必須是前進風后出風,才能很好的滿足數(shù)據(jù)中心機房建設(shè)的要求。
1) 傳統(tǒng)的橫向散熱風道
傳統(tǒng)的核心交換機通常以左右橫向風道作為整機系統(tǒng),這類交換機在機柜中應用時,由于是橫向風道,熱風會在機柜中回流,導致散熱不夠充分,無法滿足大功率單板的散熱,因此這類交換機通常支持300W以下的單板散熱能力,下圖是這類交換機的散熱風道。
可以看到橫向風道的交換機安裝在機柜內(nèi)時,由于風道是從左到右或者從右到左,機柜兩側(cè)的側(cè)壁是密封的,當熱風碰到機柜側(cè)壁時,熱風會沿著機柜側(cè)壁和交換機的上、下空間回流到進風口,導致進風口的溫度至少會升高15°C以上,長期運行會影響系統(tǒng)的可靠性和單板的散熱能力,也無法支持大功率、高密度的10GE/40GE單板。
這也是為什么數(shù)據(jù)中心機房建設(shè)一直在強調(diào)的要區(qū)分嚴格的冷熱風道的原因,要嚴格的把進風口和出風口隔離,避免熱風和冷風混合,導致進風口溫度提升,帶來散熱和功耗上升的弊端。所以傳統(tǒng)的橫向風道的交換機是無法滿足數(shù)據(jù)中心建設(shè)的需求的,嚴格來講,這類交換機在園區(qū)網(wǎng)領(lǐng)域應用時也會有問題,無法支持更大功率的單板。
這類設(shè)備的典型代表是H3C S10500/9500E/7500E,CISCO N7018/7009等。
2) 改進型的前、后進風,后出風的散熱風道
為了滿足數(shù)據(jù)中心冷熱風道嚴格區(qū)分,部分廠家對核心交換機進行了整機系統(tǒng)的改進,其中比較典型的是前后進風、后出風的散熱風道,如下圖。
可以看到改進型的核心交換機相比傳統(tǒng)的橫向風道的交換機,在整機系統(tǒng)上做了一些改進,冷風也可以從設(shè)備前面進風,從設(shè)備后面出熱風,但這種改進在數(shù)據(jù)中心應用時,還是滿足不了要求,因為改進型的設(shè)備后面部分的單板還需要從設(shè)備的后面進風散熱,我們知道數(shù)據(jù)中心風道是冷熱嚴格區(qū)分的,這樣就又會像傳統(tǒng)橫向風道的交換機一樣,帶來冷熱風道混合的問題,無法滿足高密度單板的應用。
3) 嚴格前后風道隔離,高效的前進后出直通風風道
從前面核心交換機的整機系統(tǒng)分析來看,無論是橫向風道還是改進型的前后風道,都不能很好的滿足數(shù)據(jù)中心冷熱風道嚴格隔離的要求,因此新一代核心交換機采用了冷熱風道嚴格隔離,前進風、后出風的直通風散熱風道,大大提升了核心交換機的散熱能力,可以滿足每槽位1000W的散熱能力,為后續(xù)提供48*40GE/100GE的高密度、大帶寬的單板提供了基礎(chǔ)。下圖是新一代核心交換機的整機系統(tǒng)風道。
嚴格的冷熱風道隔離的核心交換機非常好的匹配數(shù)據(jù)中心機房需求,滿足了前進風、后出風的散熱風道,同時采用直通風的方式,不經(jīng)過中間任何形式的阻擋,降低了系統(tǒng)的風阻,提升了系統(tǒng)的散熱效率,實際測量顯示,直通風的散熱風道能提升30%的散熱效率。
華為CE12800作為新一代核心交換機,采用嚴格的前進風、后出風的直通風散熱風道,大大提升了系統(tǒng)的散熱效率,每槽位的散熱能力達到1000W,滿足未來高密度40GE/100GE單板的散熱要求。同時,由于高效的散熱效率,使得華為的CE12800系統(tǒng)可以長期工作在高溫45度的環(huán)境下,如果數(shù)據(jù)中心機房工作溫度提升到45度,整個機房可以節(jié)省2/3的能耗。
核心交換機端口速率和密度的演進
核心交換機依托于以太網(wǎng)標準的發(fā)展而發(fā)展,以太網(wǎng)的端口速率從10M開始,每隔幾年會向上發(fā)展一個臺階,目前最新的是已經(jīng)標準化的100GE端口,因此新一代的核心交換機必須能支持高密度的40GE和100GE接口。
新一代核心交換機除了能支持FE、GE和10GE接口外,還要能支持40GE和100GE接口,同時在端口密度上要能支持24和48等。也就是說,新一代核心交換機要能支持24*40GE、48*40GE、24*100GE等端口的線速轉(zhuǎn)發(fā)能力。
華為CE12800是面向高密度100GE接口能力的核心交換機,當前第一個版本就支持24*40GE的線卡,是業(yè)界主流友商的4倍。由于采用了先進的體系架構(gòu),具備向25G演進的能力,產(chǎn)品后續(xù)可以提供48*40GE、24*100GE、48*100GE的能力。
華為CE12800,重新定義了新一代核心交換機華為CE12800是面向新一代10GE/40GE服務(wù)器組成的數(shù)據(jù)中心網(wǎng)絡(luò),是建設(shè)超大型和大型數(shù)據(jù)中心網(wǎng)絡(luò)的核心設(shè)備,提供1T~4T的帶寬能力,采用了嚴格的前后散熱風道,具備1000W的槽位散熱能力,具有100ms的大緩存能力和完善的QoS,是面向未來10年的核心交換機產(chǎn)品,它的出現(xiàn)重新定義了核心交換機的競爭屬性,能滿足云計算網(wǎng)絡(luò)建設(shè)的需求。