思科系統(tǒng)公司可能仍然是數(shù)據(jù)中心中開關和路由器的最大供應商,但是從長期以來,它一直在被Broadcom所超越,因為博通的芯片除了提供本身的開關功能外,還提供了一點點路由的功能。
盡管在商用以太網(wǎng)開關芯片市場上有很多競爭,當中包括Nvidia(Mellanox),Innovium,Intel(Barefoot Networks),Marvell,以及少數(shù)其他新貴都在這個市場中,并且它們在開關中的份額越來越大,尤其是那些決定網(wǎng)絡步伐的超級擴展程序和云構建者。
但是,上述芯片廠商需要擊敗的是開關芯片設計商博通,而不是思科。因為無論思科為其Silicon One路由器和現(xiàn)在針對高端產(chǎn)品的開關芯片制造怎樣的聲勢,并高調(diào)宣布公司進入商戶市場。但其實自2000年代末以來,思科本來可以選擇制造商用芯片來抵御來自Broadcom的攻擊,但直到去年,思科才這樣做。
隨著2020逐漸走向尾聲,Broadcom推出了主要針對超大規(guī)模產(chǎn)品和大型公共云制造商的“Tomahawk”系列以及旨在實現(xiàn)企業(yè)轉換的“Trident”系列芯片,針對思科在十月份公布的六款新的Silicon One芯片。
Broadcom所做的第一件事是擴大了其Tomahawk 4產(chǎn)品線系列,該系列的最早的產(chǎn)品是于去年12月發(fā)布的,擁有25.6Tb/sec的速度,可以驅動運行速度為400 Gb/sec的64個端口,現(xiàn)已批量生產(chǎn)。
Broadcom的“Tomahawk”和“Trident”系列產(chǎn)品經(jīng)理Vecchio告訴The Next Platform。這是博通第二款7納米的開關ASIC(在臺積電公司生產(chǎn)),第一款是2019年6月推出的Trident 4芯片。Del Vecchio表示,這兩種芯片都是單片芯片,Broadcom除非絕對需要,否則不會切換到小芯片設計,因為將多個芯片塊捆綁在一起會對性能產(chǎn)生影響。(其他公司,例如Barefoot Networks,已在不同的模塊中實現(xiàn)了SerDes電路和開關引擎,并使用芯片之間的高速鏈接將它們組裝成一個封裝。這增加了復雜性和封裝成本,但也提高了小芯片的良率,因此降低了成本封裝中的問題。)
正如我們之前所指出的,Broadcom試圖滿足各種各樣客戶的開關和路由選擇需求,并且該公司認為,它無法將所有功能都塞入一個ASIC并由其完成。他們需要重復去理解這些不同的市場是什么,它們的需求是什么,以及Broadcom芯片能解決哪些問題。以下是他們按客戶設置的細分:
Del Vecchio認為,企業(yè)通常不會像服務提供商和hyperscalers/云構建商那樣推動帶寬限制。但是他們在網(wǎng)絡上擁有更多的設備和多種類型的設備。此外。由于用戶以服務器所沒有的方式來回移動,因此需要對訪問和安全性進行更多基于策略的控制。
相比之下,服務提供商往往擁有大量的遠程骨干網(wǎng),因此他們需要在其開關和路由器中進行深度緩沖(deep buffering),以幫助掩蓋這些骨干網(wǎng)中的延遲。服務提供商也往往在其網(wǎng)絡中有更多的超額訂購,以減少開關的數(shù)量,這在一定程度上控制了網(wǎng)絡預算。這就是Del Vecchio所謂的“超級共享”(hyper shared)網(wǎng)絡,其中的服務質(zhì)量(包括大型訪問控制列表,開關或路由表之類的硬件以及交付該服務的軟件)是關鍵。
借助hyperscalers和云構建器,大多數(shù)流量都在數(shù)據(jù)中心內(nèi)的設備之間(所謂的東西方流量),并且它們帶寬要求非常高。這樣的話他們能在數(shù)據(jù)中心的100000個服務器的許多微服務鏈接在一起,已組成其所需的應用。他們需要低延遲,但是在各種各樣的網(wǎng)絡條件下可預測的延遲才是最重要的,這也是為什么hyperscalers和云構建者往往擁有非常超額配置網(wǎng)絡的原因。
以下是博通針對不同客戶群的ASIC映射:
這些不是硬性界限。例如,Broadcom收購Dune Networks獲得的“ Jericho” ASIC具有很深的緩沖區(qū),但每個ASIC的總帶寬卻總不如Trident或Tomahawk器件。然而 hyperscalers喜歡在其網(wǎng)絡的核心和骨干網(wǎng)中使用Jericho開關,也許鏈接區(qū)域或在數(shù)據(jù)中心的區(qū)域內(nèi)科充分利用深層緩沖區(qū),但在可編程性更為重要的邊緣需要使用Trident ASIC,數(shù)據(jù)中心內(nèi)的主要結構則是Tomahawk芯片最合適的地方。
重要的是,所有這些ASIC除了支持Broadcom的SDK和API堆棧以外,還支持由Microsoft創(chuàng)建并由開放源代碼社區(qū)采用的Switch Abstraction Interface(SAI),這樣的話就可以在不同制造商的Switch ASIC上提供API虛擬化層,為此其網(wǎng)絡操作系統(tǒng)可以不需要理會是誰的ASIC,也都可以運行。(對于Microsoft Azure云中的許多用例來說,其SONiC網(wǎng)絡操作系統(tǒng)也是開源的,它在SAI上運行;在其他情況下,Microsoft使用不同的是NOS。)
據(jù)我們所知,有十多種網(wǎng)絡操作系統(tǒng)可用于開關制造商或開源社區(qū),其中還有由 hyperscaler 或云構建者在內(nèi)部開發(fā)并保持專有的系統(tǒng)。在過去的幾年中,這些NOS有了很大的發(fā)展,但是從長遠來看,市場是否會接受如此多的選擇還有待觀察。反正在服務器市場是肯定不可能。在剛開始的時候,世界范圍內(nèi)的公司數(shù)據(jù)中心中可能有兩打服務器架構和三到四打操作系統(tǒng),但現(xiàn)在,我們基本上可以在大多數(shù)情況下使用Linux或Windows Server。
我們認為hyperscalers和云構建者不會停止構建自己的NOS,這比他們停止構建自己的Linux發(fā)行版可能性更高,因為這兩者對于其龐大平臺的性能和安全性至關重要。但是我們確實認為便攜式操作系統(tǒng)很重要,而Arrcus的ArcOS很有可能它將以跨平臺NOS的形式出現(xiàn)后。
我們還認為Nvidia將竭盡全力擴展Cumulus Networks通過其同名平臺所做的工作,并將其與Mellanox的多個平臺融合在一起。Arista將其EOS和來自Big Switch Networks的SDN堆棧相結合的方式還有待觀察。在許多具有IOS和NX-OS的數(shù)據(jù)中心中,Cicso是默認的選擇。因為他們的軟件最便攜,能提供最高性能,并可以涵蓋最多場景。這就像Broadcom通過為特定用例提供精確的ASIC贏得了商用芯片市場一樣。
通過介紹上述背景,我們可以了解Broadcom現(xiàn)在發(fā)布的新品的邏輯。
正如我們上文所述,將近一年前宣布的“Tomahawk 4 ” ASIC于2020年初開始提供樣品,如今在宣布后不到一年的時間就開始批量供貨。對于開關ASIC來說,這非常快。Tomahawk 4 ASIC擁有更多的內(nèi)存,但擁有和Trident 3上的相同“ Blackhawk” SerDes,該SerDes在25.8 GHz上運行,但是因為選擇了PAM-4調(diào)制(每個信號可以做兩位)的方式,其每個SerDes通道可以提供50 Gb /秒的有效的帶寬。最大的Tomahawk 4-50G芯片在其邊緣蝕刻了512枚Blackhawk SerDes,總開關帶寬為25.6 Tb / sec。此設備上支持的最密集的開關配置為以400 Gb /秒運行的64個端口。
但是現(xiàn)在,Tomahawk 4系列正在擴展有兩個新成員:
第一個是Tomahawk 4-100G,它擁有與Blackhawk 相同SerDes,但將時鐘頻率提高到51.6 GHz,并向其添加了相同的PAM-4調(diào)制,以使每條通道可以達到100 Gb/秒的速度。然而,由于考慮到散熱問題,這個芯片上只集成了256個SerDes。但是,由于熱量隨時鐘速度呈指數(shù)級增長,即使其SerDes為Tomahawk 4-50G的一半,Tomahawk 4-100G的運行功率也略高于350瓦,約為400瓦。
Tomahawk 4系列中的第二個新芯片是“戰(zhàn)斧4-12.8T”,它用戶有128個SerDes,同樣也是采用PAM-4調(diào)制。
如您所料,這兩種新的Tomahawk4開關ASIC均使用臺積電7納米工藝制造。博通沒有給出這些芯片的具體晶體管數(shù)量和die尺寸。但他們表示。這些新的Tomahawk 4 ASIC將于明年批量供貨,這意味著又一個快速的增長。
因為這兩個新的Tomahawk 4芯片每通道的速度為100 Gb /秒,那么他們建立以給定速度運行的端口,就僅僅需要一半的通道數(shù),這是很有價值的。因為這就意味著一切都取決于 hyperscaler 和云構建者客戶想要部署的光學器件,而100 Gb / sec PAM-4光學器件具有更高的功率效率,因此功率效率的凈收益轉移到了速度更快的開關ASIC上。每個端口溫度更高,開關基數(shù)更低,因為光功率消耗低得多。
由于思科是商用芯片市場的新生力量,也許是Broadcom在數(shù)據(jù)中心開關和路由中面臨的最大威脅,因此該公司似乎在其Tomahawk 4芯片的演示文稿中選擇了Silicon One作為對比對象。
我們認為這種比較針對的是Silicon One,但從概念上講,這個對比適用于其他12.8 Tb / sec芯片,包括博通在2018年1月推出的Tomahawk 3芯片。即使新一代ASIC芯片的成本更高,但您也需要六倍的芯片才能使用Tomahawk 3創(chuàng)建25.6聚合帶寬。另一種說法是,Tomahawk 4它的價格是Tomahawk 3的六倍,并且仍然具有空間,散熱,彈性和巨大的延遲優(yōu)勢,可以提供與端口相同的原始帶寬。
Broadcom還選擇了競爭性商戶芯片中的切片架構,這使我們再次相信它正在圍攻思科的Silicon Silicon One:
雖然Broadcom并不反對在其開關ASIC中增加可編程性,但該圖表似乎著眼于Tomahawk 4的流水線分組處理與網(wǎng)絡處理單元(NPU)之間的性能差異,后者是使用P4編程的Silicon One軟件包的一部分:
這些比較告訴您Broadcom在考慮什么,以及它在擔心誰。
如果我們用SmartNIC來減輕服務器的網(wǎng)絡處理負擔,那么也許我們也需要SmartTOR,這會將其中一些功能從SmartNIC或服務器中分離出來并整合到它們所屬的位置:在開關上。Broadcom明確認為這可能是網(wǎng)絡的未來,并且正在使用稱為Trident SmartTOR的Trident 4開關ASIC的變體來測試這一想法,后者的縮寫顯然是機架頂開關。
這個網(wǎng)絡負載的想法并不新鮮。多年以來,Mellanox(現(xiàn)在是Nvidia的一部分)一直將網(wǎng)絡工作從服務器轉移到ConnectX網(wǎng)絡接口卡上,在過去的幾代InfiniBand和以太網(wǎng)開關ASIC中,它一直在將某些功能整合到開關本身上,加速集體操作等自然屬于開關的工作。
Trident 4芯片的SmartTOR變體的總開關帶寬僅為8 Tb / sec,并且由于采用PAM-4調(diào)制,它具有160個SerDes,以25.6 GHz運行,每通道傳輸50 Gb / sec。(與其他Trident 4芯片和原始的Tomahawk 4芯片相同的速度和調(diào)制。)
正如您所料,該Trident SmartTOR芯片還采用了臺積電7納米工藝。(Broadcom的下一代設備已經(jīng)達到5納米了,它在過去的一周中在概念上進行了討論,而沒有談論它計劃為數(shù)據(jù)中心,云和5G用例在5納米上創(chuàng)建的確切ASIC。) SmartTOR設備具有用于網(wǎng)絡上第2層到第7層服務的可編程管道,并提供了Del Vecchio所說的“大規(guī)模”:300萬個流量,300萬個ACL條目,100萬個隧道,和一百萬個柜臺。該芯片還具有以線速運行的數(shù)據(jù)的MACSec和IPSec加密。
比例尺如何映射到上一代Trident 3-X5芯片:
Trident SmartTOR的用例很有趣。Del Vecchio表示,企業(yè)客戶有興趣在裸機而不是虛擬化的云基礎架構上部署其應用程序,在這種情況下,很多由服務器虛擬化管理程序或SmartNIC(很少會)完成的虛擬網(wǎng)絡需要:以某種方式集中完成。將其放入開關很有意義。
如果您希望在X86 Iron甚至FPGA上運行這些網(wǎng)絡服務,則尤其如此,這通常發(fā)生在分散在數(shù)據(jù)中心周圍的網(wǎng)絡設備中:
問題是這個,我們還不能回答:將所有這些功能整合回開關成本上,而不是在X86服務器或FPGA設備上運行它們。直到開關制造商使用Trident SmartTOR創(chuàng)建設備,我們才知道。