數(shù)字時代所帶來的變化是深刻的。在這一概念的驅(qū)使下,我們不僅發(fā)明了新的應用形態(tài),更在這種新的應用及業(yè)務需求下規(guī)劃了整個企業(yè)IT架構(gòu)。在這種新的IT架構(gòu)中,傳統(tǒng)的計算、存儲、網(wǎng)絡(luò)等資源已經(jīng)不再是用戶關(guān)注的重點,取而代之的則是包括AI、大數(shù)據(jù)、云計算、IoT等在內(nèi)的各種能力。
在這一IT行業(yè)的整體變革中,無數(shù)新公司極速崛起。因此,短短幾年內(nèi),我們在IT的幾乎所有領(lǐng)域都能看到新概念的崛起和流行。
凡有新人笑,便有舊人哭。
新進崛起的IT公司一方面在開拓新的市場和需求,另一方面,他們也在積極的革各大老牌IT企業(yè)的命。應用軟件、數(shù)據(jù)庫、中間件、管理軟件、基礎(chǔ)架構(gòu)等各個領(lǐng)域的傳統(tǒng)廠牌都在這場轟轟烈烈的變革中受到了或多或少的沖擊。
正如星星之火可以燎原,發(fā)生在應用層面的變革絕不會止于應用層面,而是會向著更上游的半導體領(lǐng)域蔓延。那么這場在應用領(lǐng)域引發(fā)無數(shù)“血雨腥風”的變革在上游半導體領(lǐng)域是否也會掀起同樣的波瀾?半導體行業(yè)的傳統(tǒng)大佬能否靠自己的力量順應并駕馭變革?
沒錯,我們這里要談的就是英特爾。
變革的黎明,英特爾面臨眾多挑戰(zhàn)
作為行業(yè)中當之無愧的領(lǐng)導者,多年以來,英特爾憑借自身強大的產(chǎn)品和技術(shù)能力引領(lǐng)了整個行業(yè)的輝煌。但在新時代,英特爾卻面臨著諸多層面的挑戰(zhàn):
挑戰(zhàn)1:AMD?
以不錯的架構(gòu)性能為前提,推出了EPYC系列處理器;在相同價位下提供更大的內(nèi)存通道數(shù)和更多的核心數(shù)量,成功抬升了自身產(chǎn)品在數(shù)據(jù)中心市場中的占有率。。
挑戰(zhàn)2:ARM?
優(yōu)勢在于其可以提供更好的集成度、可擴展性及能效表現(xiàn)。目前,一些冷存儲、原生Android服務或Serverless計算已經(jīng)開始嘗試使用ARM處理器。
挑戰(zhàn)3:NVIDIA?
以GPGPU為代表的多元化算力正在AI大熱的加持下迅速崛起。而作為這一領(lǐng)域中的代表,NVIDIA也正迅速擴大自己在數(shù)據(jù)中心市場中的地位并通過收購及合作拓展自己領(lǐng)土。
此外,包括Gen-Z和RISC-V在內(nèi)的新架構(gòu)、新指令集也都開始以自身的優(yōu)勢挑戰(zhàn)英特爾所主導的傳統(tǒng)計算機架構(gòu)。如此看來,英特爾的前路的確布滿荊棘。但已經(jīng)平定四方穩(wěn)坐龍頭位置十幾年的英特爾,真的就如此后知后覺、沒有防備嗎?
這里,我們先不說利劍,只談城墻。
英特爾的城防
雖然近幾年在制程工藝領(lǐng)域進展緩慢的英特爾會被消費市場的用戶時常以“擠牙膏”來調(diào)侃,但實際上,英特爾并沒有真的閑下來。對于取得優(yōu)勢之后的英特爾來說,除了在新領(lǐng)域不斷嘗試之外,當然也會投入巨量精力在已經(jīng)取得優(yōu)勢的領(lǐng)域中持續(xù)鞏固優(yōu)勢,這才是符合商業(yè)邏輯的行為。
經(jīng)過十幾年間不懈的努力,英特爾已經(jīng)成功構(gòu)建起了一圈由六大技術(shù)支柱共同組成的堅實城防。
1、 制程與封裝
對于制程與封裝技術(shù)的追求目前仍舊是整個半導體行業(yè)永久不變的核心目標。
就目前的產(chǎn)品線而言,英特爾的14nm工藝雖不能算是行業(yè)中最領(lǐng)先的存在;這是不爭的事實。但論對現(xiàn)有工藝的掌握程度而言,英特爾仍舊是行業(yè)中的翹楚。
以英特爾最新推出的第二代至強可擴展處理器而言,其中頂級的至強鉑金9282處理器已經(jīng)能夠在單一處理器上實現(xiàn)56個物理核心和3.8GB的Turbo頻率,整體TDP達到400W。處理器由兩個Die組成,每個單獨的Die約為694平方毫米。能夠在商用產(chǎn)品中實現(xiàn)這樣的頻率、這樣的核心面積、這樣的功耗密度,足以說明英特爾對14nm工藝及相關(guān)封裝技術(shù)的熟練程度。即便是量產(chǎn)工藝領(lǐng)先半步的三星和臺積電也無法在7nm技術(shù)條件下生產(chǎn)出這樣的產(chǎn)品。
這樣恐怖的工藝成熟度意味著使用英特爾至強鉑金9282處理器的系統(tǒng)(目前僅有原廠系統(tǒng))可以在雙路情況下提供112個物理內(nèi)核,實現(xiàn)同等機架空間內(nèi)2倍的計算密度。
而在5月底,使用10nm工藝的Ice Lake處理器也終于千呼萬喚始出來,最終產(chǎn)品將于2019年底最先在筆記本平臺面市。屆時,英特爾將至少追平行業(yè)頂尖制程工藝水平,甚至還將在晶體管密度和成品性能等方面再次領(lǐng)先行業(yè)。當然,按照以往經(jīng)驗,新工藝下的數(shù)據(jù)中心產(chǎn)品則將會在消費級產(chǎn)品面市的一年后上市。
對于英特爾來說,重回行業(yè)巔峰需要時間,但這一目標已經(jīng)被列上日程。
這里還要順便再提一句。最新推出的英特爾? Agilex? FPGA已經(jīng)采用了10nm工藝,并實現(xiàn)了3D封裝。通過將多個不同功能、不同IP、不同制程的Die進行堆疊之后統(tǒng)一封裝,Agilex能夠在片上實現(xiàn)更完整的功能、更好的集成性和更小的體積。這與在手機領(lǐng)域常見的“先封裝再堆疊”原理相同,但效率不可同日而語。
2、 XPU架構(gòu)
針對不同的應用負載,算力的多元化在當前技術(shù)條件下已經(jīng)成為公認的趨勢。
雖然競爭對手都會用自己的GPU、ASIC、MIPS等處理器或芯片在某一應用領(lǐng)域?qū)擞⑻貭柕耐ㄓ锰幚砥鳎⑿Q自身具備xx倍的優(yōu)勢;但坦率的講,把針對某一計算類型或某些特定算法而制造的處理器(芯片)在單一應用場景中與通用處理器來對標性能,這種做法本身是欠妥的。
面對算力多元化的趨勢,英特爾有自己的解決方案——XPU體系。
CISC指令架構(gòu)雖然強調(diào)在單一處理器內(nèi)針對多種計算類型進行特別優(yōu)化以獲得更好的應用編程及運行效果,但作為一款通用處理器,其核心目標依然是為所有計算類型提供支持,而非限定在某一特定計算類型。
掌握了這一思路,我們便不難理解英特爾的XPU架構(gòu)。
在CPU領(lǐng)域中,第二代至強可擴展處理器內(nèi)部集成了VNNI深度學習加速指令集,能夠針對TensorFlow、Caffe、mxnet等目前主流的深度學習框架提供加速。配合專門的OpenVINO工具包,開發(fā)人員可以對程序、算法和模型進行深度優(yōu)化,進而在對應的處理器上獲得更高性能。相對于上一代至強鉑金8100系列處理器,加入VNNI指令集的鉑金8200系列處理器能夠在Caffe Resnet-50測試中取得接近2.5倍的性能,而更強大的鉑金9200系列則能夠?qū)崿F(xiàn)5.2倍的性能。
這種級別的性能提升在基于AI算法的推理應用有著相當重要的意義,能夠讓用戶在不使用額外協(xié)處理器或計算卡的情況下就獲得可觀的推理性能提升,讓AI應用的部署門檻更低、系統(tǒng)構(gòu)型更簡單。
在實際應用中,VNNI指令集讓京東云在文本檢測應用中獲得了2.4倍的性能,讓騰訊云在視頻分析應用中實現(xiàn)了3.26倍的性能,讓微軟在圖像識別應用中獲得了3.4倍的性能,讓阿里巴巴在8種不同工作負載中實現(xiàn)了2-4倍不等的性能。同時,百度自研的PaddlePaddle框架也能在VNNI指令集的加持下獲得2至3倍的推理應用性能。
當然,除了在指令集方面的進化之外,針對不同的應用類型,英特爾也在至強產(chǎn)品框架內(nèi)推出了更多負載優(yōu)化型產(chǎn)品。例如面向NFV領(lǐng)域的后綴為N的系列產(chǎn)品,面向大規(guī)模云化基礎(chǔ)架構(gòu)的V后綴系列處理器,面向搜索應用的S后綴系列、面向物聯(lián)網(wǎng)應用的T后綴系列以及采用Speed Select技術(shù)的、后綴為Y的三合一系列處理器(適配多種Profile,在BIOS中切換以實現(xiàn)對相應負載的優(yōu)化)。此外,英特爾還專門推出了一款面向網(wǎng)絡(luò)應用及網(wǎng)絡(luò)邊緣解決方案至強D-1600處理器,基于這款處理器,英特爾還推出了專門應用在CDN等領(lǐng)域的數(shù)據(jù)加密和壓縮加速卡——QAT。
而除了這些CPU領(lǐng)域中的應用場景細分產(chǎn)品之外,英特爾還有應用在海量數(shù)據(jù)吞吐設(shè)備中的FPGA、面向能效敏感型應用的ATOM系列、專業(yè)的神經(jīng)網(wǎng)絡(luò)加速芯片NERVANA、面向AI編程用戶和學生群體的Movidius神經(jīng)網(wǎng)絡(luò)計算加速棒(U盤設(shè)計、無風扇)等等一系列面向不同負載類型和應用場景的產(chǎn)品。
這些產(chǎn)品加在一起共同構(gòu)成了英特爾的XPU體系。
這些產(chǎn)品雖然無法做到所有計算領(lǐng)域和場景的全覆蓋,但其中的每一款產(chǎn)品都包含了有的放矢的針對性設(shè)計,是可以滿足不同類型用戶需求的。
3、 內(nèi)存和存儲
除了以處理器為中心之外,馮諾依曼計算機架構(gòu)的最大特點就要算是多級存儲了。
根據(jù)性能的不同,計算機內(nèi)部的存儲部件大致可以分為三層:性能最好的CPU內(nèi)置緩存、性能第二的系統(tǒng)內(nèi)存以及性能最差但容量更高的磁記錄存儲。
在通常的認知下,存儲分層顆粒度越小,性能過度越平滑,計算機系統(tǒng)的整體運行效率也就越高。因此,以現(xiàn)在的眼光來審視傳統(tǒng)計算機架構(gòu)內(nèi)部的三級存儲劃分,我們很容易發(fā)現(xiàn)其中的不合理之處:內(nèi)存與磁介質(zhì)存儲之間性能差距過大。閃存介質(zhì)的出現(xiàn)能夠通過在兩者之間增加一個熱數(shù)據(jù)層的方式在一定程度上解決這一問題。
之所以要用“一定程度上”這個詞,是因為即便是在帶寬更高、延遲更小的NVMe協(xié)議之下,目前的SSD產(chǎn)品也普遍只能達到3xxx MB/s和ms級響應的性能水平,這與DDR4內(nèi)存到CPU緩存之間動輒10萬MB/s的帶寬和以ns為單位的延遲之間仍然有巨大的性能差距。
如果再加一層,對于操作系統(tǒng)和應用的挑戰(zhàn)太大,很難在短時間內(nèi)普及。因此,英特爾給出的解決方案便是傲騰數(shù)據(jù)中心級持久性內(nèi)存。
簡單來講,傲騰內(nèi)存所采用的3D Xpoint介質(zhì)是一種在延遲響應、傳輸速率、使用壽命等方面遠超過目前的NAND閃存的產(chǎn)品;而相對于DRAM顆粒,3D Xpoint介質(zhì)則擁有非易失性和容量方面的優(yōu)勢。將它與DRAM在DIMM上混合使用能夠在不對現(xiàn)有計算機體系造成太大挑戰(zhàn)的情況下實現(xiàn)計算機性能的大幅提升(現(xiàn)階段,性能提升的幅度與使用場景密切相關(guān))。
第二代至強可擴展處理器已經(jīng)全面加入了對傲騰數(shù)據(jù)中心級持久內(nèi)存的支持。目前,傲騰持久內(nèi)存有兩種應用模式,一種是APP Direct Mode,另一種是Memory Mode。
在APP Direct Mode中,DRAM與傲騰持久內(nèi)存同時作為系統(tǒng)內(nèi)存出現(xiàn)在操作系統(tǒng)與應用面前,應用需要針對兩種內(nèi)存的性能特點有區(qū)別的使用兩種介質(zhì);DRAM負責承擔IO性能,而傲騰持久內(nèi)存則憑借容量和非易失性的特點提供容量和可靠性。當然,這需要應用在內(nèi)存操作機制上做出調(diào)整并進行針對性的調(diào)優(yōu)。
目前,支持這一模式的主要應用便是SAP的HANA內(nèi)存數(shù)據(jù)庫和開源的Redis內(nèi)存數(shù)據(jù)庫。在SAP HANA應用中,傲騰持久內(nèi)存與DRAM的聯(lián)合應用創(chuàng)造了9.1B的IO性能世界紀錄,而在Redis中,傲騰持久內(nèi)存的使用也能帶來最多8倍的性能提升。
在Memory Mode中,傲騰持久內(nèi)存則成為系統(tǒng)主內(nèi)存,而DRAM則從系統(tǒng)界面“消失”,只以傲騰內(nèi)存的高速緩存形式工作。Memory Mode模式下,操作系統(tǒng)和應用均無需進行定制化開發(fā),兩種介質(zhì)的具體操作完全由驅(qū)動等來實現(xiàn)。
可以說,APP Direct Mode能夠提供更好的性能,但需要應用做出改變;而Memory Mode則能夠提供更大的系統(tǒng)內(nèi)存容量,雖然性能提升因人而異但勝在無需操作系統(tǒng)和應用進行改變。兩者各有利弊,用戶和軟件開發(fā)商可以自由選擇。
另一方面,3D Xpoint所具備的非易失性也可使其以傲騰SSD的形式化身為SSD介質(zhì)之上的另一個存儲層。
當然,英特爾本身也生產(chǎn)多種型號的SSD產(chǎn)品,除提供多種容量之外,PCI-E、SAS、U.2等接口形態(tài)也是一應俱全。另外,英特爾還獨創(chuàng)了全新的“尺子型”PCI-E x4 SSD,能夠?qū)崿F(xiàn)1U空間內(nèi)576TB容量,1000萬IOPS。
4、 互聯(lián)
云化基礎(chǔ)設(shè)施的不斷普及,正在讓集群內(nèi)部和集群之間的連接效率變得比以往更加重要。同時,隨著網(wǎng)絡(luò)復雜程度的提升和用戶對網(wǎng)絡(luò)管理需求的升級,網(wǎng)絡(luò)設(shè)備不僅要提供更高的帶寬及更低的延遲,還要提供更多的操作模式以提升網(wǎng)絡(luò)的可靠性、可管理性和傳輸效率。
在這方面,英特爾的產(chǎn)品線包含兩大序列,一是500、700、800系列以太網(wǎng)卡,二是Omni-Path高速網(wǎng)絡(luò)解決方案。
以2019年最新發(fā)布的800系列以太網(wǎng)卡為例,除了能夠提供100Gb的帶寬之外,網(wǎng)卡還支持英特爾應用程序隊列(ADQ)技術(shù)、增強型動態(tài)設(shè)備個性化(DDP)技術(shù)以及RDMA。
ADQ能夠允許用戶根據(jù)不同應用的關(guān)鍵程度定義數(shù)據(jù)包收發(fā)的優(yōu)先級順序,從而實現(xiàn)面向應用及數(shù)據(jù)的網(wǎng)絡(luò)可管理性。DDP則允許應用程序或系統(tǒng)針對不同的數(shù)據(jù)封包增加額外、可自定義的表頭,進而讓不同的封包使用不同的傳輸協(xié)議,在最大程度上優(yōu)化網(wǎng)絡(luò)傳輸?shù)男?,降低延遲。而RDMA則允許無需CPU額外干預的遠程內(nèi)存直接讀寫,能夠大幅提升大集群、高負載應用中的系統(tǒng)互聯(lián)效率。
三種技術(shù)結(jié)合,帶給800系列以太網(wǎng)卡的便是更低的延遲和更大的吞吐量。在Radis這樣支持這些技術(shù)的先進內(nèi)存數(shù)據(jù)庫應用環(huán)境中,800系列網(wǎng)卡能夠帶來最高45%的延遲降低和30%的吞吐量提升。
而英特爾推出的Omni-Path高速互聯(lián)網(wǎng)絡(luò)則是包括光纖接口適配器和交換機在內(nèi)的完整解決方案。Omni-Path目前提供58Gb和100Gb兩種規(guī)格的產(chǎn)品,除了支持RDMA之外,Omni-Path還采用了更輕量化、更簡單的消息傳遞庫并且不必在連接建立時于系統(tǒng)和進程中保留連接地址信息,因此Omni-Path是一種用于與Infiniband爭鋒的高性能、低延遲網(wǎng)絡(luò)架構(gòu),面向HPC、AI等應用場景。
5、 軟件
硬件設(shè)計越來越復雜,指令集和功能越來越多,這對于編程及應用的效率是一大挑戰(zhàn)。另一方面,編程語言的花樣翻新也同樣需要硬件產(chǎn)品在設(shè)計上就給予充分的考慮和支持。
對于英特爾這樣的企業(yè)來說,作為產(chǎn)品眾多的行業(yè)領(lǐng)導者,光是針對不同操作系統(tǒng)和安全威脅更新設(shè)備驅(qū)動及固件就會產(chǎn)生極其龐大的工作量。同時,這些軟件產(chǎn)品還要根據(jù)新應用的特點和硬件本身架構(gòu)進行定向支持及優(yōu)化。這就是為什么英特爾作為一家半導體/硬件公司卻擁有超過15000人軟件工程師團隊的原因。
6、 安全
與軟件一樣,從硬件、固件和驅(qū)動層面保證系統(tǒng)安全是一項非常重要、同時也非常繁重的工作。新安全威脅和漏洞的不斷出現(xiàn),應用和系統(tǒng)的復雜程度不斷提升都讓這項工作變得十分困難。而當某些漏洞或bug出現(xiàn)在硬件層面時,Intel還需要規(guī)劃新的步進來從硬件層面進行修正。當然,本著開放的態(tài)度,對于所有已知的bug,英特爾都會在官網(wǎng)公布相關(guān)信息以及預計修復的時間和形式,以便讓合作伙伴和最終用戶都能夠做到心里有數(shù)、有備無患。
在我的BGM里打敗我?這是個小概率事件
圍繞處理器及其背后的x86架構(gòu),英特爾已經(jīng)構(gòu)建了一套涉及計算、存儲、網(wǎng)絡(luò)連接、軟件驅(qū)動固件、優(yōu)化和硬件設(shè)計制造標準在內(nèi)的龐大體系,并在這套體系的發(fā)展和運維過程中積累了海量的經(jīng)驗、資源及生態(tài)合作伙伴。
英特爾將這套城防體系稱為“以數(shù)據(jù)為中心”的產(chǎn)品架構(gòu)。的確,在數(shù)字時代,數(shù)據(jù)將成為用戶業(yè)務發(fā)展的新燃料,而IT架構(gòu)則是使用這種燃料的發(fā)動機。對這一趨勢的理解與把握,英特爾的眼光無疑是準確的。而當一個巨人找準了正確的方向并全速開拔,其動能和勢能都是不可小覷的。
從整個產(chǎn)品生態(tài)圖景來看,英特爾目前所面臨的問題是六大支柱其一的工藝制程相對于業(yè)界最頂尖水平處于略微落后的情況。顯然,這一情況會在一定程度上動搖英特爾在行業(yè)中的領(lǐng)導地位,但這種動搖卻是輕微且可控的。隨著新制程的宣發(fā),英特爾在這一領(lǐng)域中的“落后”進程會很快被補齊。屆時,喧囂會趨于平靜;英特爾仍將是那個我們熟悉的英特爾。
當然,半導體工藝作為整個英特爾大廈的根基,被代工廠商超越這件事本身是一個相當明確的信號。他表明英特爾相對于整個行業(yè)的領(lǐng)先優(yōu)勢正在被拉近,一個不小心就會在某一領(lǐng)域失去冠軍寶座。不過我們?nèi)耘f需要清醒的意識到,目前行業(yè)中還沒有能在所有維度中挑戰(zhàn)或超越英特爾的人;而這個人在短時間內(nèi)也不會出現(xiàn)。
我的觀點是:想在英特爾主導的現(xiàn)有計算機體系架構(gòu)內(nèi),實現(xiàn)對英特爾的超越,這件事發(fā)生的概率是很低的。而真正能夠威脅英特爾的恰恰是那些今天看似弱小的體系外力量。因為他們所構(gòu)建的是一個全新體系、一個全新生態(tài)。當然,至于兩種體系、兩種生態(tài)之間的對抗,何時發(fā)生以及以何種形態(tài)發(fā)生,我們還需要觀察很久。