不僅架構(gòu)全自研,還號稱要“替代CPU成為新一代云計算核心硬件”!
云計算搞了這么些年,CPU在數(shù)據(jù)中心可一直還是牢牢占據(jù)“C位”。
就在去年,阿里還花大力氣推出了5nm的服務(wù)器CPU倚天710。
這怎么就突然要打破傳統(tǒng)了呢?
CIPU,這個比CPU多了一個I的新面孔,究竟什么來頭?
CIPU究竟是什么?
CIPU全稱Cloud Infrastructure Process Units,意為云基礎(chǔ)設(shè)施處理器。
從名字上就能看出,這是一顆云端處理器,專門用于連接服務(wù)器內(nèi)硬件和云上虛擬化資源。
據(jù)阿里云介紹,之所以用CIPU取代以CPU為核心的架構(gòu),就是為了更好地“壓榨”服務(wù)器硬件、獲取更多虛擬化資源,并讓已有的資源用起來更順手。
軟件上,CIPU接入飛天云操作系統(tǒng),更高效地完成虛擬化資源編排調(diào)度的工作;
硬件上,飛天操作系統(tǒng)通過CIPU能快速云化管理數(shù)據(jù)中心物理設(shè)備,并對網(wǎng)絡(luò)和存儲硬件進(jìn)行加速,這樣一來不僅不會再浪費CPU的算力,還能增強網(wǎng)絡(luò)和存儲性能。
從功能來說,它擁有四大特性:
云原生最佳載體,即每個裸金屬系統(tǒng)能運行2000個容器,并用沙箱容器技術(shù)為容器提供更安全的隔離,鏈路啟動速度在50ms以內(nèi);
芯片直接實現(xiàn)IO引擎,其中存儲I/O操作每秒可進(jìn)行300萬次,網(wǎng)絡(luò)I/O最高每秒5000萬個分組數(shù)據(jù)包,存儲長尾時延降低50%;
芯片級安全加固,即能高速卸載加密后的數(shù)據(jù),將芯片級硬件的不可篡改性映射到軟件上;
增強型融合網(wǎng)絡(luò),即在RDMA技術(shù)加持下,網(wǎng)絡(luò)延遲最低達(dá)到5微秒,帶寬最高能達(dá)到200GB。
從性能來說,它又給計算、存儲和網(wǎng)絡(luò)三類資源帶來了不少提升。
計算上,CIPU能快速接入不同類型資源的神龍云服務(wù)器,單容器虛擬化消耗減少50%,啟動速度快350%。以運行部分?jǐn)?shù)據(jù)庫和服務(wù)器為例,Nginx性能就提升了89%,Redis提升68%,MySQL提升60%,此外對于AI和大數(shù)據(jù)場景也有提升。
存儲上,CIPU能對存算分離架構(gòu)的塊存儲接入進(jìn)行硬件加速,存儲時延最低達(dá)到30微秒,帶寬最高200Gbps,支持云上多計算節(jié)點NVME共享訪問云盤塊存儲,Oracle RAC、SAP Hana等高可用數(shù)據(jù)庫無縫上云。
網(wǎng)絡(luò)上,CIPU對高帶寬物理網(wǎng)絡(luò)進(jìn)行了硬件加速,基礎(chǔ)帶寬達(dá)到200GB,并采用自研的RDMA-Solar協(xié)議,網(wǎng)絡(luò)時延降低至16us,相較自建物理機(jī)的集群吞吐量提升30%、業(yè)務(wù)高峰期延遲下降90%。
有意思的是,阿里云這款CIPU處理器,其實已經(jīng)在內(nèi)部打磨好幾年了。
它最初的“靈感”,來自于阿里云內(nèi)部一個叫做神龍卡的設(shè)備。
神龍卡誕生于2017年,從功能上來講有點類似于AWS發(fā)布的一款名叫Nitro的平臺(集成了虛擬機(jī)監(jiān)視器、帶外管理等功能),甚至比AWS發(fā)布的時間更早一點。
經(jīng)過了好幾輪迭代后,神龍卡逐漸加入了編排調(diào)度、硬件加速等更多能力,最終誕生了CIPU的雛形,隨后也在繼續(xù)完善這一款產(chǎn)品。
一方面,據(jù)阿里云智能云架構(gòu)總監(jiān)黃瑞瑞介紹,在這幾年里,CIPU已經(jīng)承受過像“雙十一”這種體量的性能&壓力“測試”了。
另一方面,有不少阿里云的客戶,也或多或少已經(jīng)使用過基于CIPU的云計算服務(wù)。雖然客戶可能對底層硬件層沒有直接的感知,但阿里云的網(wǎng)絡(luò)、存儲等性能,這幾年確實在不斷上升,例如,不久前阿里云就成為國內(nèi)唯一獲評全球十大計算機(jī)網(wǎng)絡(luò)研究機(jī)構(gòu)的中國企業(yè)。
如今來看,CIPU的出現(xiàn)確實再次打破了云計算的“瓶頸”,將整體性能提升了一大部分。
不過,要說推翻CPU在云數(shù)據(jù)中心里“C位”的想法,倒也不是阿里一家有之。
在市面上相似概念的產(chǎn)品里,CIPU相比IPU、DPU來說,又究竟有什么不同?
為什么是CIPU?
要說清楚這件事兒,還是得從云計算技術(shù)的發(fā)展歷程說起。
過去十幾年來云計算技術(shù)的發(fā)展,可以大體分為兩個階段。
第一階段,在分布式技術(shù)的推動之下,互聯(lián)網(wǎng)企業(yè)開始將業(yè)務(wù)從大型機(jī)向分布式系統(tǒng)遷移,打下了分布式架構(gòu)的底座。
第二階段,資源池化技術(shù)出現(xiàn)。這一技術(shù)通過計算存儲分離的架構(gòu),實現(xiàn)了對資源的統(tǒng)一調(diào)度編排,使得彈性計算成為可能。
對于用戶而言,這也就意味著云計算可靠性和可用性的極大提升。
在這兩個階段,計算體系架構(gòu)都是以CPU為核心的。
但當(dāng)云計算發(fā)展到今天,以大數(shù)據(jù)應(yīng)用為代表的數(shù)據(jù)密集型場景越來越多,這種以CPU為中心的架構(gòu)便開始暴露短板:
首先,以CPU為中心的架構(gòu)會導(dǎo)致計算和網(wǎng)絡(luò)傳輸之間的時延較大。
其次,大數(shù)據(jù)應(yīng)用增多,導(dǎo)致數(shù)據(jù)中心內(nèi)部數(shù)據(jù)遷移量增大,以CPU為中心的架構(gòu)無法提供高帶寬。
再者,以阿里云為例,其在全球27個國家和地區(qū)、84個可用區(qū)管理著上百萬臺服務(wù)器。但以CPU為中心的架構(gòu)很難解決這種超大規(guī)?;A(chǔ)設(shè)施的復(fù)雜管理問題。
如此一來,解決之道也就指向了一個方向:打破以CPU為中心的傳統(tǒng)云計算體系架構(gòu),定義新一代云計算基礎(chǔ)技術(shù)。
而這也正是如今各大廠商所追逐的最新技術(shù)熱點。
比如英偉達(dá)的DPU(Data Processing Units),2020年10月一經(jīng)發(fā)布,便在業(yè)界引發(fā)熱議。
顧名思義,DPU側(cè)重解決的是數(shù)據(jù)遷移帶寬的問題。作為集成加速平臺,DPU能夠從CPU上卸載關(guān)鍵的網(wǎng)絡(luò)、存儲和安全任務(wù),降低CPU的開銷。
老黃當(dāng)時表示:
數(shù)據(jù)中心已成為新型計算單元,而DPU是其重要的組成部分。CPU、GPU和DPU的結(jié)合,可構(gòu)成完全可編程的單一AI計算單元,提供前所未有的安全性和算力。
而英特爾也緊隨其后,提出了“IPU”(Infrastructure Processing Units)的概念。
相比于DPU,IPU更強調(diào)虛擬化云化能力,通過網(wǎng)絡(luò)虛擬化、存儲虛擬化、網(wǎng)絡(luò)存儲管理以及安全等功能,加速網(wǎng)絡(luò)基礎(chǔ)設(shè)施,釋放CPU核來提高應(yīng)用程序性能。
盡管在概念上有些許區(qū)分,但無論是DPU還是IPU,都是想通過軟件定義+硬件加速的方式,替代CPU成為數(shù)據(jù)中心的核心硬件。
由此也可以看出,阿里云此番推出的CIPU,更像是IPU和DPU的綜合體,既能云化虛擬化管控數(shù)據(jù)中心,又能解決數(shù)據(jù)遷移帶寬的問題。
而更大的區(qū)別在于,阿里云本身就是一家云廠商,還是有飛天云操作系統(tǒng)的那一種。
這就意味著,與英偉達(dá)、英特爾這樣的硬件廠商不同,阿里云對于云計算技術(shù)發(fā)展各個階段所面臨的問題,有更為切身的體會。
前文提到,CIPU是一顆專門為飛天系統(tǒng)設(shè)計的處理器。也就是說,它從設(shè)計之初,就是貼合云計算行業(yè)痛點、結(jié)合飛天系統(tǒng)特點去做的。
這樣的軟硬一體化,一方面,既能通過硬件提供高性能,又能通過軟件提供靈活性。
另一方面,從一開始就避免了適配性的問題,能通過1+1>2的方式,做到更強的性能、更低的價格、更高的穩(wěn)定性。
自主研發(fā)的云計算
如此看來,最先享受到這波技術(shù)發(fā)展紅利的,就是云上用戶們——
云計算能做到更高的性價比了。
而作為CIPU背后的云廠商,阿里云此番技術(shù)發(fā)布,也扣上了云計算技術(shù)國產(chǎn)化在新階段的重要一環(huán)。
以阿里云自身為例:
2009年,阿里云自研云計算操作系統(tǒng)飛天誕生。雙11、12306春運購票等大家津津樂道的極限并發(fā)場景,都跑在這個系統(tǒng)之上。
2017年,為了解決服務(wù)器虛擬化性能損耗的問題,阿里云自主研發(fā)了神龍架構(gòu)(就是上文提到的神龍卡),通過把虛擬化轉(zhuǎn)移到專用硬件中進(jìn)行加速,實現(xiàn)了性能“0損耗”。
在云存儲技術(shù)方面,阿里云自研的盤古分布式存儲系統(tǒng),推動了面向數(shù)據(jù)中心ZNSSSD國際標(biāo)準(zhǔn)的發(fā)展。與西部數(shù)據(jù)(WD)共同提出的NVMe2.0,是目前云計算業(yè)內(nèi)最為先進(jìn)的軟硬一體深度融合的分布式存儲系統(tǒng)。
去年,阿里云還發(fā)布了首款CPU倚天710,刷新了Arm服務(wù)器芯片性能紀(jì)錄。
……
從網(wǎng)絡(luò)到存儲,從軟件到硬件,通過13年的技術(shù)積累、自主研發(fā),阿里云作為國內(nèi)云廠商的代表,正在世界云計算的舞臺上發(fā)出越來越高的聲量。
而CIPU的推出,則意味著這種在技術(shù)自主化方面的努力,或許已更進(jìn)一步:
嘗試打破海外云廠商、硬件廠商定義的傳統(tǒng)發(fā)展路線,走出一條自己的新路。
每當(dāng)技術(shù)發(fā)展到一個更新?lián)Q代的新階段,圍繞話語權(quán)的競爭往往精彩不斷,影響更甚于科技圈本身。
5G如是,云技術(shù)亦如是。
好戲或許才剛剛開場。