(本文刊登于Extension Media,經(jīng)授權(quán)在電子技術(shù)應(yīng)用平臺首次以中文形式刊發(fā))
應(yīng)用基于低延遲/低功耗的新型存儲級存儲器的子系統(tǒng)來優(yōu)化服務(wù)器設(shè)計以消除計算/存儲一側(cè)的瓶頸。
超融合架構(gòu)擾亂了傳統(tǒng)的存儲和數(shù)據(jù)中心市場。因?yàn)槌诤霞軜?gòu)為各個組織開辟了一條新的途徑來強(qiáng)化他們的系統(tǒng),降低了他們的成本,減輕了他們的管理負(fù)但。根據(jù)Gartner的研究報告,“超融合集成系統(tǒng)市場將會迎來79%的增長,達(dá)到2016年的近20億美元,從而在未來的5年后將其推進(jìn)主流應(yīng)用中。超融合集成系統(tǒng)將會成為整個集成市場中增長最迅猛的細(xì)分市場,在2019年前,將會達(dá)到將近50億美元的規(guī)模,占總體市場的24%”。
什么是超融合架構(gòu)HCI?
超融合架構(gòu)(HCI)是一種把存儲、計算和網(wǎng)絡(luò)連接結(jié)合到一個單一系統(tǒng)的框架,從而使各個組織可以通過虛擬化和軟件定義存儲和網(wǎng)絡(luò)連接來降低他們的數(shù)據(jù)中心的復(fù)雜度。
超融合架構(gòu)的痛點(diǎn)
超融合架構(gòu)的演進(jìn)也面臨諸多挑戰(zhàn)。超融合架構(gòu)所面臨的挑戰(zhàn)之一是它改變了擴(kuò)展的活力。計算和存儲的基本元素不再能夠各自獨(dú)立地擴(kuò)展。其結(jié)果是,擴(kuò)展只能是通過增加新的節(jié)點(diǎn)來實(shí)現(xiàn),這又引入了新的瓶頸。
超融合應(yīng)用要求多個百萬級的IOPs的存儲性能來應(yīng)對高強(qiáng)度的輸入輸出負(fù)荷量。然而,現(xiàn)有的固態(tài)硬盤技術(shù)是建立在基于NAND Flash閃存的。而NAND Flash閃存引入了顯著的延遲 -– 一次讀操作的延遲可以達(dá)到100微秒到200微秒。為了克服NAND Flash閃存帶來的束縛,IT架構(gòu)師們開發(fā)了各種技術(shù),如通過分割跨越多個NAND Flash閃存元器件進(jìn)行數(shù)據(jù)存儲訪問的方式進(jìn)行大的并行和分布式負(fù)荷處理,來彌補(bǔ)這些缺陷?,F(xiàn)在這些服務(wù)器正在向超融合邁進(jìn)。要想突破NAND Flash閃存對應(yīng)用所帶來的限制,挑戰(zhàn)是巨大。
ReRAM為數(shù)據(jù)中心帶來的革命性突破
新興技術(shù),如阻性存儲器(ReRAM)正在進(jìn)入市場。它將把訪問延遲大幅度降低到10微秒以下,從而使如超高速的NVMe SSD等新產(chǎn)品成為可能。如果設(shè)計人員利用存儲器的物理接口而不是PCIe接口,延遲還能更進(jìn)一步降低。存儲設(shè)備將會基于NV-DIMM存儲器總線,其提供的延遲將會低于微秒級的范圍。
當(dāng)ReRAM在性能和功耗方面的的顯著的優(yōu)勢會被應(yīng)用到整個系統(tǒng)性能方程式的存儲部分。這個新的產(chǎn)品分類還將要求在CPU/計算一側(cè)也能展現(xiàn)出一個全新的面貌。系統(tǒng)資源將會被存儲的輸入輸出持續(xù)地消耗掉。這就要求要有一個新的架構(gòu),來確保計算能力能夠滿足應(yīng)用和網(wǎng)絡(luò)接口的需求,并在保持低功耗的同時和實(shí)現(xiàn)高帶寬。
圖1描述了計算/存儲側(cè)瓶頸的一個事例。在這里,絕大多數(shù)的資源被分配到了存儲的輸入輸出,以至于對于應(yīng)用和網(wǎng)絡(luò)接口,沒有足夠的計算能力。在一個高端CPU中,需要大約3.3個滿時間負(fù)荷運(yùn)行的核來管理1 MIOPS的NVMe設(shè)備。這需要支付昂貴的功耗和成本預(yù)算。如果應(yīng)用750k IOPS的SSD固態(tài)硬盤,一個典型的2U服務(wù)器集成了24個這樣的固態(tài)硬盤,應(yīng)用需要一個高深度隊列,達(dá)到18MIOPS。因此,僅僅是為了管理輸入輸出,就需要18 x 3.3 = 60個核,也就是一個基于4-CPU的高端架構(gòu)的75%的資源。如圖1所示。在對IOPS需求要跨越網(wǎng)絡(luò)的情況下,相關(guān)的吞吐量在18M x 4096 x 8 = 600Gbit/s的范圍,這對應(yīng)了15個40GbE端口。
圖1 基于Flash閃存的18M IOPS的NVMe存儲系統(tǒng)
ARM RISC CPU的應(yīng)用為管理輸入輸出提供了充足的計算能力,同時還能保持低功耗以及為應(yīng)用和網(wǎng)絡(luò)驅(qū)動提供足夠的帶寬。通過NVMe或NV-DIMM存儲器件,把Crossbar的ReRAM技術(shù)和ARM RISC CPU結(jié)合起來,成功地應(yīng)對IOPS的需求和功耗。假定ARM RISC CPU將會在64核、4存儲器通道下具備合理的功耗預(yù)算,我們估計一個超融合節(jié)點(diǎn)將會在100W的功耗范圍內(nèi)達(dá)到12.5 MIOPS(圖2)。因?yàn)樵L問一個DIMM接口比訪問一個PCIe設(shè)備簡單,我們有理由估測存儲軟件驅(qū)動將會比NVMe的驅(qū)動執(zhí)行得更快,每個核將會達(dá)到1MIOPS的輸入輸出管理能力。因?yàn)橥庑纬叽缧。谝粋€2U機(jī)柜里可以集成大約20個這樣的節(jié)點(diǎn),實(shí)現(xiàn)一個250MIOPS、2kW功耗預(yù)算的2U超融合服務(wù)器。
圖2 12.5MIOPS的超融合節(jié)點(diǎn)
在這種情況下,跨越網(wǎng)絡(luò)所得到的IOPS有著非常高的帶寬:250M x 4096 x 8 = 8Tbit/s,甚至僅需要18%的CPU資源被用作輸入輸出的管理。
回到用戶層面,以一個虛擬化用例作為例子,這樣的一臺服務(wù)器可以并行(3000 IOPS/VM)執(zhí)行83,000個虛擬機(jī)(VM)。而在現(xiàn)有的一個集成了24個基于Flash閃存的2.5″ 固態(tài)硬盤(每個固態(tài)硬盤有750k IOPS)的2U超融合服務(wù)器上,僅能執(zhí)行6,000VMs,這樣需要14個這樣的服務(wù)器來執(zhí)行相同的VM數(shù)。Crossbar ReRAM提供了15倍的I/O性能密度(高至125MIOPS/U)和服務(wù)器層級的性能效率(125k IOPS/W)。
圖3 超融合服務(wù)器上83000虛擬機(jī)
對于相同的VM數(shù),由于集成度更高的解決方案在提供相同性能的情況下占用了更少的空間、消耗更少的功耗、需要更少的軟件許可,用戶將會收益于TCO的減少。
表1
為實(shí)現(xiàn)Tb/s的網(wǎng)絡(luò)接口,在計算/網(wǎng)絡(luò)一側(cè)需要做一些R&D的工作;而在軟件一側(cè),需要做一些R&D的工作來減少存儲驅(qū)動的執(zhí)行時間,為此,Crossbar ReRAM開啟了更小的I/O(512B甚或更低的I/O, 參見表1),可用于大數(shù)據(jù)分析和OLTP數(shù)據(jù)庫應(yīng)用,從而在服務(wù)器中實(shí)現(xiàn)高達(dá)1 GIOPS/U。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
作者簡介:
Sylvain Dubois是Crossbar, Inc. 戰(zhàn)略市場及業(yè)務(wù)拓展副總裁。他于2013年加入Crossbar管理團(tuán)隊并任職戰(zhàn)略市場及業(yè)務(wù)拓展副總裁。他有著17年的半導(dǎo)體領(lǐng)域的業(yè)務(wù)拓展和戰(zhàn)略產(chǎn)品市場方面的經(jīng)驗(yàn)。其在市場趨勢分析、尋求新的可盈利的商業(yè)機(jī)會、以及創(chuàng)建精準(zhǔn)的產(chǎn)品定位以完美地與市場需求同步、駕馭具有領(lǐng)導(dǎo)地位的市場占有率和商務(wù)成果等方面的能力得到廣泛認(rèn)可。
Sylvain Dubois獲得了E.S.I.E.E. (Paris), University of Southampton (UK) and Universidad Pontifica Comillas (Spain)的微電子技術(shù)的碩士學(xué)位。