123,123

解读千亿通用服务器市场新变化

日期： 2024-12-25

來源：网易科技

關(guān)鍵詞： AI服务器浪潮通用服务器大模型

2023年初，一家互聯(lián)網(wǎng)大廠找到浪潮信息，想解決一個(gè)業(yè)務(wù)中遇到的新問題：客戶的應(yīng)用場(chǎng)景非常多元，在實(shí)際應(yīng)用中，他們發(fā)現(xiàn)每個(gè)場(chǎng)景最佳匹配的處理器平臺(tái)并不同。比如，輕量級(jí)容器場(chǎng)景，通常對(duì)性能需求適中，但對(duì)功耗和密度要求較高；高性能的計(jì)算場(chǎng)景，則更傾向于具有更強(qiáng)并行處理能力，有更多高頻核心的處理器平臺(tái)?？蛻籼岢鲆粋€(gè)訴求，我怎么在各種業(yè)務(wù)中，快速上線不同處理器的服務(wù)器？

此前，通用服務(wù)器系統(tǒng)都圍繞著某一個(gè)處理器的平臺(tái)為核心，進(jìn)行"定制"開發(fā)?，F(xiàn)在，面對(duì)客戶對(duì)多元處理器平臺(tái)的"既要"、"也要"，服務(wù)器怎么去快速覆蓋？這對(duì)幾乎數(shù)十年不變的通用服務(wù)器架構(gòu)，提出了變革訴求。

與這個(gè)問題幾乎同時(shí)出現(xiàn)的是，雖然大模型的訓(xùn)練和推理大都由AI服務(wù)器承擔(dān)，但人工智能也對(duì)通用服務(wù)器提出了新要求，比如大模型訓(xùn)練需要的數(shù)據(jù)存儲(chǔ)。而通用服務(wù)器也具備了智能加速能力，可以運(yùn)行大模型推理服務(wù)。從長遠(yuǎn)來看，正在快速演進(jìn)的十萬卡乃至百萬卡智算集群，對(duì)數(shù)據(jù)中心的顛覆和重構(gòu)，也牽引著通用服務(wù)器，像AI服務(wù)器那樣，走向高密度部署。

市場(chǎng)出現(xiàn)的這兩個(gè)新變量，也讓已進(jìn)入產(chǎn)業(yè)成熟期的通用服務(wù)器，再次站到了新變革的起點(diǎn)上。

通用服務(wù)器未來的出貨量增幅預(yù)計(jì)保持在5%～6%

新標(biāo)準(zhǔn)的變革和博弈

面對(duì)這家互聯(lián)網(wǎng)大廠提出的多元算力訴求，浪潮信息與客戶展開了"頭腦風(fēng)暴"，解耦思路浮出水面。此前，AI服務(wù)器也曾面臨多個(gè)加速芯片競爭的局面，浪潮信息參與并推動(dòng)的OAM標(biāo)準(zhǔn)，采用了解耦和標(biāo)準(zhǔn)化模組方式，讓不同廠商的芯片能夠快速應(yīng)用和上量。

"OAM的思路給了我們啟發(fā)。"浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥說。通用服務(wù)器如果能打破市場(chǎng)慣例，不再以某一處理器為核心做系統(tǒng)架構(gòu)設(shè)計(jì)，而是拆分為處理器、硬盤、IO、電源等標(biāo)準(zhǔn)化模塊，那么，客戶就可以像拼樂高一樣拼接不同模塊，滿足自己的多元需求。

這個(gè)想法提出的一年多之后，經(jīng)過產(chǎn)業(yè)鏈多方的努力，解耦思路得以落實(shí)。開放標(biāo)準(zhǔn)組織OCTC發(fā)起了開放算力模組(OCM，Open Computing Module)規(guī)范，建立了標(biāo)準(zhǔn)化算力模組，實(shí)現(xiàn)了"一機(jī)多芯"。按照規(guī)范的定義，未來一臺(tái)服務(wù)器中，英特爾、AMD、ARM更多CPU平臺(tái)可隨意切換，甚至可以同時(shí)支持。這也是國內(nèi)首個(gè)服務(wù)器計(jì)算模組設(shè)計(jì)標(biāo)準(zhǔn)規(guī)范。

開放算力模組(OCM，Open Computing Module)規(guī)范啟動(dòng)

浪潮信息也完成了首個(gè)符合OCM規(guī)范的產(chǎn)品設(shè)計(jì)。數(shù)智前線獲悉，首款基于OCM規(guī)范的元腦服務(wù)器NF3290G8目前已進(jìn)入送測(cè)階段，預(yù)計(jì)2025年Q1進(jìn)行批量部署。

這一標(biāo)準(zhǔn)之所以能在此時(shí)打破過去幾十年通用服務(wù)器的設(shè)計(jì)慣例，也與產(chǎn)業(yè)鏈各方正在尋求的破局相關(guān)：

最強(qiáng)勢(shì)的處理器芯片環(huán)節(jié)"松動(dòng)"了。最近兩年，多元算力起勢(shì)，不僅X86體系，RSIC-V體系、ARM體系都在積極布局算力市場(chǎng)，芯片的競爭趨于白熱化——誰先抵達(dá)用戶側(cè)、實(shí)現(xiàn)業(yè)務(wù)快速上線，誰就能占領(lǐng)市場(chǎng)。強(qiáng)勢(shì)的芯片廠商也不能再固守陳規(guī)，有了可協(xié)商的空間。

終端用戶企業(yè)也提出急迫需求?；ヂ?lián)網(wǎng)大廠需要靈活多變的算力單元，通信企業(yè)則有多元算力快速部署上量的壓力。

服務(wù)器企業(yè)面對(duì)這么多芯片平臺(tái)，開發(fā)工作量成倍攀升、成本高企。他們也有迫切提升多元算力服務(wù)器研發(fā)效率的動(dòng)力。

而對(duì)于國家標(biāo)準(zhǔn)制定單位，算力模塊產(chǎn)業(yè)標(biāo)準(zhǔn)一直是個(gè)空白，他們有意愿去構(gòu)建相關(guān)標(biāo)準(zhǔn)，促進(jìn)國內(nèi)服務(wù)器產(chǎn)業(yè)對(duì)標(biāo)國際水平。

這些推力，讓產(chǎn)業(yè)鏈各方走到了一起。于是，在2024年OCTC發(fā)起開放算力模組規(guī)范時(shí)，人們看到首批成員包括了中國電子技術(shù)標(biāo)準(zhǔn)化研究院、百度、小紅書、浪潮信息、英特爾、AMD、聯(lián)想、超聚變等各方代表。

不過，標(biāo)準(zhǔn)出臺(tái)的過程并非一帆風(fēng)順，大家有各自的需求，也因此有一些沖突點(diǎn)。

比如，互聯(lián)網(wǎng)大廠和芯片廠商，互聯(lián)網(wǎng)大廠更關(guān)注領(lǐng)先芯片平臺(tái)在標(biāo)準(zhǔn)中獲得落實(shí)，一些國內(nèi)外芯片廠商則更關(guān)注平臺(tái)的兼容性，以及能否將各自的優(yōu)勢(shì)得以展現(xiàn)。最終，標(biāo)準(zhǔn)組將這些算力平臺(tái)都納入進(jìn)來，做標(biāo)準(zhǔn)化評(píng)估和兼容。

不同服務(wù)器廠商也有自己的訴求，都期望標(biāo)準(zhǔn)多向自己傾斜一些。最終，標(biāo)準(zhǔn)組通過主板標(biāo)準(zhǔn)+托盤方法，快速耦合不同機(jī)箱或技術(shù)架構(gòu)平臺(tái)，化解了這一矛盾。

浪潮信息服務(wù)器產(chǎn)品線產(chǎn)品規(guī)劃經(jīng)理羅劍回憶這次標(biāo)準(zhǔn)發(fā)起和制定過程時(shí)說，各方能走到一起，一個(gè)大前提是有利于整個(gè)產(chǎn)業(yè)的健康發(fā)展。在這個(gè)前提之下，OCM提供了一個(gè)相對(duì)公平的平臺(tái)。通過這一平臺(tái)，大家可以共同促進(jìn)算力產(chǎn)業(yè)的高質(zhì)量發(fā)展。

產(chǎn)品化呈現(xiàn)三大重要趨勢(shì)

OCM標(biāo)準(zhǔn)出臺(tái)之后，業(yè)界開始了產(chǎn)品化工作。

浪潮信息緊鑼密鼓推出了首個(gè)基于OCM架構(gòu)的通用服務(wù)器——元腦NF3290G8。首代服務(wù)器支持兩種CPU新品，英特爾?至強(qiáng)?6處理器，以及第五代AMD EPYC? 9005系列處理器。前者在AI推理與計(jì)算、生成式AI、科學(xué)研究等場(chǎng)景，表現(xiàn)出較高的性能提升，后者則在全閃存儲(chǔ)、高網(wǎng)絡(luò)帶寬、金融高頻交易、大數(shù)據(jù)分析等場(chǎng)景，性能提升不錯(cuò)。

而在這次系統(tǒng)廠商對(duì)OCM標(biāo)準(zhǔn)的產(chǎn)品化過程中，有三大趨勢(shì)也值得業(yè)界關(guān)注：其一是解耦化；其二是產(chǎn)品智能化管理中，對(duì)大模型技術(shù)的引入；其三是硬件開放、軟件開源的潮流。

在第一個(gè)大趨勢(shì)上，OCM采用的解耦趨勢(shì)，代表了服務(wù)器系統(tǒng)架構(gòu)的未來演進(jìn)方向。"從系統(tǒng)效率來看，系統(tǒng)分為通用算力、內(nèi)存、異構(gòu)算力等標(biāo)準(zhǔn)模塊之后，提供一致性的供電、散熱和調(diào)控，就可以針對(duì)不同硬件資源，進(jìn)行相應(yīng)的供電、散熱優(yōu)化，才能實(shí)現(xiàn)極致的能效比。"羅劍說，采用OCM標(biāo)準(zhǔn)的元腦NF3290G8，已呈現(xiàn)了雛形。

為了實(shí)現(xiàn)解耦和模塊化設(shè)計(jì)，工程師們聚焦解決了計(jì)算模塊的供電、管理、對(duì)外高速互連等歸一化問題。如在管理上，由于每個(gè)處理器芯片的管理接口、協(xié)議等均不同，要求管理系統(tǒng)BMC，要掌握各家處理器的"密碼本"，將不同的信息翻譯成"明文"后，進(jìn)行統(tǒng)一管理。此前，這一技術(shù)掌握在獨(dú)立BMC固件提供商（IBV）手中。而2023年，浪潮信息通過開源路線OpenBMC，掌握了固件研發(fā)的技術(shù)能力，為這次實(shí)現(xiàn)處理器管理的歸一化，奠定了基礎(chǔ)。

在第二大趨勢(shì)產(chǎn)品管理智能化上，針對(duì)通用服務(wù)器中的高故障部件，如內(nèi)存和硬盤，新一代服務(wù)器平臺(tái)，利用了大模型可對(duì)海量數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練的優(yōu)勢(shì)，基于浪潮信息推出的大模型"源"，對(duì)以往服務(wù)器的故障日志數(shù)據(jù)，進(jìn)行了針對(duì)性訓(xùn)練，形成故障預(yù)警模型，集成到BMC管理引擎中。目前，系統(tǒng)實(shí)現(xiàn)了提前7天的故障預(yù)警，將客戶的非計(jì)劃停機(jī)時(shí)間縮至更短，以減少業(yè)務(wù)損失。

在第三大趨勢(shì)開源開放上，硬件的產(chǎn)品設(shè)計(jì)，尤其是與OCM產(chǎn)品化相關(guān)的設(shè)計(jì)，都在OCTC開放社區(qū)中進(jìn)行貢獻(xiàn)，讓客戶可獲得相關(guān)資料。在軟件開源上，從OpenBMC社區(qū)而來的開源技術(shù)，幫助浪潮信息解決了解耦中的關(guān)鍵問題，并再次回饋給開源社區(qū)。開源開放是一個(gè)不斷積累和匯聚技術(shù)力量的過程，最終為自身和產(chǎn)業(yè)鏈發(fā)展提供強(qiáng)大的支撐和動(dòng)力。

在這三大重要趨勢(shì)之外，通用服務(wù)器功耗攀升帶來的散熱問題，也是業(yè)界極為關(guān)注的。根據(jù)介紹，散熱也是這次產(chǎn)品化過程中，遇到的最大挑戰(zhàn)。

我們可以在通用服務(wù)器上看到，處理器平臺(tái)的未來功耗大約在500~600瓦之間。同時(shí)，服務(wù)器中還有四個(gè)350瓦的GPU。而智能網(wǎng)卡已成為云業(yè)務(wù)的標(biāo)配，隨著帶寬的攀升，它的功耗也不容小覷。這些部件的功耗加起來，整機(jī)功耗已接近3000瓦。如何解決如此大功耗的散熱？羅劍透露，工程師們采用的方法之一是散熱風(fēng)道分離，CPU、GPU以及智能網(wǎng)卡，都有單獨(dú)的散熱通道。這讓散熱效率提升5%以上，對(duì)數(shù)據(jù)中心的PUE來說極為重要。

而接下去，當(dāng)通用服務(wù)器的功耗進(jìn)一步攀升，風(fēng)冷可能就走到盡頭了，OCM標(biāo)準(zhǔn)可能將向液冷方向演進(jìn)。

采用OCM標(biāo)準(zhǔn)后，服務(wù)器的研發(fā)成本大幅降低。因?yàn)榻怦?，減少了很多重復(fù)性的開發(fā)工作，加快了芯片從研發(fā)、測(cè)試驗(yàn)證到落地的速度，浪潮信息的產(chǎn)品開發(fā)周期從原來的18個(gè)月，壓縮到6到8個(gè)月。另外解耦和模塊化過程中，因?yàn)榭煽啃詷?biāo)準(zhǔn)，包括信號(hào)、電源、結(jié)構(gòu)、系統(tǒng)穩(wěn)定性要求的提高，架構(gòu)的改變，并未降低服務(wù)器的可靠性。

通用服務(wù)器處于變革起點(diǎn)

OCM是一個(gè)重要的里程碑，用解耦思路，改變了通用服務(wù)器的設(shè)計(jì)慣例，但從長遠(yuǎn)來看，未來一段時(shí)間，智算對(duì)通用服務(wù)器帶來的影響，將更為劇烈。

當(dāng)下，智算正在引領(lǐng)整個(gè)產(chǎn)業(yè)的演進(jìn)。大模型對(duì)算力的需求，讓智算算力高速攀升。根據(jù)市場(chǎng)調(diào)研公司的IDC的分析預(yù)測(cè)，2023年和2024年，AI服務(wù)器市場(chǎng)連續(xù)翻番。如在中國市場(chǎng)，AI服務(wù)器2023年翻倍到100億美元；2024年又翻倍增長到近200億美元。AI服務(wù)器即將占據(jù)整體服務(wù)器市場(chǎng)的半壁江山。服務(wù)器市場(chǎng)也因而有了一句話，市場(chǎng)好不好，就看AI服務(wù)器。

在AI服務(wù)器中，GPU的旗艦芯片實(shí)現(xiàn)了Chiplet化，多個(gè)芯片裸片被互聯(lián)封裝在一起，以提供極致的算力，但也讓芯片功耗迅速攀升到1200瓦甚至1600瓦，并進(jìn)一步拉動(dòng)了整個(gè)算力基礎(chǔ)設(shè)施的供電需求。

過去10年，數(shù)據(jù)中心基礎(chǔ)設(shè)施的變化并不大?，F(xiàn)在，大多數(shù)數(shù)據(jù)中心供電能力為10千瓦~12千瓦。隨著智算的演進(jìn)，未來數(shù)據(jù)中心整體供電能力將達(dá)到100千瓦向上，甚至200千瓦。現(xiàn)在，一些AI整機(jī)柜服務(wù)器甚至可能達(dá)到400千瓦。

"在這一大前提下，我們判斷未來通用算力可能也會(huì)出現(xiàn)大變革。" 羅劍說，因?yàn)楫?dāng)下通用服務(wù)器的部署方式，與高供電能力的數(shù)據(jù)中心相比，收益和效率都較低。"我們判斷通用算力也會(huì)向高密、液冷的整機(jī)柜形態(tài)做長期演進(jìn)。"

如果通用服務(wù)器采用高密整機(jī)柜部署形態(tài)，其中的節(jié)點(diǎn)將基于分層解耦理念進(jìn)行設(shè)計(jì)。而OCM的解耦理念，也是將算力單元變成一個(gè)個(gè)小模塊。因此，OCM可能會(huì)成為實(shí)現(xiàn)數(shù)據(jù)中心服務(wù)器高密部署的起點(diǎn)。未來可能再通過液冷方式，將部署密度提升上去。

羅劍分析，在朝著高密、液冷方向演進(jìn)的過程中，產(chǎn)品設(shè)計(jì)將發(fā)生翻天覆地的變化。如內(nèi)存可能將平鋪在主板或貼在主板正反面，或以一種更易于液冷部署的方式來構(gòu)建。

而為了實(shí)現(xiàn)這樣的變革，現(xiàn)有的產(chǎn)業(yè)鏈也將延伸，液冷、內(nèi)存、供電等環(huán)節(jié)的企業(yè)也將加入進(jìn)來。"OCM會(huì)是一個(gè)好的開始。"羅劍說，"它將推動(dòng)算力產(chǎn)業(yè)面向未來的需求去演進(jìn)、升級(jí)。"

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

解读千亿通用服务器市场新变化

日期： 2024-12-25

來源：网易科技

相關(guān)內(nèi)容