11 月 19 日晚 Microsoft Ignite 2024 大會上,美股科技巨頭微軟公司推出了一系列關(guān)于 Azure 云計算和 AI 相關(guān)的服務和軟硬件產(chǎn)品。
其中,微軟推出了其首款用于內(nèi)部業(yè)務的數(shù)據(jù)處理器 Azure Boost DPU。
作為微軟的首款內(nèi)部 DPU 芯片,Azure Boost DPU 旨在高效、低功耗地運行 Azure 數(shù)據(jù)中心的工作負載,將傳統(tǒng)服務器的多個組件整合到一塊芯片中,并將高速以太網(wǎng)和 PCIe 接口以及網(wǎng)絡和存儲引擎、數(shù)據(jù)加速器和安全功能集成到一個完全可編程的片上系統(tǒng)中。微軟預計,未來配備 DPU 的 Azure 服務器,將以現(xiàn)有服務器四倍(400%)的性能運行存儲工作負載,同時功耗降低三倍。
中科馭數(shù)創(chuàng)始人、CEO 鄢貴海對鈦媒體 App 表示,這是 DPU 的應用方主動推動 DPU 進入規(guī)?;瘧玫臉藯U案例,對 DPU 后續(xù)更快速發(fā)展有利。DPU 就是為智算和未來的高性能計算的特點來 " 定制 " 的,而國內(nèi)也在逐步完善自主 DPU、CPU、GPU 等計算基礎設施,需立足于與自主的計算平臺的融合發(fā)展,共同進步,并且讓 " 可用性 " 與 " 先進性 " 并重發(fā)展。
13 億收購整合近兩年后,微軟推出首款 DPU 芯片
具體來說,DPU(Data Processing Unit)是面向以數(shù)據(jù)為中心的計算的新一代數(shù)據(jù)處理器,集完整的數(shù)據(jù)中心功能于單芯片,和 CPU 及 GPU 一起構(gòu)成新型計算的三大支柱,用于處理某些數(shù)據(jù)處理任務,包括數(shù)據(jù)流量的安全性和網(wǎng)絡路由。旨在幫助減少與特定工作負載(包括 AI 工作負載)相關(guān)的核心計算任務對 CPU 和其他芯片的負載。
通俗地講,如果把一臺計算機或服務器比作一個團隊,CPU 相當于這個團隊的 " 大管家 ",負責思考并處理各種業(yè)務;GPU 是 " 美工 ",專攻圖像處理;DPU 則相當于 " 前臺 ",負責打包、拆包 " 數(shù)據(jù)包 ",提升整個團隊的工作效率。
英偉達首席執(zhí)行官黃仁勛曾指出,CPU、GPU 和 DPU 將成為數(shù)據(jù)中心的基礎。在他的愿景下,CPU 將負責一般處理,GPU 將為加速計算提供動力,而 DPU 將管理數(shù)據(jù)流。
過去幾年,英偉達、AMD、谷歌、亞馬遜等企業(yè)都在自研 DPU 芯片。
其中,英偉達于 2019 年開始提供其 BlueField 系列 DPU;AMD 自 2022 年以來一直在銷售其 Pensando DPU;亞馬遜 AWS 的 Nitro 卡提供類似 DPU 的功能;而谷歌則與英特爾合作開發(fā)可執(zhí)行許多與 DPU 相同功能的芯片。
早在 2022 年 12 月底,微軟收購了前蘋果和瞻博網(wǎng)絡工程師創(chuàng)立的公司 DPU 制造商 Fungible,總交易額約 .9 億美元(約合人民幣 13.76 億元)。收購后,F(xiàn)ungible 團隊加入了微軟的基礎設施工程部門,因此,Azure Boost DPU 可能起源于該團隊。
分析師 Dylan Patel 曾表示,在交易之前,F(xiàn)ungible 曾嘗試融資,但未能成功,并試圖將自己出售給 Meta Platforms," 微軟考慮與 Fungible 合作設計芯片,但最終決定低價收購這家公司、員工和知識產(chǎn)權(quán)。"
因此這意味著,微軟 Azure Boost DPU 直接對標英偉達 DPU,并且加上微軟定制 CPU 等,這將減少微軟對英偉達 AI 服務器芯片 H100/A100 的依賴。
"Azure Boost DPU 專為 Azure 上的橫向擴展、可組合工作負載而設計,可為其云基礎設施提供跨存儲、網(wǎng)絡、加速等方面的效率。" 微軟表示。但微軟沒有透露更多的基礎測試信息,也沒有提到 Azure 客戶何時可以看到這些收益。
此外,微軟這次還宣布推出 Azure 內(nèi)部云安全芯片 HSM,Azure 容器應用無服務器 GPU 公開預覽版,和面向 HPC 客戶及其應用程序的最新基于 CPU 的虛擬機 Azure HBv5 等。
Azure 集成硬件安全模塊 ( HSM ) 是一款全新的內(nèi)部云安全芯片,它允許將簽名密鑰(基本上是數(shù)字加密簽名)和加密密鑰(用于加密數(shù)據(jù)的位串)包含在安全模塊中,而不會影響性能或增加延遲。微軟表示:" 從明年開始,Azure Integrated HSM 將安裝在微軟數(shù)據(jù)中心的每臺新服務器上,以增強 Azure 硬件集群對機密和通用工作負載的保護。"Azure Integrated HSM 是微軟繼 Pluton 之后推出的第二款安全芯片,Pluton 是一款內(nèi)置于英特爾、AMD 和高通處理器中的面向消費者的芯片。這也是該公司對其云競爭對手專有解決方案的回應:AWS 的 Nitro 處理某些安全任務,而谷歌在谷歌云服務器中內(nèi)置了一個名為 Titan 的安全芯片。
無服務器 GPU 由 NVIDIA A100 GPU 和 NVIDIA T4 GPU 逆行加速,可輕松擴展并靈活地執(zhí)行實時自定義模型推理和其他機器學習任務;
HPC 虛擬機 Azure HBv5,針對計算流體動力學、汽車和航空航天模擬、天氣建模、能源研究、分子動力學、計算機輔助工程等領域進行優(yōu)化,有四個處理器共同工作,提供近 7 TB/s 的內(nèi)存帶寬,與最新的裸機和云替代方案相比,這高出 8 倍,比 Azure HBv3 和 Azure HBv2(第三代 EPYC 和第二代 EPYC Rome)高出近 20 倍,比接近硬件生命周期末期的 4-5 年 HPC 服務器高出 35 倍。
微軟表示,Azure Boost DPU 是其通過硬件創(chuàng)新增強基礎設施系列的最新成員。" 隨著我們不斷突破可能的界限,我們?nèi)灾铝τ谔峁﹦?chuàng)新,使我們的基礎設施更強大、更高效、更具可擴展性,以滿足客戶不斷變化的需求。"
市場規(guī)模將近 400 億,AI 正加速全球半導體市場
事實上,DPU 帶來的效率提升對超大規(guī)模企業(yè)來說頗具吸引力,這些企業(yè)受 AI 需求的推動,正在建設越來越大、耗電量越來越大的數(shù)據(jù)中心。微軟在 2022 年表示,由于其能耗不斷增長,其數(shù)據(jù)中心能源成本將增加 8 億美元。
據(jù) Allied Analytics 稱,到 2031 年,DPU 芯片的市場價值可能達到 55 億美元(約合人民幣 398.26 億元),接近 400 億規(guī)模。
值得注意的是,國內(nèi)也有很多初創(chuàng)公司在做 DPU 芯片產(chǎn)品,比如,中科馭數(shù)、云脈芯聯(lián)、星云智聯(lián)、云豹智能等。此外,阿里、百度、騰訊也在近幾年針對自身服務器進行自研與外購 DPU,針對的主要功能在于數(shù)據(jù),存儲與安全方面。
如今,AI 大模型使得算力需求的迅猛增長,而基于傳統(tǒng) IT 架構(gòu)建構(gòu)的軟硬件體系結(jié)構(gòu)愈發(fā)無法滿足數(shù)據(jù)中心對大規(guī)模、高帶寬和低延遲的訴求,而全新的 DPU 技術(shù),將引領數(shù)據(jù)中心從依賴單核、單機算力的架構(gòu)向分布式集群計算的架構(gòu)演進。
鄢貴海表示,大模型數(shù)據(jù)中心與傳統(tǒng)數(shù)據(jù)中心最大的區(qū)別之一就是互連網(wǎng)絡的帶寬延遲要求都更高、以及相對扁平的拓撲結(jié)構(gòu)。DPU 正好是應對高帶寬低延遲,支持各種突發(fā)網(wǎng)絡流量分發(fā)、大流量聚合的引擎,可以讓數(shù)據(jù)在各個計算節(jié)點間更高效的流動,而無需 CPU 的操作和干擾。
" 降低對單一供應商的依賴是商業(yè)上的一個慣常思維吧, 對于供應鏈可靠性和成本都有好處,無可厚非。但是 DPU 還是屬于技術(shù)門檻比較高、周期比較長的產(chǎn)品,所以,英偉達、微軟等科技巨頭還是有一些天然的優(yōu)勢的。國內(nèi)也在逐步完善自主 CPU、GPU 等計算基礎設施。" 鄢貴海認為,國內(nèi)的 DPU 的研發(fā)還是要立足于與自主的計算平臺的融合發(fā)展,共同進步;同時也要吸收國際一線廠商在一些新的體系架構(gòu)和應用支撐上的成功案例,把 " 可用性 " 與 " 先進性 " 并重發(fā)展。
IDG 資本合伙人李驍軍曾表示,作為與 CPU、GPU 并列的大芯片,DPU 推動著數(shù)據(jù)中心基礎架構(gòu)的革新,深耕 DPU 領域,不僅需要充分理解大規(guī)模云廠商的業(yè)務需求、定義架構(gòu)特性,同時還要具備大芯片的工程實現(xiàn)能力。
" 重大平臺轉(zhuǎn)變即將到來 ",微軟 CEO 薩蒂亞 · 納德拉 ( Satya Nadella ) 在會上表示,Copilot 是 AI 的用戶界面,它正在迅速成為工作的組織層,并決定工作如何完成。Copilot AI 平臺將改變各個級別的人們有效和高效的工作方式,AI Agent 將是重點。
展望 AI 的未來,納德拉指出,"AI 的問題在于計算機根本不在乎,而我們卻在乎。在這一切快速變化中,我們始終堅守我們的使命,那就是讓地球上的每個人、每個組織都能取得更大的成就,利用這項技術(shù)為團隊和世界帶來改變。技術(shù)不是為了技術(shù)而技術(shù),而是要將技術(shù)轉(zhuǎn)化為真正的成果,技術(shù)的變革力量可以推動業(yè)務增長,提高效率和運營平衡(杠桿)。"
納德拉強調(diào),AI 技術(shù)技能將改變?nèi)藗兊纳睿聦嵣?,它已?jīng)改變了。