123,123

DPU芯片数据中心奇袭Intel，不止英伟达一个

日期： 2021-04-13

來源：与非网

關(guān)鍵詞： 英伟达 DPU

　　去年秋天，英偉達(dá)宣布推出一款新型處理器DPU，黃仁勛的帶貨原話是：“數(shù)據(jù)中心已成為新型計(jì)算單元。在現(xiàn)代化、安全的加速數(shù)據(jù)中心中，DPU 已成為其重要的組成部分。CPU、GPU 和 DPU 的結(jié)合，可構(gòu)成完全可編程的單一AI計(jì)算單元，提供前所未有的安全性和算力?！?br/>

　　DPU作為面向數(shù)據(jù)中心的專用處理器，是否真的有望成為繼CPU和GPU之后的第三顆算力芯片？

　　為什么需要DPU？

　　微信圖片_20210413103612.jpg

　　圖源 | PC Magazine

　　CPU負(fù)責(zé)通用計(jì)算、GPU負(fù)責(zé)加速計(jì)算已經(jīng)成為絕大部分?jǐn)?shù)據(jù)中心的常態(tài)。用于加速計(jì)算的GPU，將計(jì)算密集型任務(wù)從CPU中分離出來，CPU繼續(xù)發(fā)揮通用計(jì)算和邏輯運(yùn)算的能力，將并行計(jì)算、機(jī)器學(xué)習(xí)和AI計(jì)算等任務(wù)交給GPU處理。

　　隨著數(shù)據(jù)中心向軟件定義的趨勢(shì)發(fā)展，它在變得更加靈活的同時(shí)也將承受更大的負(fù)擔(dān)，基礎(chǔ)架構(gòu)的運(yùn)行將消耗20%-30%的CPU核心。這也意味著，新的分工體系需要更加細(xì)分的“工種”，為CPU“減負(fù)”。

　　正如GPU受圖形圖像需求的驅(qū)動(dòng)發(fā)展，DPU（Data Processing Unit，數(shù)據(jù)處理器）的產(chǎn)生背景是端邊云一體化趨勢(shì)下，對(duì)計(jì)算延遲、數(shù)據(jù)安全、資源虛擬化的需求，而這些功能對(duì)于實(shí)現(xiàn)對(duì)于下一代云上大規(guī)模計(jì)算至關(guān)重要。

　　國(guó)內(nèi)外玩家都有誰？

　　事實(shí)上，想在基礎(chǔ)網(wǎng)絡(luò)架構(gòu)變革中分一杯羹的不止DPU，還有智能網(wǎng)卡（SmartNIC）。我們都知道數(shù)據(jù)中心服務(wù)器之間的網(wǎng)絡(luò)互聯(lián)有一套底層軟件系統(tǒng)，這套軟件需要能完成網(wǎng)絡(luò)互聯(lián)協(xié)議，除此之外，還需要能跑一套數(shù)據(jù)中心必備的網(wǎng)絡(luò)安全系統(tǒng)。傳統(tǒng)上，這些處理也跑在CPU上，而隨著SmartNIC的逐漸普及，它正在網(wǎng)絡(luò)安全和網(wǎng)絡(luò)協(xié)議處理方面緩慢地取代CPU。

　　Xilinx去年推出的Alveo U25 就是一款一體化內(nèi)置可編程FPGA的 SmartNIC ，在單顆器件上實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算加速功能的融合。

　　DPU可以看做是SmartNIC的增強(qiáng)版本，一方面加強(qiáng)了SmartNIC對(duì)于網(wǎng)絡(luò)協(xié)議和網(wǎng)絡(luò)安全的處理能力，另一方面整合并加強(qiáng)了分布式存儲(chǔ)的處理能力，從而讓DPU能在這兩個(gè)領(lǐng)域更多地替代CPU。

　　這將是一個(gè)即將掀起大風(fēng)浪的領(lǐng)域，擠滿了摩拳擦掌的選手們。據(jù)不完全統(tǒng)計(jì)，國(guó)內(nèi)外布局這一市場(chǎng)的玩家，既有Intel、英偉達(dá)、Broadcom、Marvell這樣的大廠，也包括Fungible、Pensando等初創(chuàng)企業(yè)，其中幾家大廠近些年的幾宗收購(gòu)，也在圍繞這一領(lǐng)域展開。

　　從技術(shù)路線來看，各家方案有所不同。Intel、Broadcom都是面向交換機(jī)、路由器芯片，Intel基于FPGA，Broadcom基于Arm架構(gòu)；英偉達(dá)側(cè)重于數(shù)據(jù)安全、網(wǎng)絡(luò)、存儲(chǔ)卸載，主要基于所收購(gòu)的Mellanox網(wǎng)絡(luò)方案及Arm架構(gòu)實(shí)現(xiàn)；Marvell主要面向5G帶寬，通過收購(gòu)Cavium獲得的可編程芯片技術(shù)和Arm架構(gòu)形成方案；Pensando和Fungible兩家創(chuàng)企，前者面向支持P4的SDN，方案主要通過軟件定義網(wǎng)絡(luò)處理器實(shí)現(xiàn)，后者面向網(wǎng)絡(luò)、存儲(chǔ)、虛擬化，方案基于MIPS架構(gòu)。

　　國(guó)內(nèi)廠商在這一領(lǐng)域目前有披露的并不多，華為的智能網(wǎng)卡屬于DPU的細(xì)分，不過智能網(wǎng)卡芯片還未正式宣布；阿里方面，據(jù)了解有DPU較為原始形態(tài)的產(chǎn)品；還有中科馭數(shù)，最近剛剛宣布了下一代DPU芯片計(jì)劃。

　　沖擊千億量級(jí)DPU市場(chǎng)

　　國(guó)產(chǎn)芯片加速成長(zhǎng)

　　根據(jù)Fungible和Nvidia的預(yù)測(cè)，用于數(shù)據(jù)中心的DPU量級(jí)將達(dá)到和數(shù)據(jù)中心服務(wù)器等量的級(jí)別。服務(wù)器每年新增大約千萬量級(jí)，一臺(tái)服務(wù)器可能沒有GPU，但一定會(huì)有一顆或者多顆DPU，好比每臺(tái)服務(wù)器都必須配網(wǎng)卡一樣。服務(wù)器每年新增大約1500萬臺(tái)，每顆DPU如果以1萬元計(jì)算，將是千億量級(jí)的市場(chǎng)規(guī)模。

　　追溯起來的話，中科馭數(shù)的創(chuàng)始團(tuán)隊(duì)算是在國(guó)內(nèi)較早進(jìn)行DPU芯片研發(fā)的。該公司創(chuàng)始人兼CEO鄢貴海博士、聯(lián)合創(chuàng)始人兼CTO盧文巖博士、首席科學(xué)家李曉維博士，均來自中科院計(jì)算所計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室。他們提出了軟件定義加速器技術(shù)（Software Defined Accelerator），自主研發(fā)了KPU（Kernel Processing Unit）芯片架構(gòu)，并于2019年設(shè)計(jì)出業(yè)界首顆數(shù)據(jù)庫(kù)與時(shí)序數(shù)據(jù)處理融合加速芯片，已經(jīng)成功流片。中科馭數(shù)的DPU芯片，正是基于自研的KPU芯片架構(gòu)，具有網(wǎng)絡(luò)協(xié)議處理、數(shù)據(jù)庫(kù)和大數(shù)據(jù)處理加速、存儲(chǔ)運(yùn)算、安全加密運(yùn)算等核心功能。

　　從KPU架構(gòu)到DPU芯片，中科馭數(shù)的關(guān)鍵優(yōu)勢(shì)是什么？

　　鄢貴海博士介紹，相較于傳統(tǒng)的ASIC或SoC DPU芯片架構(gòu)，KPU有較高的靈活性，可以通過即時(shí)的軟件配置來定義芯片內(nèi)部數(shù)據(jù)運(yùn)算邏輯，在保障充沛算力的同時(shí)，以最低功耗支撐更多運(yùn)算負(fù)載類型。其KPU定位為“敏捷異構(gòu)”的專用計(jì)算架構(gòu)，與CPU、GPU、FPGA、ASIC相比，KPU-Drive方案在算力、能效比（TCO）、算法靈活性、邊際成本、開發(fā)周期等方面優(yōu)勢(shì)明顯。

　　目前，中科馭數(shù)已經(jīng)積累了8個(gè)大類的KPU內(nèi)核資源，涵蓋了時(shí)間序列分析、數(shù)據(jù)查詢、加密解密、數(shù)據(jù)壓縮、協(xié)議解析等，并在過去兩年完成了兩代KPU的迭代。KPU也從最初的單個(gè)應(yīng)用算法加速，進(jìn)化到了集網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與應(yīng)用算法的全方位立體化加速體系。

　　再與同類方案做橫向?qū)Ρ?，中科馭數(shù)是否有獨(dú)特優(yōu)勢(shì)？

　　據(jù)了解，同類DPU方案類型大致可以概括為三種：一是以通用眾核為基礎(chǔ)的同構(gòu)眾核DPU，例如Broadcom的Stingray架構(gòu)，以多核Arm為核心，以眾取勝，可編程靈活性較好，但是應(yīng)用針對(duì)性不夠，對(duì)于特殊算法和應(yīng)用的支持，與通用CPU相比并無太顯著優(yōu)勢(shì)；二是以專用核為基礎(chǔ)的異構(gòu)核陣列，這種架構(gòu)的特點(diǎn)是針對(duì)性較強(qiáng)、性能較好，但是犧牲了部分靈活性；第三種路線是以上二者的折中，且專用核的比重越來越大，正在成為最新的產(chǎn)品趨勢(shì)，以英偉達(dá)的BlueField2系列DPU來看，就包括4個(gè)Arm核及多個(gè)專用加速核區(qū)域，F(xiàn)ungible的DPU則包含6大類的專用核，和52個(gè)MIPS小型通用核。

　　“不同于Broadcom、Fungible等國(guó)外芯片廠商，中科馭數(shù)的DPU沒有采用原來眾核為主的架構(gòu)，而是將重點(diǎn)放在異構(gòu)核上，以針對(duì)性算法加速為核心，通過KPU架構(gòu)來組織異構(gòu)核。在KPU架構(gòu)下，中科馭數(shù)研發(fā)了芯片級(jí)完善的L2/L3/L4層全網(wǎng)絡(luò)協(xié)議處理核，推出了直接面向OLAP、OLTP及類SQL處理的數(shù)據(jù)查詢處理核”，鄢貴海介紹。

　　這樣帶來的好處是，更高效的數(shù)據(jù)處理效率、獲得更直接的使用接口，以及更佳的虛擬化支持，這些特性對(duì)于金融科技、數(shù)據(jù)中心、混合云及邊緣計(jì)算等高帶寬、低延遲、數(shù)據(jù)密集型的計(jì)算場(chǎng)景都尤為重要。

　　以KPU架構(gòu)為核心，在2019年流片第一顆芯片K1的基礎(chǔ)上，中科馭數(shù)下一顆芯片K2預(yù)計(jì)今年年底流片。從目前曝光的芯片架構(gòu)來看，功能層面包括L2/L3/L4層的網(wǎng)絡(luò)協(xié)議處理，可處理200G網(wǎng)絡(luò)帶寬數(shù)據(jù)；融合了數(shù)據(jù)庫(kù)、大數(shù)據(jù)處理能力，直接面向OLAP、OLTP及大數(shù)據(jù)處理平臺(tái)，如Spark等；此外，還囊括機(jī)器學(xué)習(xí)計(jì)算核以及安全加密運(yùn)算核。

　　微信圖片_20210413103714.jpg

中科馭數(shù)K2芯片架構(gòu)

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

DPU芯片数据中心奇袭Intel，不止英伟达一个

日期： 2021-04-13

來源：与非网

相關(guān)內(nèi)容