《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 基于FPGA打造,百度昆侖芯片有多能打

基于FPGA打造,百度昆侖芯片有多能打

2020-04-19
來(lái)源: Ai芯天下
關(guān)鍵詞: FPGA Al芯片 人工智能 GPU

    作為Al芯片的積極布局者與應(yīng)用者,百度對(duì)外發(fā)布AI云端芯片“昆侖”,備受業(yè)界矚目。在中國(guó)產(chǎn)業(yè)智能化進(jìn)程的逐步深入,市場(chǎng)對(duì)于 AI 算力的需求超大規(guī)模增長(zhǎng),在端側(cè)部署 AI 芯片也成為企業(yè)應(yīng)用 AI 的重要一環(huán)。

    

1.jpg

    芯片領(lǐng)域成為熱點(diǎn)

    我國(guó)在人工智能芯片領(lǐng)域不斷取得創(chuàng)新突破。各個(gè)平臺(tái)型企業(yè)也紛紛基于數(shù)據(jù)、算法和應(yīng)用優(yōu)勢(shì),宣布進(jìn)軍人工智能芯片領(lǐng)域。AI領(lǐng)域已經(jīng)成為世界科技巨頭爭(zhēng)奪的制高點(diǎn), AI 應(yīng)用的爆發(fā)對(duì)運(yùn)算能力提出越來(lái)越高的要求,基于傳統(tǒng)芯片的 AI 運(yùn)算加速,已經(jīng)不能滿(mǎn)足需求。

    軟件領(lǐng)域的谷歌、Facbook,硬件廠商英偉達(dá)、英特爾等全都宣布了自己的芯片規(guī)劃以及未來(lái)遠(yuǎn)景。在這個(gè)大背景下,以百度昆侖芯片為代表的國(guó)產(chǎn)技術(shù),能夠突破國(guó)際巨頭技術(shù)體系的壓制,成為國(guó)內(nèi)業(yè)界普遍關(guān)注國(guó)產(chǎn)代表。

    

2.jpg

    國(guó)內(nèi)首款云端全功能芯片

    中國(guó)首款云端Al全功能AI芯片“昆侖”是中國(guó)在大規(guī)模AI運(yùn)算實(shí)踐中催生出的芯片。

    與市面上已發(fā)布的適用于垂直場(chǎng)景的芯片不同,百度之所以將“昆侖”定義為國(guó)內(nèi)首款云端全功能芯片,是因?yàn)槠淇筛咝У赝瑫r(shí)滿(mǎn)足訓(xùn)練和推斷的需求,除了常用深度學(xué)習(xí)算法等云端需求,還能適配諸如自然語(yǔ)言處理,大規(guī)模語(yǔ)音識(shí)別,自動(dòng)駕駛,大規(guī)模推薦等具體終端場(chǎng)景的計(jì)算需求。

    

3.jpg

    基于FPGA打造的昆侖芯片

    眾所周知,GPU是打造AI芯片的重要手段之一。百度昆侖芯片是基于FPGA所打造的AI芯片采用了XPU架構(gòu)。在FPGA方面,百度擁有超過(guò)8年的FPGAAI加速器積累,累計(jì)上線(xiàn)超過(guò)了1萬(wàn)個(gè)。其XPU架構(gòu)及軟件棧也在實(shí)際業(yè)務(wù)中,有了超過(guò)8年的持續(xù)迭代。

    昆侖芯片與GPU和專(zhuān)用AI芯片相比,在實(shí)行性能和性?xún)r(jià)比上都有一定的優(yōu)勢(shì)。昆侖芯片非常通用且靈活,既可以做訓(xùn)練也可以做推理,XPU的功能架構(gòu)也在百度內(nèi)部很多應(yīng)用中得到驗(yàn)證,相對(duì)而言,它是一款全功能的Al芯片。

    

4.jpg

    昆侖芯片的閃光點(diǎn)

    百度昆侖采用了14nm三星工藝、260Tops性能、512GB/s內(nèi)存帶寬、100+ 瓦特功耗,由幾萬(wàn)個(gè)小核心構(gòu)成。昆侖芯片可以在100瓦+功耗下提供260TOPS ,每秒260萬(wàn)億次定數(shù)運(yùn)算性能。此前,NVIDIA用于汽車(chē)L 4.L .5自動(dòng)駕駛的Xavier芯片,8核ARM CPU+512顆CUDA的性能是30TOPS。

    架構(gòu)方面:昆侖芯片有2個(gè)計(jì)算單元,512GB/S的內(nèi)存帶寬,16MBSRAM/unit。16MB的SRAM對(duì)AI推理很有幫助,XPU架構(gòu)上的XPU-SDNN是為T(mén)ensor等而設(shè)計(jì),XPU-Cluster則能夠滿(mǎn)足通用處理的需求。

    昆侖第一代芯片沒(méi)有采用NVLink,而是通過(guò)PCIE4.0接口進(jìn)行互聯(lián)。在三星14nm的制造工藝和2.5D封裝的支持下,昆侖芯片峰值性能可以達(dá)到260TOPS,功耗為150W。

    在靈活性和易用性方面:昆侖面向開(kāi)發(fā)者提供類(lèi)似英偉達(dá)CUDA的軟件棧,可以通過(guò)C/C++語(yǔ)言進(jìn)行編程,降低開(kāi)發(fā)者的開(kāi)發(fā)難度。

    基于第一代昆侖芯片,百度推出了兩款A(yù)I加速卡,K100和K200,前者算力和功耗都是后者的兩倍。在語(yǔ)音常用的Bert/Ernie測(cè)試模型下,昆侖也有明顯性能優(yōu)勢(shì)。在線(xiàn)上性能數(shù)據(jù)的表現(xiàn)上,昆侖的表現(xiàn)相比英偉達(dá)T4更加穩(wěn)定,且延遲也有優(yōu)勢(shì)。

    

5.png

    強(qiáng)強(qiáng)合作提升領(lǐng)域發(fā)展

    2019年12月18日,三星宣布代工百度首款云到邊緣AI芯片“昆侖”,借由三星14納米處理技術(shù)及其I-Cube(Interposer-Cube)封裝解決方案生產(chǎn)。

    三星的 14nm 工藝是其最廣泛使用的制造節(jié)點(diǎn)之一,該工藝的晶體管密度為 32.5 MTr /mm,主要用于英偉達(dá)的 GeForce 10 系列,以及許多高通和三星芯片。它有多種變體,包括 14nm LPE(Low Power Early)和 14nm LPP(Low Power Plus)。

    目前昆侖芯片已完成開(kāi)發(fā),并將批量生產(chǎn)。昆侖芯片首先將會(huì)用于百度的自家產(chǎn)品當(dāng)中,能解決工業(yè)智能遇到的計(jì)算問(wèn)題以及和飛騰ARM處理器的適配。

    

6.jpg

    昆侖芯片未來(lái)落腳點(diǎn)

    工業(yè)上百度昆侖芯片也正式在微億智造的工業(yè)智能質(zhì)檢設(shè)備上部署上線(xiàn)。百度智能云以整機(jī)一體化方式,向微億智造交付搭載百度昆侖芯片的百度云質(zhì)檢一體機(jī)。

    預(yù)計(jì)在今年以?xún)?nèi),微億智造的數(shù)千臺(tái)智能質(zhì)檢設(shè)備將全部應(yīng)用上百度昆侖芯片,而百度昆侖還將在更多場(chǎng)景中部署應(yīng)用,百度的AI能力將成為“新基建”的重要基礎(chǔ),推動(dòng)工業(yè)制造業(yè)的產(chǎn)業(yè)智能化升級(jí)。

    結(jié)尾:

    未來(lái)“昆侖”既將實(shí)現(xiàn)對(duì)數(shù)據(jù)中心、公有云等云端場(chǎng)景的全覆蓋,也將用于滿(mǎn)足自然語(yǔ)言處理、語(yǔ)音識(shí)別、自動(dòng)駕駛等終端場(chǎng)景的計(jì)算需求。此次“昆侖”能成功落地,有望形成人工智能芯片與平臺(tái)應(yīng)用相互促進(jìn)的良性循環(huán)。

    

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。