久久国产精品岛国搬运工,九九九好热在线

通用型AI芯片突破“內(nèi)存墻”瓶頸指日可待

日期： 2020-09-21

來(lái)源：半導(dǎo)體行業(yè)觀察

關(guān)鍵詞： 人工智能 ASIC 云端

　　當(dāng)下，人工智能（AI）產(chǎn)業(yè)正處于從起步向成熟階段的過(guò)渡時(shí)期，相關(guān)應(yīng)用也處于探索階段，因此，各種專用的AI芯片層出不窮。然而，如果要針對(duì)某一個(gè)應(yīng)用場(chǎng)景做ASIC化的產(chǎn)品，可能做出來(lái)的瞬間就已經(jīng)落后了。另外，因應(yīng)用所處環(huán)節(jié)不同，ASIC化并非完全不可行，例如在端側(cè)的一個(gè)固定應(yīng)用場(chǎng)景中，場(chǎng)景很明確就可通過(guò)ASIC的方式來(lái)做產(chǎn)品，但是，越靠近云端，應(yīng)用變化越大，在這樣的變化下很難部署某一ASIC化的處理器。無(wú)論是云端還是云邊端，或者企業(yè)應(yīng)用市場(chǎng)，都對(duì)算力要求非常高，因此，通用AI處理器就成為了更加合理的選擇。

　　與專用AI芯片相比，通用型AI處理器的應(yīng)用范圍更加廣闊，更代表著AI硬件的發(fā)展方向，在這一領(lǐng)域，當(dāng)下最為流行的便是GPU和CPU了。

　　隨著應(yīng)用需求向更廣和更深層面拓展，GPU在AI領(lǐng)域的應(yīng)用遇到了越來(lái)越明顯的瓶頸，首先，GPU和CPU屬于傳統(tǒng)處理器，并不是為AI計(jì)算專門(mén)設(shè)計(jì)的，在AI發(fā)展的初期階段，它們能夠勝任，但在接下來(lái)的第二、第三……發(fā)展階段，在更為復(fù)雜的模型和技術(shù)面前，其計(jì)算架構(gòu)局限性開(kāi)始逐步體現(xiàn)出來(lái)。

　　正是在這種背景下，IPU出現(xiàn)了。該處理器是由英國(guó)初創(chuàng)企業(yè)Graphcore發(fā)明的，旨在支持機(jī)器智能的新計(jì)算需求。其第一代IPU中的1200多個(gè)處理器內(nèi)核可以分別處理完全獨(dú)立的任務(wù)，并且能夠彼此通信以支持完整的多指令多數(shù)據(jù)并行操作。而這些正是下一代機(jī)器智能的基本要求。

　　日前在中關(guān)村論壇上，Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon和Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤受邀出席，并分別在中關(guān)村論壇云上論壇和全球科技青年論壇上發(fā)表演講。

　　據(jù)Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon介紹，IPU在訓(xùn)練和部署中都可以支持具備高效稀疏計(jì)算的大型模型。IPU不僅可以推動(dòng)創(chuàng)新開(kāi)發(fā)，還可以有效部署這些新模型，更高效的計(jì)算可以降低系統(tǒng)總成本。用戶可以在訓(xùn)練和推理中使用相同的IPU硬件，并且可以靈活更改每個(gè)CPU所調(diào)用的IPU數(shù)量。

　　總體來(lái)看，Graphcore的業(yè)務(wù)主要分為三部分：一，專為AI從零設(shè)計(jì)的IPU處理器；二 Poplar SDK和開(kāi)發(fā)工具；三，IPU平臺(tái)，例如IPU-Machine、可以通過(guò)浪潮和戴爾購(gòu)買的IPU服務(wù)器，以及可大規(guī)模橫向擴(kuò)展的IPU-Pod64。

　　今年7月，Graphcore發(fā)布了第二代 IPU（Mk2 IPU），Mk2 IPU是一個(gè)基于臺(tái)積電7nm制程技術(shù)的AI處理器，在823平方毫米的芯片上集成了594億個(gè)晶體管。Mk2 IPU擁有250 TFLOPS的AI算力，以及900MB的處理器內(nèi)存儲(chǔ)容量。這樣一個(gè)處理器里具有1472個(gè)獨(dú)立的處理器核心以及將近9000個(gè)獨(dú)立的并行處理器線程，相對(duì)于第一代IPU（Mk1 IPU），系統(tǒng)級(jí)性能提高了8倍以上。

　　該公司還新推出了IPU-Machine: M2000（IPU-M2000），這是一款纖巧的數(shù)據(jù)中心刀片，能夠提供1 PFLOP的AI計(jì)算能力，并通過(guò)專用IPU內(nèi)置了AI橫向擴(kuò)展網(wǎng)絡(luò)架構(gòu)IPU-Fabric。無(wú)論您是僅需要一臺(tái)IPU-M2000的初創(chuàng)公司，還是希望將數(shù)千臺(tái)IPU-M2000連接在一起的云公司，IPU-Machine：M2000（IPU-M2000）都可以滿足您的需求。

　　技術(shù)亮點(diǎn)

　　與競(jìng)品相比，IPU在存儲(chǔ)、通用性、軟件支持和生態(tài)方面有諸多亮點(diǎn)。

　　在存儲(chǔ)方面，GPU在進(jìn)行AI計(jì)算時(shí)，使用的是HBM，它能夠?qū)崿F(xiàn)每秒1.6 TB的帶寬和40 GB的容量。Graphcore則提出了一個(gè)創(chuàng)新的概念：IPU Exchange Memory。據(jù)Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤（Jason Lu）介紹：IPU Exchange Memory包含了片上存儲(chǔ)和流存儲(chǔ)，一個(gè)IPU-Machine：M2000的系統(tǒng)能提供每秒180 TB的帶寬以及450 GB的容量，與GPU相比，在帶寬和容量上都有非常大的提升。

　　具體來(lái)看，Graphcore提出的IPU Exchange Memory由兩種存儲(chǔ)構(gòu)成，一種是處理器內(nèi)存儲(chǔ)（In-Processor Memory），就是片上存儲(chǔ)，另外一種是流存儲(chǔ)（Streaming Memory）。Mk2 IPU集成了900 MB的片上存儲(chǔ)，而主流CPU的每個(gè)芯片上存儲(chǔ)可能只有幾十M。

　　與DDR或HBM相比，充足的片上存儲(chǔ)能夠提供50~100倍的帶寬提升和時(shí)延的降低，Mk2 IPU中，存儲(chǔ)和計(jì)算之間的距離大大縮短了。900 MB的片上存儲(chǔ)和流存儲(chǔ)使得大規(guī)模擴(kuò)展成為可能。

　　CPU系統(tǒng)里面有一個(gè)MMU（內(nèi)存管理單元，Memory Management Unit），其中有一個(gè)很重要的單位是TLB，TLB和外存之間能夠進(jìn)行Pageant操作。因?yàn)镸k2 IPU擁有900 MB的片上存儲(chǔ)，可以通過(guò)遠(yuǎn)端的流存儲(chǔ)來(lái)擴(kuò)展幾百GB的存儲(chǔ)空間。而不需要像GPU或CPU那樣，32 MB或者64 MB的片上存儲(chǔ)需要不停地跟DDR，HBM做數(shù)據(jù)交互。

　　通過(guò)Mk2 IPU內(nèi)片上存儲(chǔ)和流存儲(chǔ)技術(shù)相結(jié)合，IPU-M2000可獲得總共450 GB的容量，片上存儲(chǔ)帶寬也獲得了較大的提升。

　　對(duì)于與競(jìng)品的對(duì)比，盧濤提到了一個(gè)IPU的亮點(diǎn)，他表示：“NVIDIA聲稱他們構(gòu)建的新數(shù)據(jù)格式TF32可以提高FP32算力。我們則認(rèn)為，最標(biāo)準(zhǔn)的事情是最開(kāi)放的，例如FP32是IEEE規(guī)定的數(shù)據(jù)格式，開(kāi)發(fā)者能夠基于FP32用GPU、IPU、CPU來(lái)進(jìn)行計(jì)算，但如果開(kāi)發(fā)者使用NVIDIA的TF32數(shù)據(jù)格式，就把自己困住了?！?/p>

　　在性價(jià)比比方面，IPU也有優(yōu)勢(shì)。盧濤用EfficientNet-B4的訓(xùn)練做了一個(gè)對(duì)比，如希望達(dá)到EfficientNet-B4在8個(gè)IPU-M2000的訓(xùn)練吞吐量，需要投資16個(gè)DGX A100，也就是超過(guò)300萬(wàn)美金的費(fèi)用，外加相應(yīng)的電費(fèi)等其它花費(fèi)。也就是說(shuō)，如果使用DGX A100，為獲取8個(gè)IPU-M2000的EfficientNet-B4計(jì)算性能，需要投入10倍以上的花費(fèi)。

　　在軟件和開(kāi)發(fā)環(huán)境支持方面，Graphcore從零設(shè)計(jì)了以計(jì)算圖（Graph）為核心的Poplar SDK，能夠方便用戶不論是使用單個(gè)IPU-M2000，還是單張PCIe卡，乃至1000個(gè)，甚至上萬(wàn)個(gè)IPU，都能獲得完全一致的用戶體驗(yàn)。Poplar SDK向上對(duì)接TensorFlow、PyTorch、ONNX、PaddlePaddle等行業(yè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架。

　　今年7月，Graphcore開(kāi)放了PopLibs源代碼。盧濤表示：“Graphcore精神的一部分是將權(quán)力交給AI開(kāi)發(fā)人員，方便他們自己進(jìn)行修改、優(yōu)化、創(chuàng)新。同時(shí)，Graphcore也在大力發(fā)展IPU開(kāi)發(fā)者社區(qū)，其中很重要的一部分是已經(jīng)在中國(guó)上線的IPU開(kāi)發(fā)者云，可提供浪潮IPU服務(wù)器NF5568M5、戴爾IPU服務(wù)器DSS8440、以及IPU-Pod64等不同機(jī)型。IPU開(kāi)發(fā)者云目前已經(jīng)開(kāi)放申請(qǐng)使用了。

　　開(kāi)發(fā)者能夠非常便捷地獲取IPU，主要有兩種方式：一是通過(guò)云，目前可以通過(guò)微軟Azure和金山云來(lái)獲取IPU；二是通過(guò)戴爾或浪潮的IPU服務(wù)器構(gòu)建用戶自己的私有云或自己預(yù)置的計(jì)算資源。

　　談到開(kāi)放性和創(chuàng)新性，盧濤表示：”Graphcore的IPU平臺(tái)，無(wú)論IPU-M2000還是IPU-Pod64，在設(shè)計(jì)過(guò)程中都考慮到了芯片、系統(tǒng)、集群及軟硬件結(jié)合的問(wèn)題。Graphcore致力于賦能AI創(chuàng)新者進(jìn)行新突破，如果僅僅沿著GPU的路線走，只能通過(guò)有限的方式來(lái)進(jìn)行一些嘗試。所以，為創(chuàng)新者、開(kāi)發(fā)者、研究者提供支持是Graphcore研發(fā)的重要?jiǎng)恿?。如果是由于硬件桎梏?dǎo)致您的優(yōu)秀作品無(wú)法達(dá)到理想性能，Graphcore歡迎開(kāi)發(fā)者在IPU上進(jìn)行探索和嘗試?！?/p>

　　客戶

　　談到IPU的應(yīng)用，盧濤表示，目前，IPU在超大規(guī)模數(shù)據(jù)中心與互聯(lián)網(wǎng)、高校及研究機(jī)構(gòu)、醫(yī)療及生命科學(xué)、金融、汽車這五大領(lǐng)域中發(fā)展較快，也受到了很多關(guān)注。到目前為止，Graphcore共發(fā)貨IPU處理器超過(guò)一萬(wàn)顆，服務(wù)全球100多家不同機(jī)構(gòu)。

　　”我們的一位早期客戶，Carmot Capital在使用我們的產(chǎn)品訓(xùn)練其金融市場(chǎng)預(yù)測(cè)模型時(shí)，性能提升了26倍?！氨R濤說(shuō)，”微軟在使用IPU幫助診斷肺炎和COVID-19的胸部X光影像時(shí)，速度提高了10倍，且準(zhǔn)確性大大超過(guò)GPU。“

　　微軟是Graphcore的早期的合作者，他們不僅將IPU技術(shù)用于其內(nèi)部AI工作負(fù)載，還在2019年11月將IPU提供給其Azure云計(jì)算平臺(tái)的用戶使用，從而加速了AI創(chuàng)新者的工作。

　　另外，微軟、寶馬、博世、戴爾和三星等許多了解創(chuàng)新與應(yīng)用之間關(guān)系的公司，都對(duì)Graphcore進(jìn)行了投資。

　　中國(guó)業(yè)務(wù)

　　對(duì)于中國(guó)市場(chǎng)，Nigel Toon直言：”新技術(shù)的最直接需求就在中國(guó)。中國(guó)在人工智能領(lǐng)域處于領(lǐng)先地位，中國(guó)認(rèn)識(shí)到，人工智能創(chuàng)新與長(zhǎng)遠(yuǎn)經(jīng)濟(jì)發(fā)展密不可分。目前，Graphcore的技術(shù)已經(jīng)開(kāi)始為一些非常成功的中國(guó)公司提供支持，并將助力推動(dòng)中國(guó)那些發(fā)展最快、最具創(chuàng)新性的AI初創(chuàng)企業(yè)。不久以后，我們將能夠更多地談?wù)撘恍〨raphcore在中國(guó)的合作伙伴，并分享我們合作的細(xì)節(jié)?！?/p>

　　Graphcore的中文名定為”擬未“，該公司正在壯大中國(guó)團(tuán)隊(duì)，以便為客戶提供完全本地化的響應(yīng)和支持。Nigel Toon表示：”我們的目標(biāo)是將擬未打造成一家重要的中國(guó)公司?！?/p>

　　中國(guó)高校合作方面，在IPU開(kāi)發(fā)者云上線之后，Graphcore大概收到了三、四十所高校的頂尖AI實(shí)驗(yàn)室和研究機(jī)構(gòu)的使用申請(qǐng)。Graphcore已開(kāi)始與一部分機(jī)構(gòu)探討合作，有一些機(jī)構(gòu)已在IPU開(kāi)發(fā)者云上開(kāi)展工作。

　　應(yīng)用場(chǎng)景方面，盧濤認(rèn)為中國(guó)市場(chǎng)在自然語(yǔ)言處理相關(guān)的應(yīng)用方面發(fā)展非常迅速，且潛力巨大，對(duì)訓(xùn)練的算力要求也非常高，這對(duì)IPU而言非常重要。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

通用型AI芯片突破“內(nèi)存墻”瓶頸指日可待

日期： 2020-09-21

來(lái)源：半導(dǎo)體行業(yè)觀察

相關(guān)內(nèi)容