123,123

AI芯片架構(gòu)競相走向邊緣

日期： 2018-11-30

關(guān)鍵詞： 芯片架構(gòu) AI 物聯(lián)網(wǎng)

各大公司競相將各種芯片架構(gòu)作為將AI推向邊緣的首選武器。

隨著機器學習應(yīng)用開始出現(xiàn)在終端設(shè)備和物聯(lián)網(wǎng)網(wǎng)絡(luò)邊緣，實現(xiàn)AI的加速器可能看起來更像FPGA和SoC模組，而不是英特爾和英偉達目前的數(shù)據(jù)中心綁定芯片（data-center-bound chip）。

人工智能和機器學習需要功能強大的芯片來從大數(shù)據(jù)集中計算答案。大多數(shù)AI芯片——包括訓練和推理——都是為數(shù)據(jù)中心開發(fā)的。然而，這種趨勢很快就會改變。其中很大一部分處理將發(fā)生在邊緣，即網(wǎng)絡(luò)的邊緣或傳感器和傳感器陣列的內(nèi)部或附近。

幾乎可以肯定，訓練將留在云端，因為對于這一大塊資源的最有效產(chǎn)品是英偉達的GPU，它主導著這一部分市場。盡管數(shù)據(jù)中心可能會承擔包含大量數(shù)據(jù)集的訓練部分，但推理可能最終會交給邊緣。市場預(yù)測似乎同意這一點。

Tractica公司研究主管、邊緣設(shè)備AI報告的作者Aditya Kaul說：“推理硬件市場是一個新市場，但變化迅速。數(shù)據(jù)中心有一些機會，并將繼續(xù)存在。基于云的數(shù)據(jù)中心AI芯片市場將繼續(xù)增長。但是推理處于邊緣，這里開始變得引人注目。至少有70家專業(yè)人工智能公司正在研究某種與芯片相關(guān)的人工智能技術(shù)?！?/p>

Kaul說：“在邊緣，智能手機、機器人、無人機、相機、安全攝像頭等所有需要AI處理的設(shè)備都將成為未來的熱點?！?/p>

微信圖片_20181130194506.jpg

圖1：按市場領(lǐng)域劃分的深度學習芯片組收入。（來源：Tractica）

到2025年，基于云的AI芯片組將帶來146億美元的收入，而基于邊緣的AI芯片組將帶來516億美元的收入，是數(shù)據(jù)中心的3.5倍，邊緣AI芯片組主要由手機、智能音箱、無人機、AR/VR耳機，以及其他所有需要AI處理的設(shè)備組成。

雖然英偉達和英特爾現(xiàn)在可能主導基于數(shù)據(jù)中心的機器學習應(yīng)用的市場，誰將占據(jù)遠離數(shù)據(jù)中心的邊緣計算AI市場？那些芯片會是什么樣子？

AI邊緣芯片需要做什么

根據(jù)Semico Research公司ASIC和SoC分析師Rich Wawrzyniak所言，邊緣計算、物聯(lián)網(wǎng)和消費終端設(shè)備將需要以相對較低的功耗、價格和較小芯片尺寸進行高性能推理處理。這很困難，特別是因為邊緣設(shè)備處理的大多數(shù)數(shù)據(jù)是龐大的視頻和音頻數(shù)據(jù)。

Wawrzyniak說：“數(shù)據(jù)很多，但如果你有監(jiān)控攝像頭，它必須能夠?qū)崟r識別出壞人，而不是把一張照片發(fā)送到云端，然后等著看有沒有人認出他?！?/p>

微信圖片_20181130194537.jpg

圖2 （來源：Barclays Research于2018年5月的報告，由Xilinx提供）

將ML級別的智能添加到邊緣設(shè)備的一些愿望來自于需要將這些設(shè)備上的數(shù)據(jù)保密，或者降低將數(shù)據(jù)發(fā)送到云端的成本。然而，大部分需求來自那些希望設(shè)備位于邊緣計算設(shè)施或掌握在客戶手中的客戶，他們不希望設(shè)備簡單地收集數(shù)據(jù)并定期將其發(fā)送到云端，以便他們可以直接與公司自己的數(shù)據(jù)或其他客戶和路人進行實時交互。

NXP半導體AI技術(shù)主管Markus Levy表示：“客戶意識到，他們不想把大量處理工作轉(zhuǎn)移到云端，因此他們認為邊緣是真正的目標。既然你可以在邊緣實現(xiàn)AI，你就可以把物聯(lián)網(wǎng)變成真正具有能力的東西。我們看到消費者物聯(lián)網(wǎng)、工業(yè)物聯(lián)網(wǎng)以及嵌入式的增長非常快，這是我們最大的增長領(lǐng)域?！?/p>

據(jù)IDC分析師Shane Rau稱，今年接受IDC調(diào)查的商業(yè)技術(shù)客戶表示，他們確定會把機器學習轉(zhuǎn)移到邊緣設(shè)備上，主要是汽車、智能家居、視頻監(jiān)控攝像頭和智能手機。該公司的客戶調(diào)查將這四種設(shè)備列為ML的候選設(shè)備。

邊緣AI架構(gòu)發(fā)展趨勢

邊緣計算的需求范圍可能包括數(shù)億計的工業(yè)和消費設(shè)備，因此任何單一的架構(gòu)都不太可能滿足所有這些需求。

NXP的Levy表示：在微控制器和相對低端的芯片上運行推理模型是可以的，但大多數(shù)機器學習功能需要從基于FPGA、ASIC和其他SoC配置的一長串可選CPU附加項，以及GPU和CPU的組合，有時還需要由Google的TPU等特殊用途的ASIC來增強。

大部分的增強都是以加速器的形式出現(xiàn)的。這些FPGA、SoC、ASIC和其他專用芯片旨在幫助資源受限的基于x86的設(shè)備通過一層接一層的分析標準處理大量圖像或音頻數(shù)據(jù)，因此app可以正確地計算和加權(quán)每個數(shù)據(jù)的值。

英特爾和英偉達已經(jīng)向邊緣AI市場發(fā)起沖擊。Kaul說，像英偉達的Jetson這樣的產(chǎn)品并不能令人信服。Jetson是一個GPU模塊平臺，具有7.5W的功率預(yù)算，只有英偉達更典型產(chǎn)品的70W功率的一小部分，但對于一般不超過5W的邊緣應(yīng)用來說還是太高了。

Levy說：“有很多IP公司正在為神經(jīng)網(wǎng)絡(luò)尋求加速，因此有足夠的選擇使加速器開始成為邊緣設(shè)備推理的需求?！?/p>

微信圖片_20181130194555.jpg

圖3：按類別劃分的AI邊緣設(shè)備出貨量。（來源：Tractica）

但是，要想在潛在的億萬個設(shè)備上添加ML加速和支持，將需要更多的可定制性、更低的成本，以及更專門針對資源受限設(shè)備上ML應(yīng)用需求的規(guī)范——這意味著，如果要取得成功，整個市場將需要更好的處理器。

神經(jīng)推理需要數(shù)萬億次乘法累加運算，因為模型從其公式矩陣的一層提取數(shù)據(jù)，盡管每一層可能需要不同的數(shù)據(jù)大小，而且其中一些設(shè)備可能在輸入設(shè)置為8位整數(shù)而不是16位整數(shù)時運行得更快。

Flex Logix聯(lián)合創(chuàng)始人兼首席執(zhí)行官Geoff Tate表示：“為了在數(shù)據(jù)中心獲得良好的吞吐量，大多數(shù)架構(gòu)依賴于必須使用相同的權(quán)重集來創(chuàng)建批處理的數(shù)十或數(shù)百個任務(wù)。如果你有28張圖片，你加載圖片，加載第一階段的權(quán)重，對第一階段做數(shù)學運算，保存結(jié)果，然后加載第二階段的權(quán)重。通過在每一層上完成所有28個批次，你可以將權(quán)重加載時間縮減到一次只加載一個的1/28。如果加載和管理權(quán)重是你不擅長的，那么你可以通過批處理來解決它。這就是為什么你會看到基準測試顯示第28批的運行效率低于第1批。如果加載權(quán)重的速度很慢，則難以擴展。但在數(shù)據(jù)中心之外的任何地方都必須這樣做。如果你有監(jiān)控攝像頭，則必須在圖像傳入時對其進行處理，以便批大小始終等于1。如果你在測量性能，則數(shù)據(jù)中心外的批大小始終等于1?！?/p>

Flex Logix開發(fā)的神經(jīng)網(wǎng)絡(luò)引擎可以避免批處理問題。Tate說：“因為我們加載權(quán)重的速度非?？?，所以我們不需要進行批處理，我們的性能在第1批和第28批時相同，這在邊緣應(yīng)用中非常重要。”

推理硬件方面的兩項新工作

Xilinx試圖利用其在FPGA和系統(tǒng)級設(shè)計方面的經(jīng)驗，推出新的產(chǎn)品系列和路線圖，以滿足盡可能多的邊緣/設(shè)備市場的需求。

Xilinx在去年春天討論了這個想法，但直到10月才正式宣布，該公司描述了一個自適應(yīng)計算加速平臺，該平臺“利用CPU、GPU和FPGA的力量來加速一切應(yīng)用”。

Xilinx的演示描述了一個廣泛的產(chǎn)品線、使用案例列表和有關(guān)其AI引擎核心的詳細信息，其目標是提供比傳統(tǒng)方法的單位芯片面積高出3~8倍的性能，并提供高性能DSP能力。

與此同時，F(xiàn)lex Logix創(chuàng)建了一個使用低DRAM帶寬的可重構(gòu)神經(jīng)加速器。芯片的面積和功率的目標規(guī)格將在明年上半年完成，并在下半年流片。推理引擎將充當CPU，而不僅僅是一個更大，更漂亮的加速器。它提供了模塊化、可擴展的架構(gòu)，旨在通過減少移動數(shù)據(jù)的需要以及通過改進數(shù)據(jù)和矩陣計算的加載方式來減少瓶頸，從而降低移動數(shù)據(jù)的時間和精力成本。

該芯片將DRAM專用于單個處理器塊，而不是將其作為一個大內(nèi)存池進行管理。DRAM不能同時將數(shù)據(jù)饋送到芯片的多個部分。Tate說：“將DRAM作為流入一個處理器塊的大內(nèi)存池處理，這是范諾依曼架構(gòu)的典型特征，但它不會成為神經(jīng)網(wǎng)絡(luò)的成功架構(gòu)?！?/p>

早期

Wawrzyniak表示，Xilinx，F(xiàn)lex Logix和其他公司蜂擁到了一個仍處于發(fā)展中的邊緣推理市場，顯示出市場和SoC、FPGA制造商提供良好技術(shù)以應(yīng)對它們的能力的廣泛信心，但這并不能保證他們能夠克服安全、隱私、現(xiàn)狀的慣性和其他無形的問題。同樣，F(xiàn)PGA、ASIC和SoC加速ML的市場仍處于起步階段。

Linley Group的Linley GwenNap表示，當一個新市場發(fā)展起來時，看到許多新的參與者和新方法是正常的。FPGA和ASIC供應(yīng)商也在其中，因為這些技術(shù)使一家知道自己在做什么的公司能夠快速生產(chǎn)出合理的產(chǎn)品。不過，標準最終將在一兩年內(nèi)回歸，這將穩(wěn)定所涉及的參與者的數(shù)量和專長，并確保與其他市場的互通性。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

AI芯片架構(gòu)競相走向邊緣

日期： 2018-11-30

相關(guān)內(nèi)容