123,123,123

從蘋果A14 SoC看AI算力的新摩爾定律

日期： 2020-09-21

來源：半導(dǎo)體行業(yè)觀察

關(guān)鍵詞： 蘋果 A14

　　最近蘋果在發(fā)布會上公開了新的A14 SoC。根據(jù)發(fā)布會，該SoC將用于新的iPad上，而根據(jù)行業(yè)人士的推測該SoC也將會用在新的iPhone系列中。除了常規(guī)的CPU和GPU升級之外，A14最引人注目的就是Neural Engine的算力提升。我們認(rèn)為，蘋果A系列SoC在近幾年內(nèi)Neural Engine的算力增長可以作為一種新的AI算力范式，成為新的摩爾定律。

　　A14上的新Neural Engine

　　蘋果公布的A14 SoC使用5nm工藝，而新的Neural Engine則使用16核心設(shè)計，其峰值算力可達(dá)11 TOPS，遠(yuǎn)超上一代的Neural Engine（6TOPS）。在發(fā)布會上，蘋果明確表示該Neural Engine主要支持加速矩陣相乘。此外，蘋果還表示新的Neural Engine結(jié)合CPU上的機器學(xué)習(xí)加速，可以將實際的AI應(yīng)用體驗相對于前代提升十倍。

　　新的Neural Engine的峰值算力大大提升可以說是有些意料之外，但是又是情理之中。意料之外是因為A14的其它關(guān)鍵指標(biāo)，例如CPU和GPU等相對于前一代A13的提升并不多（發(fā)布會上給出的30%提升對比的是再前一代的A12 SoC，如果直接和上一代A13相比則CPU性能提升是16%而GPU則是10%左右），但是Neural Engine的性能提升則接近100%。而Neural Engine性能提升大大超過SoC其他部分是情理之中則是因為我們認(rèn)為如果仔細(xì)分析SoC性能提升背后的推動力，則可以得出Neural Engine性能大幅提升是非常合理的。一方面，從應(yīng)用需求側(cè)來說，對應(yīng)CPU和GPU的相關(guān)應(yīng)用，例如游戲、網(wǎng)頁瀏覽、視頻等在未來可預(yù)見的幾年內(nèi)都沒有快速的需求增長，唯有人工智能有這樣的需求。另一方面，CPU和GPU的性能在給定架構(gòu)下的性能提升也較困難，很大一部分提升必須靠半導(dǎo)體工藝，而事實上半導(dǎo)體工藝的升級在未來幾年內(nèi)可預(yù)期將會越來越慢，每代工藝升級更注重于晶體管密度以及功耗，在晶體管性能方面的提升將越來越小。而AI加速器則還有相當(dāng)大的設(shè)計提升空間，相信在未來幾年仍將會有算力快速增長。

　　Neural Engine算力增長趨勢

　　我們不妨回顧一下過去幾代A系列SoC中Neural Engine的算力增長。

　　最早加入Neural Engine的SoC是2017年發(fā)布的A11。該SoC使用10nm工藝，搭載第一代Neural Engine峰值算力為0.6TOPS，Neural Engine的芯片面積為1.83mm2。當(dāng)時Neural Engine主要針對的應(yīng)用是iPhone新推出的人臉識別鎖屏FaceID以及人臉關(guān)鍵點追蹤Animoji，且Neural Engine的算力并不對第三方應(yīng)用開放。

　　第二代Neural Engine則是在2018年的A12 SoC上。該SoC使用7nm工藝，Neural Engine面積為5.8mm2，而其峰值算力則達(dá)到了5TOPS，相比前一代的Neural Engine翻了近10倍。而根據(jù)7nm和10nm工藝的晶體管密度折算則可以估計出Neural Engine的晶體管數(shù)量大約也是增加了6-7倍，基本和算力提升接近。

　　第三代Neural Engine是2019年的A13，使用第二代N7工藝，其面積相比上一代減少到了4.64mm2，而算力則增加到了6TOPS。我們認(rèn)為這一代的Neural Engine是上一代的小幅改良版本，并沒有做大幅升級。

　　最近公布的A14則搭載了最新一代的Neural Engine，使用5nm工藝，Neural Engine的具體面積尚沒有具體數(shù)字，但是其算力則是達(dá)到了11TOPS，是上一代的接近兩倍。

　　從上面的分析可以看出Neural Engine每次主要升級都伴隨著算力的大幅上升，第一次上升了近十倍，而第二次則上升了近兩倍。如果按照目前兩年一次主要升級的節(jié)奏，我們認(rèn)為在未來數(shù)年內(nèi)Neural Engine乃至于廣義的AI芯片市場都會有每兩年性能提升兩倍的規(guī)律，類似半導(dǎo)體的摩爾定律。我們認(rèn)為，這樣的規(guī)律可以認(rèn)為是AI芯片算力的新摩爾定律。

　　為什么AI芯片算力增長會成為新的摩爾定律

　　AI芯片算力指數(shù)上升的主要驅(qū)動力還是主流應(yīng)用對于AI的越來越倚重，以及AI神經(jīng)網(wǎng)絡(luò)模型對于算力需求的快速提升。

　　應(yīng)用側(cè)對于AI的需求正在越來越強。就拿智能設(shè)備為例，2017年蘋果A11中AI的主要應(yīng)用還是面部關(guān)鍵點識別和追蹤，而到了2018年開始越來越多的應(yīng)用開始使用AI，包括圖像增強、拍攝虛化效果等，在下一代智能設(shè)備中AI則更加普及，首先從人機交互來看，下一代智能設(shè)備中常見的人機交互方式手勢追蹤、眼動追蹤、語音輸入等都需要AI，這就大大增加了AI算法的運行頻率以及算力需求。此外，下一代智能設(shè)備中有可能會用到的一系列新應(yīng)用都倚重AI，包括游戲、增強現(xiàn)實等應(yīng)用中，都需要運行大量的AI模型例如SLAM，關(guān)鍵點識別、物體檢測和追蹤、姿勢識別和追蹤等等。

　　另一方面，AI對于算力的需求也在快速提升。根據(jù)HOT CHIPS 2020上的特邀演講，AI模型每年對于算力需求的提升在10倍左右，因此可以說AI模型對于硬件加速的需求非常強。

　　如果我們從另一個角度考慮，這其實就意味著AI加速芯片的算力提升在賦能新的場景和應(yīng)用——因為總是有新的性能更高的AI模型需要更強的硬件去支持，而一旦支持了這樣的新模型則又能賦能新的應(yīng)用。從目前主流的計算機視覺相關(guān)的AI，到以BERT為代表的大規(guī)模自然語言處理算法，以及未來可能出現(xiàn)的將BERT和計算機視覺相結(jié)合的視覺高階語義理解等等，我們在未來幾年內(nèi)尚未看到AI模型進(jìn)步的停止以及可能的新應(yīng)用場景的出現(xiàn)，相反目前的瓶頸是AI加速硬件性能跟不上。這也就意味著，AI加速硬件才是AI模型落地的最終賦能者，這就像當(dāng)年摩爾定律大躍進(jìn)的PC時代，當(dāng)時每一次CPU處理器的進(jìn)步都意味著PC上能運行更多的應(yīng)用，因此我們看到了CPU性能在當(dāng)時的突飛猛進(jìn)；今天這一幕又重現(xiàn)了，只是今天的主角換成了AI加速芯片。

　　AI算力增長來自何方？

　　分析完了AI加速芯片的需求側(cè)，我們不妨再來看看供給側(cè)——即目前的技術(shù)還能支持AI芯片多少算力提升？

　　首先，AI加速器芯片和傳統(tǒng)CPU的一個核心差異在于，CPU要處理的通用程序中往往很大一部分難以并行化，因此即使增加CPU的核心數(shù)量，其性能的增加與核心數(shù)也并非線性關(guān)系；而AI模型的計算通常較為規(guī)整，且很容易就可以做并行化處理，因此其算力提升往往與計算單元數(shù)量呈接近線性的關(guān)系。這在我們之前對比A11和A12 Neural Engine的晶體管數(shù)量和算力提升之間的關(guān)系也有類似的結(jié)論。目前，以Neural Engine為代表的AI加速器占芯片總面積約為5%，未來如果AI加速器的面積能和GPU有類似的面積（20%左右），則AI加速器的計算單元數(shù)量也即算力至少還有4倍的提升空間。此外，如果考慮兩年兩倍的節(jié)奏并考慮未來幾年內(nèi)可能會落地的3nm工藝，則我們認(rèn)為AI加速器算力兩年兩倍的提升速度從這方面至少還有5-6年的空間可挖。

　　除了單純增加計算單元數(shù)目之外，另一個AI加速器算力重要的提升空間來自于算法和芯片的協(xié)同設(shè)計。從算法層面，目前主流的移動端模型使用的是8-bit計算精度，而在學(xué)術(shù)界已經(jīng)有許多對于4-bit甚至1-bit計算的研究都取得了大幅降低計算量和參數(shù)量的同時幾乎不降低模型精度。另外，模型的稀疏化處理也是一個重要的方向，目前許多模型經(jīng)過稀疏化處理可以降低50-70%的等效計算量而不降低精度。因此如果考慮模型和芯片和協(xié)同設(shè)計并在加速器中加入相關(guān)的支持（如低精度計算和稀疏化計算），我們預(yù)計還能在計算單元之外額外帶來至少10倍等效算力提升。

　　最后，當(dāng)峰值算力的潛力已經(jīng)被充分挖掘之后，還有一個潛力方向是針對不同AI模型的專用化設(shè)計，也即異構(gòu)設(shè)計。AI模型中，常用于機器視覺的卷積神經(jīng)網(wǎng)絡(luò)和常用于機器翻譯/語音識別的循環(huán)卷積網(wǎng)絡(luò)無論是在計算方法還是內(nèi)存訪問等方面都大相徑庭，因此如果能做專用化設(shè)計，則有可能在峰值算力不變的情況下，實際的計算速度仍然取得數(shù)倍的提升。

　　結(jié)合上面討論的一些方向，我們認(rèn)為AI加速芯片的算力在未來至少還有數(shù)十倍甚至上百倍的提升空間，再結(jié)合之前討論的應(yīng)用側(cè)對于算力的強烈需求，我們認(rèn)為在未來數(shù)年內(nèi)都會看到AI加速芯片的算力一兩年翻倍地指數(shù)上升。在這一領(lǐng)域，事實上中國的半導(dǎo)體行業(yè)有很大的機會。如前所述，AI芯片性能提升主要來自于設(shè)計的提升而非工藝提升，而中國無論是在半導(dǎo)體電路設(shè)計領(lǐng)域還是AI模型領(lǐng)域都并不落后，因此有機會能抓住這個機會。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

從蘋果A14 SoC看AI算力的新摩爾定律

日期： 2020-09-21

來源：半導(dǎo)體行業(yè)觀察

相關(guān)內(nèi)容