為了改善電腦系統(tǒng)在資料處理上的效能,科學(xué)家將主意打到了人類的神經(jīng)網(wǎng)絡(luò)上。這個(gè)念頭并不是神來一筆,而是觀察到人類的腦神經(jīng)在處理視覺、聽覺和語言方面,有非常卓越的表現(xiàn)。
這種參考人類神經(jīng)元結(jié)構(gòu)所產(chǎn)生的資料處理程序,被稱為「類神經(jīng)網(wǎng)絡(luò)」或者「人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)」,它就是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的數(shù)學(xué)模型的演算法。
ANN技術(shù)其實(shí)已問世超過50年,且不斷的進(jìn)行改良和突破,例如卷積類神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)就是相當(dāng)著名的一支,由于它的結(jié)構(gòu)簡(jiǎn)單易用,因此發(fā)展迅速,并被廣泛的運(yùn)用在大型圖像的處理上。
到了近幾年,隨著芯片技術(shù)的突破和人工智能應(yīng)用的崛起,讓神經(jīng)網(wǎng)絡(luò)技術(shù)又進(jìn)一步受到重視。目前主要的推力則是機(jī)器學(xué)習(xí)(Machine Learning),它是人工智能的基礎(chǔ)所在,而機(jī)器學(xué)習(xí)的核心是基于神經(jīng)網(wǎng)絡(luò)的多層資料處理技術(shù)的「深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network)」,也因此,想辦法來提升神經(jīng)網(wǎng)絡(luò)資料處理的效能,就成了目前各家終端產(chǎn)品設(shè)計(jì)的突破點(diǎn)。
而眼前,最火熱的戰(zhàn)場(chǎng),就是智能型手機(jī)。
神經(jīng)網(wǎng)絡(luò)智能手機(jī)的新賣點(diǎn)
神經(jīng)網(wǎng)絡(luò)運(yùn)算有多項(xiàng)優(yōu)勢(shì),包含平行處理、內(nèi)容定址記憶、容錯(cuò)特性、能處理一般演算法難以勝任的問題等,因此很適合運(yùn)用在經(jīng)常需要處理非常復(fù)雜的任務(wù)的應(yīng)用上,而手機(jī)就是一個(gè)這樣的產(chǎn)品。
智能手機(jī)是當(dāng)代人們每天都要隨身的電子裝置,它不僅時(shí)時(shí)要能連線上網(wǎng),而且經(jīng)常會(huì)同時(shí)開啟多個(gè)App軟件,影像和語音的處理更是家常便飯。而隨著人工智能功能的導(dǎo)入,更讓手機(jī)功能的優(yōu)化與執(zhí)行變得復(fù)雜,此時(shí),神經(jīng)網(wǎng)絡(luò)技術(shù)就成了最好的解決方案之一。
由于神經(jīng)網(wǎng)絡(luò)技術(shù)具有自我學(xué)習(xí)的能力,能學(xué)習(xí)使用者的操作特性,并設(shè)定出一個(gè)最佳的輸入和輸出的路徑。因此一旦學(xué)習(xí)完成之后,后續(xù)的各項(xiàng)操作皆能相對(duì)以往的軟件程序快上不少,對(duì)于使用者體驗(yàn)有大幅的改善。
目前主要的手機(jī)處理芯片供應(yīng)商也已經(jīng)在其解決方案中,加入了神經(jīng)網(wǎng)絡(luò)處理器的技術(shù)。
蘋果Bionic處理器加入神經(jīng)網(wǎng)絡(luò)引擎
蘋果的iPhone就是最著名的產(chǎn)品。蘋果在2017年的iPhone A11 Bionic處理器上首度加入了神經(jīng)網(wǎng)絡(luò)處理引擎(Neural Engine)的技術(shù)。根據(jù)蘋果的資料,這個(gè)神經(jīng)網(wǎng)絡(luò)引擎是一個(gè)雙核的設(shè)計(jì),每秒運(yùn)算次數(shù)最高可達(dá)6000億次,能大幅提升機(jī)器學(xué)習(xí)的效能。
圖一: 蘋果最新的A12處理器,神經(jīng)網(wǎng)絡(luò)引擎的核心數(shù)已達(dá)8個(gè)。(source: Apple)
而實(shí)際的使用情形也證實(shí)蘋果所言不假,神經(jīng)網(wǎng)絡(luò)處理技術(shù)的的確確讓機(jī)器學(xué)習(xí)有了脫胎換骨的表現(xiàn)。也因此,蘋果最新一代的處理器A12更進(jìn)一步增強(qiáng)了神經(jīng)網(wǎng)絡(luò)處理單元的性能,更正確的說,是增加了4倍。
在硬件設(shè)計(jì)上,蘋果的神經(jīng)網(wǎng)絡(luò)引擎是透過一塊FPGA區(qū)域來達(dá)成,因此在機(jī)器學(xué)習(xí)性能上有很強(qiáng)的自定義能力。而在最新使用7納米制程的A12處理器上,神經(jīng)網(wǎng)絡(luò)引擎的核心數(shù)已達(dá)8個(gè)(A11是雙核),且每秒可進(jìn)行5萬億次運(yùn)算(約8.33倍),至于執(zhí)行Core ML的速度則是上一代的9倍,但功耗卻只有前代的十分之一。
圖二: 各家芯片商的神經(jīng)網(wǎng)絡(luò)運(yùn)算技術(shù)比較。
也因?yàn)槿绱?,采用A12處理器的iPhone學(xué)習(xí)能力驚人,除了能快速甚至即時(shí)的運(yùn)行各項(xiàng)應(yīng)用程式外,更能夠迅速的辨認(rèn)模式并做出預(yù)測(cè),且不斷的進(jìn)行改良,堪稱是當(dāng)代最聰明的智能型手機(jī)。也由于新的處理器,iPhone在智能語音和影像辨識(shí)的能力有了絕倫的表現(xiàn)。
高通驍龍NPE技術(shù)以DSP突破運(yùn)算性能
神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì)明顯,各家手機(jī)處理器芯片商當(dāng)然也就陸續(xù)投入相關(guān)的技術(shù)研發(fā),高通(Qualcomm)就是其中一個(gè)。旗下的驍龍(Snapdragon)處理器就已經(jīng)搭載了神經(jīng)網(wǎng)絡(luò)處理引擎(Neural Processing Engine; NPE)技術(shù)。
圖三: 高通Hexagon DSP神經(jīng)網(wǎng)絡(luò)執(zhí)行性能,相比在CPU上執(zhí)行,能快出5至8倍。(source: 高通)
根據(jù)高通的資料,驍龍的NPE是一種整合了多種軟硬件的元件,用來加速終端裝置上(on-device)的AI功能,以改善使用者的體驗(yàn),但原則上,高通的NPE是以軟件為中心(software-centric)的解決方案。
而在軟件架構(gòu)上,高通的NPE是屬于開放的架構(gòu),能支援多種神經(jīng)網(wǎng)絡(luò)的框架,包含Tensorflow、Caffe、Caffe2和ONNX,此外,高通也開發(fā)了自有的Hexagon Neural Network(NN)函式庫,讓開發(fā)者可以讓其AI演算法在驍龍?zhí)幚砥骼锏腍exagon DSP上執(zhí)行。
而在最新一代的驍龍?zhí)幚砥?55上,NPE已經(jīng)發(fā)展到了第四代,其效能已較第三代有3倍的成長(zhǎng),可對(duì)影像、影音、AR/VR與游戲等智能功能進(jìn)一步優(yōu)化。只不過高通并沒有具體的說明其NPE的技術(shù)細(xì)節(jié),硬件的架構(gòu)也不得而知,也沒有解釋為何是在DSP上運(yùn)行。但依據(jù)高通自己的說法,高通的Hexagon DSP 的神經(jīng)網(wǎng)絡(luò)執(zhí)行性能,相比在CPU上執(zhí)行,能快出5至8倍。
聯(lián)發(fā)科曦力處理器加入NeuroPilot與APU技術(shù)
臺(tái)灣的聯(lián)發(fā)科技(MediaTek)當(dāng)然也看到了人工智能在行動(dòng)裝置上的應(yīng)用商機(jī),自2018年初起,就推出了NeuroPilot的技術(shù),并將之首次運(yùn)用在其手機(jī)處理平臺(tái)曦力P60上。
根據(jù)聯(lián)發(fā)科的說法,NeuroPilot是基于他們的核心監(jiān)控與調(diào)節(jié)技術(shù)CorePilot的進(jìn)階版。CorePilot在2014年就已經(jīng)被開發(fā)出來,其主要作用就是動(dòng)態(tài)監(jiān)控手機(jī)多核處理器的每個(gè)核心的工作負(fù)載量,并加調(diào)節(jié)和分配,以提高手機(jī)運(yùn)行的性能并降低電耗。
到了人工智能時(shí)代,聯(lián)發(fā)科也順勢(shì)推出了APU技術(shù),并運(yùn)用在CorePilot所積累的異構(gòu)運(yùn)算經(jīng)驗(yàn),推出了NeuroPilot平臺(tái),作為CPU、GPU和APU間的運(yùn)作協(xié)調(diào),以提升整體的AI運(yùn)算效能。
NeuroPilot平臺(tái)約可分為三個(gè)層級(jí),頂層是各種APP應(yīng)用程式;中間層為程序編寫和異構(gòu)運(yùn)算(軟件層);最底層是各種硬件處理器。而其中最關(guān)鍵的就是中間的軟件層。
聯(lián)發(fā)科指出,中間層主要由演算法軟件構(gòu)成,包括各種軟件的API、神經(jīng)網(wǎng)絡(luò)運(yùn)行(NN Runtime)、異構(gòu)運(yùn)行(Heterogeneous Runtime)。簡(jiǎn)單來說,就是所謂的人工智能的運(yùn)行架構(gòu)(AI framewrok),以及神經(jīng)網(wǎng)絡(luò)的演算法。
而聯(lián)發(fā)科的NeuroPilot也是屬于開放式的架構(gòu),支援目前市面上主流的AI framework,包含TensorFlow、TF Lite、Caffe、Caffe2、Amazon MXNet、Sony NNabla和ONNX等。聯(lián)發(fā)科也提供NeuroPilot SDK,其包含Google神經(jīng)網(wǎng)絡(luò)API(Android NN API)和聯(lián)發(fā)科NeuroPilot擴(kuò)充元件。
圖四: NeuroPilot平臺(tái)可分為三個(gè)層級(jí),中間層為程序編寫和異構(gòu)運(yùn)算,是最關(guān)鍵的一層。(source: 聯(lián)發(fā)科)
而在硬件方面,除了原本的CPU、GPU外,則是增加了新的人工智能處理器APU,用來提高人工智能應(yīng)用和神經(jīng)網(wǎng)絡(luò)處理的校能。在最新一款的旗艦處理器P90上,聯(lián)發(fā)科的APU已升級(jí)至2.0版本,比前一代快上四倍,算力達(dá)1127GMACs(電腦定點(diǎn)處理能力的量)。
中國海思攜手寒武紀(jì)主攻NPU技術(shù)
中國華為旗下的海思半導(dǎo)體(HiSilicon),是手機(jī)處理器市場(chǎng)一家快速崛起的IC設(shè)計(jì)公司,目前屢屢在技術(shù)上有領(lǐng)先業(yè)界表現(xiàn)。該公司在2017年九月就率先發(fā)表了一款采用10納米制程的智能手機(jī)處理器-麒麟(Kirin)970,該處理器是產(chǎn)界首款具有人工智能神經(jīng)處理元件(NPU)的手機(jī)處理芯片。
海思的NPU同樣是屬于AI應(yīng)用程式的加速處理單元,也就是針對(duì)神經(jīng)網(wǎng)絡(luò)演算法的處理,特別專注于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的應(yīng)用。根據(jù)海思的說法,在相簿模式中,Kirin 970的NPU每秒能處理2,000張照片的處理;若沒有NPU介入,單以處理器運(yùn)算只能處理約100張而已。
圖五: 最新一代的Kirin 980處理器,其NPU核心數(shù)已增加至兩個(gè)。(source: 海思)
據(jù)了解,Kirin 970的NPU,是由中國的芯片IP商寒武紀(jì)(Cambri0con)所提供,并由海思與寒武紀(jì)共同合作進(jìn)行優(yōu)化的一個(gè)模組。
而最新一代的Kirin 980處理器,其NPU核心數(shù)已增加至兩個(gè)。根據(jù)華為的資料,雙核NPU的性能可達(dá)到每分鐘處理4,500張圖像,較前一代提升了120%的辨識(shí)速度。可以快速執(zhí)行人臉識(shí)別,物體偵測(cè)與辨識(shí),物體識(shí)別,影像分割和智能辨識(shí)等人工智能的應(yīng)用。
AI需求成形處理器IP商也加入戰(zhàn)場(chǎng)
由于神經(jīng)網(wǎng)絡(luò)的性能卓越,因此除了IC設(shè)計(jì)商積極投入研發(fā)外,處理器IP供應(yīng)商自然也開始跨入此一領(lǐng)域,包含前段所提到的中國寒武紀(jì)之外,以色列的IP商CEVA也開始提供具備神經(jīng)網(wǎng)絡(luò)技術(shù)的IP方案。
CEVA近期所發(fā)表的WhisPro就是一款基于神經(jīng)網(wǎng)絡(luò)技術(shù)的智能語音辨識(shí)方案,它采用了可擴(kuò)展遞回神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)技術(shù),可同時(shí)辨識(shí)多個(gè)觸發(fā)片語,能運(yùn)用在智能手機(jī)、智能音箱、藍(lán)牙耳機(jī)和其他語音設(shè)備中。
然而有趣的是,雖然神經(jīng)處器技術(shù)的勢(shì)頭已經(jīng)竄起,但處理器IP的龍頭Arm卻是動(dòng)作緩慢,到目前為止,仍未提供任何的神經(jīng)網(wǎng)絡(luò)解決方案。雖然Arm也看好人工智能的應(yīng)用市場(chǎng),但就是遲遲未把具體的產(chǎn)品曝光。
而依據(jù)Arm的時(shí)程,最快今年第一季才會(huì)推出具備人工智能功能的AI處理器-Arm ML CPU。根據(jù)Arm的說明,Arm ML處理器也會(huì)是一個(gè)系列產(chǎn)品,提供多種規(guī)格給不同的應(yīng)用產(chǎn)品,性能范圍是1至4 TOP/s,可滿足不同的產(chǎn)品需求,包含智能手機(jī)、智能手機(jī)、智能家居和汽車等。
Arm指出,其ML處理器主要有三個(gè)部分,一個(gè)是MAC引擎,主要是執(zhí)行卷積云神經(jīng)網(wǎng)絡(luò)的運(yùn)算;第二是可程式的運(yùn)算引擎,可以支援未來新的運(yùn)算元和網(wǎng)絡(luò);第三是資料管理,用來降低AI運(yùn)算的功耗。
雖然推出的時(shí)間晚了,但Arm仍是自信滿滿,由于其處理器的生態(tài)系十分龐大且完整,要后來居上也可能是易如反掌。
「我們已經(jīng)看到機(jī)器學(xué)習(xí)技術(shù)正在成熟,市場(chǎng)需求也正在不斷增加,我們認(rèn)為現(xiàn)在是進(jìn)入市場(chǎng)的最佳時(shí)機(jī)?!笰rm機(jī)器學(xué)習(xí)副總裁Dennis Laudick說。