前言:
目前英特爾和IBM在內的企業(yè)正積極探索超低功耗神經模態(tài)芯片在不同領域的應用,在未來幾年內隨著AI+IoT的發(fā)展,神經模態(tài)計算將會迎來一波新的熱潮。
人工神經網絡基本模型
人工神經網絡的概念以及基本神經元模型于1943年就已提出,這正是試圖模擬腦皮層以神經元網絡形式進行信息處理的體現(xiàn)。
卷積神經網絡的局部感受野是受到大腦視覺系統(tǒng)的啟發(fā)。深度神經網絡的層級構建是源于腦皮層的分層通路。
只不過在深度學習的后續(xù)發(fā)展中,研究者更加偏重把神經網絡視為一個黑匣,用于擬合從輸入到輸出的復雜映射關系:
只需要給網絡的輸出定義一個收斂目標(目標函數(shù),比如每張圖像的輸出對應到正確的類別)并描述為一個優(yōu)化問題,然后用梯度下降的方式去更新系統(tǒng)參數(shù)主要是突觸權重,使得輸出逐漸逼近想要的結果。
原則上網絡越大,特征提取的能力就會越強,也就需要越多的數(shù)據(jù)來訓練網絡更新參數(shù)使網絡收斂,因此計算量也大幅增加。
故而,深度學習也被稱為數(shù)據(jù)和算力驅動的智能。雖然深度學習以解決實際應用為目標而與神經科學漸行漸遠,但近兩年也有科學家試圖在大腦中找到梯度下降的證據(jù)和吸收新的腦科學成果。
而機器學習是目前人工智能模型中最卓有成效的一個分支,而深度學習又是當今機器學習的寵兒,其以人工神經網絡為主要模型。
人工神經網絡由大量神經元通過突觸連接而成,從輸入到輸出呈現(xiàn)層級結構,當層數(shù)較多時則被稱為深度神經網絡。
相比于全連接神經網絡,卷積神經網絡通過引入二維特征圖與突觸核的卷積操作獲得了強大的局部特征提取能力,被廣泛用于圖像處理領域。
而反饋神經網絡通過引入反饋連接,建立時序動力學模型,被廣泛用于處理語音文本等時序數(shù)據(jù)。
神經模態(tài)計算的重要意義
①目前的深度學習僅能實現(xiàn)人類大腦極小一部分的功能,距離人類的智能還有非常遠的距離,而使用神經模態(tài)計算直接模仿神經元系統(tǒng)在人工神經元數(shù)量足夠多時,或將有希望能實現(xiàn)比起深度學習更好的效果,更接近人類大腦。
②目前深度學習計算在部署上遇到的困難是能效比和延遲問題,在對于功耗要求非常低的物聯(lián)網領域,以及對于延遲要求非常高的領域無人駕駛領域,部署深度學習會遇到很大的挑戰(zhàn)。
恰好神經模態(tài)計算則可以解決這兩大問題。
①神經模態(tài)計算的一大優(yōu)勢就是其計算功耗與輸入有關,在輸入不會激活大量神經元的情況下,其功耗可以做到非常低。
②對于物聯(lián)網應用來說,神經模態(tài)計算可以利用這樣的規(guī)律,僅僅在需要的時候激活神經元消費能量來完成事件識別,而在其他沒有事件的時候由于神經元未被激活因此功耗很低,從而實現(xiàn)遠低于深度學習芯片的平均功耗。
③神經模態(tài)計算并非常規(guī)的馮諾伊曼架構,神經模態(tài)計算芯片一般也不會搭配DRAM使用,而是直接將信息儲存在了神經元里。這樣就避免了內存墻帶來的功耗和延遲問題,因此神經模態(tài)計算芯片的延遲和能效比都會好于傳統(tǒng)的深度學習。
國外技術寡頭優(yōu)勢明顯
近日,英特爾發(fā)布了基于其神經模態(tài)計算芯片Loihi的加速卡Pohoiki Beach,該加速卡包含了64塊Loihi芯片,共含有八百多萬個神經元。
繼IBM發(fā)布True North、英特爾發(fā)布Loihi之后,Pohoiki Beach又一次讓神經模態(tài)計算走進了聚光燈下。
深度神經網絡壓縮技術,當前,深度學習領域目前面臨的一大挑戰(zhàn)是,主流DNNs都是計算和存儲密集型的,這導致在邊緣和嵌入式設備的部署面臨巨大的挑戰(zhàn)。
為此,英特爾研究院提出了從動態(tài)網絡手術DNS、漸進網絡量化INQ到MLQ多尺度編碼量化的低精度深度壓縮解決方案。
通過這些布局可獲得百倍DNN模型無損壓縮性能。根據(jù)AlexNet測試結果,該項簡潔的解決方案能夠超越主流深度壓縮方案至少一倍,在2/4-bit精度下達到超過100倍的網絡壓縮。
IBM研究人員在活動上詳細介紹了數(shù)字和模擬AI芯片的AI新方法,它的數(shù)字AI芯片首次采用8位浮點數(shù)成功訓練了深度神經網絡,同時在一系列深度學習模型和數(shù)據(jù)集上完全保持了準確性。
這些更廣泛的問題需要更大規(guī)模的神經網絡、更大的數(shù)據(jù)集和多模態(tài)數(shù)據(jù)集,為此IBM需要改變架構和硬件來實現(xiàn)這一切。
IBM大膽預測,GPU在AI中的主導地位正在結束。GPU能夠為圖形處理進行大量的并行矩陣乘法運算,這種矩陣乘法碰巧與神經網絡所需的完全相同,這非常重要。
因為沒有那些GPU,我們永遠無法達到我們今天在AI性能方面已經達到的性能水平。隨著IBM掌握的更關于如何實現(xiàn)人工智能的知識,也在尋找設計出更高效硬件的方法和途徑。
對于32位計算來說,必須在32位上進行計算。如果可以在16位上計算,那基本上是計算能力的一半,或者可能是芯片面積的一半甚至更少。
如果可以降到8位或4位,那就更好了。所以,這是在面積、功率、性能和吞吐量方面的巨大勝利——關乎我們能夠以多快的速度完成這一切。
IBM還在IEDM大會上展示了所謂的8位精度內存乘法與設計中的相變內存。IBM發(fā)表了一項關于新型內存計算設備的研究,與當今的商業(yè)技術相比,該設備的計算能耗水平要低100-1000倍,非常適合于邊緣AI應用,例如自動駕駛、醫(yī)療監(jiān)控和安全性。
IBM的不同之處是相信完整的AI解決方案需要加速推理和訓練,其正在開發(fā)和逐漸發(fā)展成熟可用于推理和訓練的非易失性內存元件。
結尾:
隨著英特爾和IBM在內的企業(yè)正積極探索超低功耗神經模態(tài)芯片在不同領域的應用,在未來幾年內伴隨AI+IoT的發(fā)展,神經模態(tài)計算將會迎來一波新的熱潮。