從微小器件到海量數(shù)據(jù)中心,格外強勁的硬件將能為深度學(xué)習(xí)領(lǐng)域內(nèi)的一切提供助力。
2016 年 3 月份,谷歌 DeepMind 的計算機在多輪圍棋比賽中擊敗了世界圍棋冠軍李世乭。這一事件標(biāo)志著人工智能領(lǐng)域內(nèi)的一個新里程碑。獲勝的 AlphaGo 借力于現(xiàn)在為大家所熟知的深度學(xué)習(xí)——一種人工神經(jīng)網(wǎng)絡(luò);在這種神經(jīng)網(wǎng)絡(luò)里有很多計算處理層,可以用來自動尋找問題的解決方案。
那時候人們還不知道谷歌正在悄然開發(fā)為這一勝利提供助力的秘密武器——一種專用硬件,在谷歌用于擊敗世界冠軍李世石的計算機里已有這種特殊硬件。這種硬件被谷歌稱為張量處理單元(TPU/Tensor Processing Unit)。
谷歌的一位硬件工程師 Norm Jouppi 在這場圍棋大戰(zhàn)的兩個月后宣布了張量處理單元的存在,并解釋說谷歌的數(shù)據(jù)中心已經(jīng)使用這些新型加速器一年多了。谷歌還沒有公布這些集成板上到底有什么奧妙,但毫無疑問的是,這代表著加速深度學(xué)習(xí)計算上的一個日益流行的策略:使用專用集成電路(ASIC)。
來自深度學(xué)習(xí)軟件的收入很快就將超過十億美元(單位:十億美元)
企業(yè)(主要是微軟)追求的另一個戰(zhàn)術(shù)是使用現(xiàn)場可編程門陣列(FPGA),其有可重配置的優(yōu)勢,可以根據(jù)計算需求進行修改。而更常見的方法則是使用圖形處理單元(GPU),這種計算設(shè)備可以并行地同時執(zhí)行大量數(shù)學(xué)運算。最知名的 GPU 提供商英偉達(NVIDIA)近段時間以來的股價飛漲也正是得益于此。
事實上,GPU 在 2009 年的時候就已經(jīng)在驅(qū)動人工神經(jīng)網(wǎng)絡(luò)了,那時候斯坦大學(xué)的一些研究者證明這種硬件使得深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間很適宜。
「今天所有人都在做深度學(xué)習(xí),」斯坦福大學(xué) Concurrent VLSI Architecture 研究組的領(lǐng)導(dǎo)者兼英偉達首席科學(xué)家 William Dally 說。他說這從他的角度來看是不足為奇的?!窯PU 幾乎和你想象的一樣美好。」
Dally 解釋說有三個獨立的領(lǐng)域需要考慮。第一是他所說的「數(shù)據(jù)中心中的訓(xùn)練」。他認(rèn)為任何深度學(xué)習(xí)系統(tǒng)的第一步都是:調(diào)節(jié)神經(jīng)元之間大約數(shù)百萬個連接以使網(wǎng)絡(luò)能夠完成分配給它的任務(wù)。
已被英特爾收購的公司 Nervana Systems 在這種任務(wù)的硬件開發(fā)上取得了領(lǐng)先。Nervana 計算機科學(xué)家 Scott Leishman 表示 Nervana Engine 是一款 ASIC 的深度學(xué)習(xí)加速器,其將在 2017 年初期到中期的時候投入生產(chǎn)。Leishman 指出另一個計算密集型任務(wù)——比特幣挖礦(bitcoin mining),就曾經(jīng)從 CPU 實現(xiàn)轉(zhuǎn)向 GPU,然后轉(zhuǎn)向 FPGA 并最終轉(zhuǎn)向了 ASIC,因為定制的硬件能夠?qū)崿F(xiàn)更優(yōu)的能量效率。他說:「我認(rèn)為同樣的情況正在深度學(xué)習(xí)領(lǐng)域發(fā)生?!?br/>
Dally 說,深度學(xué)習(xí)硬件的第二個任務(wù)(大為異于第一個任務(wù))是「數(shù)據(jù)中心中的推理」?!竿评恚╥nference)」這個詞在這里的意思是:用于之前任務(wù)的已訓(xùn)練的基于云的人工神經(jīng)網(wǎng)絡(luò)在同樣的任務(wù)上能進行持續(xù)運算。谷歌的神經(jīng)網(wǎng)絡(luò)每天都要執(zhí)行天文數(shù)字級別的推理計算,以幫助用戶分類圖片、翻譯語言和識別口語等等。盡管外界還不能百分之百確定,但可以推理谷歌的張量處理單元應(yīng)該在為這些計算提供助力。
加滿油門:谷歌的 TPU 正在該公司的服務(wù)器里加速深度學(xué)習(xí)計算
訓(xùn)練和推理常常需要運用不同的技能設(shè)置。通常對訓(xùn)練的設(shè)置上,機器必須能夠?qū)嵤┚_度相對較高的計算,常使用 32 位的浮點計算。對于推理,則可以犧牲精確度以獲取更快的速度和更低的功耗?!高@是研究領(lǐng)域里一個很活躍的區(qū)域,」Leishman 說道?!改隳苓_到的最低限度是多少?」
雖然 Dally 謝絕泄露英偉達的特別計劃,但他指出英偉達的 GPU 正在完成升級。英偉達的早期版本——Maxwell 的架構(gòu)能夠進行雙精度(64 位)和單精度(32 位)的計算,而目前的 Pascal 架構(gòu)則增加了處理 16 位運算的能力,支持雙倍輸入且效率也是之前單精度計算的兩倍。所以不難想象英偉達最終將會推出能進行 8 位運算的 GPU,這樣的 GPU 將是在云端進行推理運算的理想硬件,因為對云端推理來說能源效率是控制成本的關(guān)鍵因素。
Dally 補充說:「三個支撐深度學(xué)習(xí)關(guān)鍵任務(wù)的最后一個任務(wù)就是在嵌入式設(shè)備里進行推理,」比如智能手機、相機和平板電腦。對于這些應(yīng)用,關(guān)鍵是實現(xiàn)低能耗的專用集成電路(ASIC)。在即將來到的一年,深度學(xué)習(xí)軟件將會越來越多的實現(xiàn)手機端應(yīng)用,比如目前已有的手機端應(yīng)用——惡意軟件檢測以及圖片中的文字翻譯。
除此之外,無人機生產(chǎn)商大疆(DJI)已經(jīng)開始在其幽靈 4(Phantom 4)無人機中使用與專用集成電路的深度學(xué)習(xí)相類似的器件,大疆所使用的器件是一個由加州廠商 Movidius 制造的特殊視覺處理芯片,這個芯片用來識別障礙物。(Movidius 同時也是英特爾最近收購的另一家神經(jīng)網(wǎng)絡(luò)相關(guān)的公司)。與此同時高通(Qualcomm)在其 Snapdragon 820 處理器里放置了一個特殊的電路系統(tǒng)來更好地執(zhí)行深度學(xué)習(xí)運算。
雖然目前有很多因素促使硬件設(shè)計來加速深度神經(jīng)網(wǎng)絡(luò)的計算,但巨大的風(fēng)險依然并存:如果神經(jīng)網(wǎng)絡(luò)的進步太快,所設(shè)計來運行過往的神經(jīng)網(wǎng)絡(luò)的芯片在出廠時就會過時?!杆惴ㄕ苑浅?斓乃俣雀淖?,」Dally 說?!杆袕氖聵?gòu)建這些硬件的人都在試圖贏得這場賭注?!?/p>