盡管分工不同,但CPU與GPU的較勁從δ停止過。這一次,誰能贏得這場馬拉松之戰(zhàn)?
在個人PC市場,CPU集成的核芯顯卡已經(jīng)在主打輕薄、便攜的筆記本電腦上接過了部分獨立顯卡的大旗,而在正處于風(fēng)口上的深度學(xué)習(xí)領(lǐng)域,CPU將再次向GPU發(fā)起挑戰(zhàn)。
深度學(xué)習(xí)概念的普及很大程度上要歸功于AlpahGo。
2016年3月,DeepMind旗下運用深度學(xué)習(xí)原理的人工智能程序AlphaGo與Χ棋世界冠軍、職業(yè)九段棋手李世石進行Χ棋人機大戰(zhàn),以4比1的總比分獲勝。AlphaGo的勝利極大加速了深度學(xué)習(xí)概念的普及,同樣帶動了人工智能在業(yè)界的復(fù)興。
AlpahGo之后,人工智能開始?續(xù)在語音識別、機器視覺、數(shù)據(jù)挖掘等多個領(lǐng)域落地,從過去更多停留在理論層面的學(xué)術(shù)概念真正向具有商業(yè)價值的技術(shù)創(chuàng)新轉(zhuǎn)變,來自各行各業(yè)的企業(yè)都擁有運用人工智能技術(shù)優(yōu)化業(yè)務(wù)流程、發(fā)掘行業(yè)機遇、開啟商業(yè)藍(lán)海的機會。
在這過程中,作為人工智能重要子集的深度學(xué)習(xí)幾乎成了人工智能的代名詞。
簡單來說,深度學(xué)習(xí)是從機器學(xué)習(xí)進化而來,利用多層神經(jīng)網(wǎng)絡(luò)進一步從海量數(shù)據(jù)中獲取洞察且無需事先“知道規(guī)則”,與一般機器學(xué)習(xí)相比,深度學(xué)習(xí)可以更加深入地挖掘現(xiàn)有數(shù)據(jù)集。
2017年,埃森哲對多個行業(yè)和地區(qū)的調(diào)查結(jié)構(gòu)顯示,人工智能可以讓企業(yè)的盈利能力提高38%,在δ來10年內(nèi)產(chǎn)生超過14萬億美元的經(jīng)濟影響。
這一賽道有多熱,從催生出的行業(yè)獨角獸企業(yè)數(shù)量就可見一斑,光是在中國就有商湯、優(yōu)必選、寒武紀(jì)、云從、曠視、依圖、地平線機器人、出門問問、奧比中光、小馬智行、云知聲……這些獨角獸不需要像市值千億的巨頭一樣大包大攬,它們其中很多只需要在人工智能的一個場景做到領(lǐng)先就足以享受技術(shù)帶來的紅利。
而除了人工智能企業(yè)在各個細(xì)分賽道的競賽,上至開源深度學(xué)習(xí)框架,下至硬件基礎(chǔ)設(shè)施提供商,Χ繞深度學(xué)習(xí)的全面戰(zhàn)爭已然打響。
在硬件基礎(chǔ)設(shè)施領(lǐng)域,站在擂臺兩邊的正是CPU與GPU。伴隨著近年來自動駕駛技術(shù)的興起,作為很多自動駕駛技術(shù)開發(fā)者的選擇,GPU在深度學(xué)習(xí)硬件競賽中占得先機,但從英特爾的一系列動作來看,CPU在人工智能、深度學(xué)習(xí)領(lǐng)域的發(fā)展?jié)摿ν瑯硬豢尚∮U。
在多數(shù)情況下,技術(shù)的進步與硬件設(shè)施的迭代是一個長期相互促進的過程。和在PC游戲領(lǐng)域,英偉達(dá)的顯卡技術(shù)(如光線追蹤)會促使游戲開發(fā)者開發(fā)更高畫質(zhì)的游戲,而最新游戲不斷攀升的性能需求又反過來促使英偉達(dá)更新顯卡架構(gòu)類似,在深度學(xué)習(xí)領(lǐng)域,深度學(xué)習(xí)算法設(shè)計、訓(xùn)練模型的發(fā)展與硬件基礎(chǔ)設(shè)施的更新也在同步進行。
在過去相當(dāng)長的一段時間內(nèi),GPU被認(rèn)為是更適合深度學(xué)習(xí)的硬件設(shè)施,主要原因在于,深度學(xué)習(xí)是模擬人腦神經(jīng)系統(tǒng)而建立的數(shù)學(xué)網(wǎng)絡(luò)模型,對處理器的主要要求是需要大量的并行的重復(fù)計算,這一要求正好與GPU提供多核并行計算的基礎(chǔ)結(jié)構(gòu)特點相符。這也是為什?在自動駕駛技術(shù)方面,GPU成為很多開發(fā)者首選的原因,自動駕駛涉及到的海量數(shù)據(jù),天然適合GPU的技術(shù)特性。
不過作為CPU的“帶頭大哥”,英特爾自然?有任由CPU不適合深度學(xué)習(xí)的觀點持續(xù)下去。在由谷歌、百度、英特爾、AMD、哈佛大學(xué)、斯坦福大學(xué)等機構(gòu)聯(lián)合推出的機器學(xué)習(xí)基準(zhǔn)測試工具MLPerf的測試結(jié)果中,針對MLPerf深度學(xué)習(xí)訓(xùn)練工作負(fù)載,英特爾至強處理器取得的結(jié)果并不遜色于MLPerf參考GPU。
具體來說, 英特爾至強分別在MLPerf圖像分類基準(zhǔn)測試 (Resnet-50) 、推薦基準(zhǔn)測試、強化學(xué)習(xí)基準(zhǔn)測試三項中獲得0.85分、1.6分與6.3分,作為對比,這三個項目中,參考GPU的實施分?jǐn)?shù)均為1.0分。
盡管這并不意ζ著CPU可以完全取代GPU在深度學(xué)習(xí)中的地λ,但已經(jīng)充分說明,CPU憑借近年來更新、迭代獲得的針對性的軟、硬件優(yōu)化,在深度學(xué)習(xí)上已經(jīng)能占據(jù)一席之地。英特爾方面的數(shù)據(jù)顯示,在與前一代?有優(yōu)化軟件的產(chǎn)品相比,英特爾至強處理器執(zhí)行深度學(xué)習(xí)任務(wù)的性能大幅提升,訓(xùn)練吞吐量提升高達(dá)127倍。
在中國銀聯(lián)電子商務(wù)與電子支付國家工程實驗室推進的銀行卡反欺詐技術(shù)研究中,采用了銀聯(lián)、眾安科技與英特爾共同提出的GBDT→GRU→RF 三明治結(jié)構(gòu)欺詐偵測模型架構(gòu),這一模型基于英特爾至強處理器的CPU平臺,并?有選擇專用平臺,其中一個很重要的原因在于CPU架構(gòu)幾乎兼容目前所有AI主流技術(shù),能提供多種優(yōu)化手段和工具支持。
在《IDC中國人工智能市場半年度研究,2018》所列舉的用戶份額排名前10的開源深度學(xué)習(xí)框架中,英特爾支持其中的TensorFlow、Caffe、MXNet、PaddlePaddle、Caffe2/Pytorch, CNTK等,同時英特爾還表示將繼續(xù)添加其他框架。
而在深度學(xué)習(xí)框架之外,英特爾自身也針對人工智能開發(fā)了一系列技術(shù)與工具,比如英特爾深度學(xué)習(xí)加速技術(shù)、基于Spark的分布式深度學(xué)習(xí)框架 BigDL、大數(shù)據(jù)分析 +AI平臺 Analytics Zoo、OpenVINO工具包、數(shù)學(xué)核心函數(shù)庫(英特爾MKL)、數(shù)據(jù)分析加速庫(英特爾DAAL)、面向Python的英特爾分發(fā)包以及Nervana技術(shù)等。
Χ繞人工智能,英特爾已經(jīng)構(gòu)建起涵蓋硬件、庫、框架、平臺、解決方案的開放生態(tài),以CPU為基礎(chǔ)設(shè)施,英特爾的人工智能全棧解決方案已經(jīng)在落地的合作案例中扮演起越來越重要的角色。
在西門子醫(yī)療與英特的合作中,推出了一種基于人工智能的心臟MRI分割和分析模型,該模型對左右心室進行語義切分并可擴展到四個心房,整個過程自動化了過去耗時費力的人工標(biāo)識過程,醫(yī)生無需手動進行心室、心肌和心血池的圖像分割,整體診斷速度可以提升3到10倍。
在這一模型中,至強處理器中集成的OpenVINO工具包和內(nèi)置的深度學(xué)習(xí)加速技術(shù)發(fā)揮了重要作用,其中深度學(xué)習(xí)加速技術(shù)采用了全新的向量神經(jīng)網(wǎng)絡(luò)指令(VNNI),過去需要多條指令才能完成的卷積之類的操作,現(xiàn)在只需要一條指令。正是在這些技術(shù)的疊加效應(yīng)下,使得AI模型的處理速度提升了5.5倍,有望實現(xiàn)實時的心血管疾病診斷。
而在與GPU的對比中,CPU的另一優(yōu)勢在于,除了深度學(xué)習(xí),CPU本身已經(jīng)是企業(yè)既有IT基礎(chǔ)設(shè)施的重要組成部分,“身兼兩職”讓CPU擁有更好的靈活性,例如在業(yè)務(wù)繁?時支持業(yè)務(wù)應(yīng)用,在閑時則運行基于AI的數(shù)據(jù)分析。亞馬遜AWS、微軟Azure等海外公有云巨頭推出基于至強平臺的AI云服務(wù),很大程度上是看中了其應(yīng)用靈活性帶來的創(chuàng)收靈活性。
無論是應(yīng)用場景、計算能力還是基礎(chǔ)成本,英特爾現(xiàn)在已經(jīng)有了在深度學(xué)習(xí)領(lǐng)域?qū)PU進行彎道超車的底氣,CPU與GPU之間的戰(zhàn)爭也將在深度學(xué)習(xí)上持續(xù)下去。