繪圖芯片大廠NVIDIA近來(lái)成了鎂光燈的焦點(diǎn)所在,盡管該公司業(yè)已致力于繪圖處理器(GPU)加速運(yùn)算超過(guò)10來(lái)年有余,但直到1年前,科技業(yè)界才真正轉(zhuǎn)而聚焦在這股運(yùn)算趨勢(shì)上。在此之前,業(yè)界仰賴的是通用型的微處理器,也就是由英特爾(Intel)的芯片所主導(dǎo),然而,隨著摩爾定律減緩,資料中心亟需替代方案好進(jìn)一步改善其運(yùn)算效能。
相較于英特爾,NVIDIA另辟蹊徑、采取了完全不一樣的途徑,與其單獨(dú)仰賴晶體管倍增的摩爾定律,NVIDIA開發(fā)出一整套系統(tǒng),藉此在不同層次上提供先進(jìn)運(yùn)算,包括了處理器架構(gòu)、系統(tǒng)軟件、算法以及應(yīng)用等。雖然NVIDIA的老本行電競(jìng)領(lǐng)域正觀察到強(qiáng)勁的市場(chǎng)增長(zhǎng),但受惠于人工智能(AI)革命所驅(qū)動(dòng)的資料中心爆炸性成長(zhǎng),更是NVIDIA讓人另眼相看之處。
NVIDIA的GPU加速器從HPC擴(kuò)張到云端服務(wù)領(lǐng)域
NVIDIA從5年前開始便替旗下GPU探索通用型GPU的商機(jī)所在,這乃是著眼于GPU具有遠(yuǎn)比CPU來(lái)得更快的運(yùn)算能力。這些GPU先前則為了試行先進(jìn)模擬被用在高效能運(yùn)算(high-performance computing;HPC)系統(tǒng)上,這些HPC系統(tǒng)通常用在預(yù)測(cè)性模型上,藉此解決復(fù)雜的問(wèn)題,該系統(tǒng)能夠快速處理大量資料。
根據(jù)NVIDIA旗下資深副總裁Shankar Trivedi表示,1顆以Pascal架構(gòu)為基礎(chǔ)的Tesla P100 GPU平臺(tái)便足以取代掉19個(gè)機(jī)架的純CPU服務(wù)器系統(tǒng),預(yù)計(jì)可以節(jié)省1,300萬(wàn)美元的成本,而且這樣的成本撙節(jié)還不僅僅來(lái)自于服務(wù)器數(shù)量的減少,更可以減少功耗與節(jié)省空間,對(duì)客戶而言均省下相當(dāng)?shù)呢?fù)擔(dān)。
GPU加速器所掀起的風(fēng)潮促使了眾多的高效能運(yùn)算中心爭(zhēng)相采用AI,雖然大多數(shù)業(yè)者選擇NVIDIA的GPU作為加速器之用,但也有部分業(yè)者導(dǎo)入賽靈思(Xilinx)或英特爾旗下Altera的FPGA芯片作為加速器之用。隨后到了2016年,GPU的使用也擴(kuò)張到HPC以外的云端服務(wù)供應(yīng)商與企業(yè)端,而NVIDIA的資料中心部門營(yíng)收也因此呈現(xiàn)每季3級(jí)跳、超過(guò)4億美元規(guī)模。
從財(cái)報(bào)資料來(lái)看,過(guò)去4年來(lái),NVIDIA的電競(jìng)游戲部門已經(jīng)增長(zhǎng)高達(dá)40%,在此同時(shí),隨著PC電競(jìng)需求的增長(zhǎng),該公司也主導(dǎo)著高階GPU市場(chǎng)。同樣地,在資料中心市場(chǎng)方面,也觀察到類似的趨勢(shì),隨著云端服務(wù)供應(yīng)業(yè)者逐漸采用GPU應(yīng)用在AI任務(wù)上例如影像辨識(shí)或語(yǔ)音辨識(shí)等,GPU加速運(yùn)算市場(chǎng)需求從2017會(huì)計(jì)年度起開始攀升,越來(lái)越多的領(lǐng)域采用GPU作為其AI解決方案,而NVIDIA正是這領(lǐng)域的領(lǐng)先者。
NVIDIA的資料中心部門營(yíng)收在2018會(huì)計(jì)年度第1季年增186%、季增38%達(dá)到4.09億美元規(guī)模,使得資料中心部門對(duì)于公司的營(yíng)收貢獻(xiàn)度僅僅亞于電競(jìng)游戲部門,成為NVIDIA旗下第二大部門,預(yù)估長(zhǎng)期而言該部門貢獻(xiàn)度可望提升至30%。先前使用英特爾FPGA芯片加速器的微軟(Microsoft),近來(lái)也采購(gòu)NVIDIA的Tesla P100和P40 GPU作為其Azure云端平臺(tái)加速運(yùn)算之用。
NVIDIA的GPU加速器協(xié)助云端業(yè)者進(jìn)行深度學(xué)習(xí)任務(wù)
誠(chéng)然,GPU加速運(yùn)算的確幫助超級(jí)計(jì)算機(jī)更有效率地解決了許多復(fù)雜的問(wèn)題,而透過(guò)GPU所節(jié)省的成本與時(shí)間也因此更進(jìn)一步鼓勵(lì)許多云端業(yè)者,藉由使用NVIDIA的GPU來(lái)進(jìn)行各自的深度學(xué)習(xí)任務(wù)。一般來(lái)說(shuō),深度學(xué)習(xí)可分兩階段,第一階段是訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)透過(guò)大量資料來(lái)訓(xùn)練,而第二階段便是推論,計(jì)算機(jī)透過(guò)訓(xùn)練所得來(lái)應(yīng)對(duì)現(xiàn)實(shí)世界的回應(yīng)。
以目前來(lái)說(shuō),NVIDIA的GPU被亞馬遜(Amazon)用來(lái)作為其數(shù)碼助理的訓(xùn)練之用、也被微軟用來(lái)作為影像識(shí)別的訓(xùn)練之用、另外也被Google和百度用來(lái)作為語(yǔ)音指令的深度學(xué)習(xí)訓(xùn)練之用。有監(jiān)于GPU能夠縮短深度學(xué)習(xí)訓(xùn)練的時(shí)間從好幾個(gè)月縮短到幾周內(nèi)即可完成,上述亞馬遜、微軟、Google和百度等均使用NVIDIA的GPU來(lái)訓(xùn)練自家的深度神經(jīng)網(wǎng)絡(luò)。
NVIDIA執(zhí)行長(zhǎng)黃仁勛日前在財(cái)報(bào)法說(shuō)會(huì)上曾經(jīng)表示,其實(shí)AI目前還在早期階段,而且尚未被制造業(yè)者、汽車業(yè)者和其它業(yè)者所大規(guī)模采用。NVIDIA目前仍在探索深度學(xué)習(xí)和AI各種不同的應(yīng)用可行性。不過(guò),NVIDIA目前正快速搶進(jìn)、寄望成為AI革命背后的關(guān)鍵推手,該公司從2012年以來(lái),已明顯地改善了旗下GPU生態(tài)系統(tǒng),NVIDIA已經(jīng)擴(kuò)增AI應(yīng)用達(dá)4倍之多,從108項(xiàng)到460項(xiàng),而且也積極擴(kuò)展其開發(fā)者基礎(chǔ)達(dá)10倍之多,從原先大約5萬(wàn)人到目前超過(guò)50萬(wàn)人之多。
過(guò)去2年來(lái),超大規(guī)模(hyperscale)資料中心客戶(例如Google或亞馬遜),從NVIDIA資料中心部門里微不足道的客戶組成增長(zhǎng)到該部門成長(zhǎng)最為快速的客戶群,如此快速的增長(zhǎng),其實(shí)是導(dǎo)因于云端運(yùn)算的三大支柱所驅(qū)動(dòng)的:
其一,云端業(yè)者導(dǎo)入GPU作為內(nèi)部深度學(xué)習(xí)訓(xùn)練任務(wù)之用;其二,云端業(yè)者亟需深度學(xué)習(xí)推論任務(wù)所要求的運(yùn)算能力;其三,云端業(yè)者也開始在云端服務(wù)中提供GPU運(yùn)算服務(wù),包括Google、百度、騰訊、和IBM等均讓用戶使用NVIDIA的Tesla GPU和深度學(xué)習(xí)云端服務(wù)。
NVIDIA的競(jìng)爭(zhēng)對(duì)手 Google和英特爾分別以TPU和ASIC、FPGA尬場(chǎng)
NVIDIA目前可說(shuō)是在AI領(lǐng)域里的市場(chǎng)領(lǐng)先者,在深度學(xué)習(xí)訓(xùn)練方面幾乎占據(jù)了近乎寡占優(yōu)勢(shì),如今,該公司正積極開發(fā)各種解決方案、企圖挺進(jìn)深度學(xué)習(xí)的推論領(lǐng)域。不過(guò),AI市場(chǎng)上的強(qiáng)勁增長(zhǎng)商機(jī)也同時(shí)吸引了其它大型科技業(yè)者的青睞,包括Google、英特爾等在內(nèi)的高科技業(yè)者均企圖與NVIDIA一較高下。
Google甫于5月底揭露了該公司第二代的TPU(tensor processing units),聲稱可以同時(shí)處理深度學(xué)習(xí)的訓(xùn)練和推論這兩大任務(wù),至于Google原先第一代的TPU只能執(zhí)行推論任務(wù)。在此同時(shí),Google表示,第二代的TPU執(zhí)行深度學(xué)習(xí)的訓(xùn)練任務(wù)遠(yuǎn)比NVIDIA的GPU來(lái)得更令人滿意,因此,Google計(jì)劃免費(fèi)提供1,000顆云端TPU給Open AI的研究者好讓其Google Cloud更具有競(jìng)爭(zhēng)力。
然而,即使就效能表現(xiàn)而言,Google的TPU當(dāng)真遠(yuǎn)比NVIDIA的GPU來(lái)得更具有競(jìng)爭(zhēng)力,但Google仍不太可能會(huì)成為NVIDIA的直接競(jìng)爭(zhēng)對(duì)手,畢竟,Google的TPU基本上并不打算對(duì)外銷售,只計(jì)劃提供公司內(nèi)部使用,也就是說(shuō),對(duì)NVIDIA的沖擊最多在于Google本身可能減少對(duì)NVIDIA的GPU采購(gòu)。
不過(guò),上述Google免費(fèi)提供TPU的盤算,在于企圖把TPU用戶鎖在Google自家的TensorFlow AI架構(gòu)里,相對(duì)地,NVIDIA的GPU卻是可以透過(guò)大多數(shù)的云端平臺(tái)接取,也能運(yùn)行大多數(shù)的AI架構(gòu),包括Caffe、Torch和PaddlePaddle。
至于在英特爾方面,英特爾先前收購(gòu)了AI新創(chuàng)企業(yè)Nervana Systems,該公司開發(fā)了一種ASIC芯片,稱為Nervana Engine,號(hào)稱其運(yùn)算能力比起GPU高出10倍。英特爾收歸旗下后,計(jì)劃將此ASIC集成進(jìn)入自家的Knights Mill Xeon Phil處理器,作為深度學(xué)習(xí)之用,預(yù)計(jì)在2017年下半發(fā)表。
在此同時(shí),英特爾還打算集成Altera的FPGA芯片到旗下的服務(wù)器處理器當(dāng)中。值得注意的是,相較于耗電的GPU而言,F(xiàn)PGA功耗來(lái)得比較低,從云端資料中心的角度出發(fā),可以省下明顯的成本支出,然而,有監(jiān)于FPGA需要在硬件和軟件方面的專家來(lái)進(jìn)行程序化,相對(duì)而言,困難度較高。雖然微軟目前正在導(dǎo)入FPGA作為深度學(xué)習(xí)的訓(xùn)練之用,但該公司也開始采用NVIDIA的GPU進(jìn)行AI任務(wù)。
綜上所述,無(wú)論是GPU、TPU、ASIC還是FPGA等,并沒(méi)有一種放諸四海皆好用的AI應(yīng)用芯片,然不可諱言的是,NVIDIA目前正享有在AI領(lǐng)域的先發(fā)者優(yōu)勢(shì),但隨著未來(lái)AI市場(chǎng)的進(jìn)化以及競(jìng)爭(zhēng)對(duì)手的產(chǎn)品強(qiáng)化,NVIDIA勢(shì)必將面臨激烈挑戰(zhàn)。