在GTC 2017大上,NVIDIA正式發(fā)布了史上最強(qiáng)大的“核彈”--旗艦計(jì)算卡Tesla V100。Tesla V100是基于Volta架構(gòu)的產(chǎn)品,內(nèi)置了5120個(gè)CUDA單元,核心頻率為1455MHz,搭載16GB HBM2顯存,單精度浮點(diǎn)性能15 TFLOPS,雙精度浮點(diǎn)7.5 TFLOPS,顯存帶寬900GB/s。此外,Tesla V100還增加與深度學(xué)習(xí)高度相關(guān)的Tensor單元,Tensor性能號(hào)稱可以達(dá)到120 TFLOPS。
如此“堆料”讓Tesla V100擁有超過210億個(gè)晶體管,核心面積達(dá)到了創(chuàng)紀(jì)錄的815平方毫米,采用的是12nmFFN工藝制造(其實(shí)是16nm深度改良)。NVIDIA表示,Tesla V100將首先用在用于深度學(xué)習(xí)超算DGX-1上,內(nèi)部擁有8張Tesla V100計(jì)算卡,峰值計(jì)算性能高達(dá)960 TFLOPS,號(hào)稱用8個(gè)小時(shí)就能完成TITAN X八天的工作量。
為什么深度學(xué)習(xí)和存在許久的 GPU 扯上了關(guān)系?就像黃仁勛說的, “人工智能帶來了人類歷史上最大的科技進(jìn)步。”深度學(xué)習(xí)是一個(gè)人工智能開創(chuàng)性的方向,讓計(jì)算機(jī)可以自己學(xué)習(xí),這就極大地要求了處理性能的提升。事實(shí)上,由于GPU適用于并行計(jì)算(用上千個(gè)非常小的處理器組合在一起來共同解決問題),它可以用于非常密集的訓(xùn)練,非常符合深度學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算特征。所以,大部分的深度學(xué)習(xí)網(wǎng)絡(luò)都是在 GPU 上運(yùn)行。
不過盡管 GPU 被證明非常適合并行處理,但是也有不少研究表明,最終業(yè)界還是會(huì)需要專門為 AI 設(shè)計(jì)的架構(gòu)。早就看到這一點(diǎn)的黃仁勛怎么可能讓 Nvidia 光躺著數(shù)錢呢?盡管別家都還沒能跟上,但他就已經(jīng)帶著英偉達(dá)率先往這個(gè)方向走了。在今天的演講里,黃仁勛宣布推出了 Volta —— 一個(gè)可以說是現(xiàn)在地表最強(qiáng)的 GPU 架構(gòu),專門為人工智能和高性能計(jì)算打造,重新又掀起了一場(對(duì)手只有它自己)的性能大戰(zhàn)。
盡管仍然被稱為 GPU,但是 Volta 遠(yuǎn)不止于此。除了加強(qiáng)了 GPU 架構(gòu)以外,英偉達(dá)還增加了640個(gè)新的張量內(nèi)核,與標(biāo)準(zhǔn)GPU CUDA核心配合使用,為深度學(xué)習(xí)環(huán)境添加額外的處理能力。黃仁勛說,英偉達(dá)超過7000名工程師花費(fèi)了超過3年的時(shí)間,才打造出了 Volta,來滿足深度學(xué)習(xí)的需求,讓工業(yè)界有機(jī)會(huì)去實(shí)現(xiàn)人工智能的顛覆性的潛力。
Volta 到底有多強(qiáng)?可以用數(shù)字來說話:作為英偉達(dá)第7代 GPU 架構(gòu),它是集成了210億晶體管,具有 5120 個(gè) CUDA 處理內(nèi)核,可以和100臺(tái) GPU 在進(jìn)行深度學(xué)習(xí)處理上的性能相抗衡;相比起前一代的Pascal ,它有了5倍的性能提升,而比起兩年前才推出的Maxwell 架構(gòu),性能提升了15倍!
這個(gè)性能表現(xiàn)比起摩爾定律能預(yù)測的,直接翻了4倍。(事實(shí)上,在這個(gè)方面,英偉達(dá)永遠(yuǎn)都是在和自己較勁)。
開發(fā)者,數(shù)據(jù)分析師和研究員們都越來越依賴于神經(jīng)網(wǎng)絡(luò)來驅(qū)動(dòng)他們所有的工作,比如自動(dòng)駕駛,環(huán)境保護(hù),農(nóng)業(yè)生產(chǎn)甚至是癌癥攻克都是如此。而由于網(wǎng)絡(luò)變得越來越復(fù)雜,數(shù)據(jù)中心也需要提供更大的處理能力,他們需要高效地?cái)U(kuò)張,來支持基于人工智能服務(wù)的應(yīng)用,比如自然語言處理的虛擬助手,個(gè)性化搜索和推薦系統(tǒng)等。
Volta 可以說意味著深度學(xué)習(xí)引擎的一個(gè)轉(zhuǎn)折,從 原來的 GPU 或者說通用的處理器引擎,到一個(gè)接近專門的人工智能引擎。所以,而當(dāng)黃仁勛掏出一個(gè)小小的處理器時(shí),全場都激動(dòng)起來:這樣一個(gè)其實(shí)和 Apple Watch 大小差不多的芯片,就是第一個(gè)采用了Volta 架構(gòu)的Tesla V100。黃仁勛甚至開玩笑說,他們在Volta 的研發(fā)上砸了30億美元,這作為Volta架構(gòu)的第一代產(chǎn)品,現(xiàn)在世界上還僅此一臺(tái)的Tesla V100,價(jià)值就超過了30億美元。
作為新一代的“核彈”,Tesla V100 性能爆表,可以說是開啟了 AI處理器計(jì)算性能的新時(shí)代,說它是當(dāng)今世界上表現(xiàn)最強(qiáng)的并行計(jì)算處理器一點(diǎn)都不夸張。GV100 擁有大量新的硬件創(chuàng)新,為深度學(xué)習(xí)算法和框架提供了巨大的加速,此外還為高性能計(jì)算系統(tǒng)和應(yīng)用提供了更多的計(jì)算馬力。