Google今天在一篇論文中公布了Tensor人工智能服務器處理芯片TPU的詳細資料。TPU是一種專門為本地高效率處理人工智能計算任務設計的服務器芯片,Google公司從2015年就開始使用這種芯片,雖然2016年Google曾經(jīng)曝光該芯片的存在,但是并未提供任何技術方面的細節(jié)信息。
在今天的全國工程師學術會議上,TPU論文的75位聯(lián)合作者之一,David Patterson就TPU的技術論文發(fā)表了演講。
Patterson指出,Google依賴TPU來完成人工智能神經(jīng)網(wǎng)絡第二階段的計算任務。首先,在第一階段Google用大量數(shù)據(jù)訓練神經(jīng)網(wǎng)絡,這個階段的計算任務主要依靠服務器GPU來加速,然后,Google使用TPU來更有效率地推斷新數(shù)據(jù),Google宣稱GPU在新數(shù)據(jù)推斷方面的性能表現(xiàn)大大優(yōu)于GPU或者x86處理器芯片。
“雖然一些應用的處理器使用率并不高,但是TPU的處理速度依然能夠比當下的GPU或CPU快上15-30倍”,Google在論文中寫道。Google所指的“當下的GPUS和CPU”,分別是Nvidia的TeslaK80和英特爾Haswell 架構Xeon E5-2699 v3這樣的“當紅炸子雞”。
過去五年,AMD和Nvidia兩大顯卡廠商憑借人工智能熱潮重新回到IT產(chǎn)業(yè)聚光燈下,而顯卡GPU也成了深度學習的默認低成本基礎設施技術,這其中Google也起到不小的推動作用。但是Google、微軟等IT巨頭從未放棄其他人工智能芯片技術領域的探索,這其中包括用來處理多種AI工作任務的FPGA芯片技術。而TPU則是Google的原創(chuàng)技術,已經(jīng)應用于Google圖像搜索、GoogleCloud Vision API等生產(chǎn)環(huán)境。
TPU處理器芯片的內(nèi)存是K80這樣的GPU芯片的3.5倍,而體積卻更小,每瓦特功耗的處理性能則是GPU的30-80倍。
相比大多數(shù)IT互聯(lián)網(wǎng)企業(yè),Google是人工智能神經(jīng)網(wǎng)絡的先行者和踐行者,早在2013年Google就宣稱為了滿足不斷膨脹的人工智能計算需求,Google需要將當時的數(shù)據(jù)中心服務器計算力提高一倍,而如果基于通用芯片實現(xiàn)這一點,成本會高得難以承受,因此Google開始研發(fā)性能價格比10倍于GPU的人工智能專用芯片。
為了提高TPU的部署效率,Google的TPU沒有選擇于CPU集成,而是以協(xié)處理器的方式直接插入PCIe總線,可以像GPU一樣在現(xiàn)有的服務器上“即插即用”。從設計架構的角度來看,TPU更接近FPU(浮點運算協(xié)處理器)而不是GPU。