12 月 12 日消息,谷歌今天(12 月 12 日)發(fā)布博文,宣布正式向 Google Cloud 客戶(hù)開(kāi)放第六代 TPU Trillium,希望憑借大的計(jì)算能力、高效的性能和可持續(xù)特性,更好推動(dòng) AI 模型發(fā)展。
Trillium TPU 是 Google Cloud AI 超級(jí)計(jì)算機(jī)(AI Hypercomputer)的關(guān)鍵組件,是一種突破性的超級(jí)計(jì)算機(jī)架構(gòu),采用了一個(gè)由性能優(yōu)化的硬件、開(kāi)放軟件、領(lǐng)先的機(jī)器學(xué)習(xí)框架和靈活的消費(fèi)模型組成的集成系統(tǒng)。
曾于今年 5 月報(bào)道,在 I/O 開(kāi)發(fā)者大會(huì)上,谷歌正式宣布 Trillium TPU。官方稱(chēng)相比上一代,Trillium TPU 在訓(xùn)練性能上提升 4 倍以上,推理吞吐量提升高達(dá) 3 倍,峰值計(jì)算性能提升 4.7 倍。
在效率方面,Trillium TPU 能源效率提高 67%,每美元訓(xùn)練性能提升高達(dá) 2.5 倍,推理性能提升高達(dá) 1.4 倍。
在規(guī)模擴(kuò)展方面,單個(gè) Jupiter 網(wǎng)絡(luò)結(jié)構(gòu)可容納 10 萬(wàn)個(gè) Trillium 芯片,雙倍的 HBM 容量和 ICI 帶寬,支持大規(guī)模 AI 訓(xùn)練。
官方稱(chēng) Trillium 近乎線(xiàn)性的擴(kuò)展能力,配合高速芯片互連和 Jupiter 數(shù)據(jù)中心網(wǎng)絡(luò),顯著加快大型模型訓(xùn)練速度,在訓(xùn)練 gpt3-175b 模型時(shí),即使跨數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)行,24 個(gè) Pod(6144 個(gè)芯片)也能達(dá)到 94% 的擴(kuò)展效率。