7月23日消息,特斯拉、“X”、xAI CEO 埃隆·馬斯克 (Elon Musk)近日在“X”平臺上宣布,自己已經(jīng)啟動了“世界上最強大的 AI 集群”,以在今年12 月之前創(chuàng)建“世界上最強大的AI”——該系統(tǒng)在單個結(jié)構(gòu)上將集成10萬個英偉達(Nvidia)H100 GPU。
馬斯克表示,當(dāng)?shù)貢r間凌晨4:20左右開始,在xAI團隊、X團隊、Nvidia和支持公司的努力下,其孟菲斯超級計算工廠“Supercluster”開始正常運行——它在一個RDMA結(jié)構(gòu)上有10萬個液冷H100,是世界上最強大的人工智能訓(xùn)練集群!
今年 5 月,馬斯克曾表示在 2025 年秋季之前開設(shè)超級計算工廠,當(dāng)時,馬斯克匆匆忙忙地開始了Supercluster的工作,需要購買英偉達“Hopper”H100 GPU。這似乎表明,當(dāng)時這位科技大亨沒有耐心等待 H200 芯片推出,更不用說即將推出的基于 Blackwell 的 B100 和 B200 GPU。盡管預(yù)計較新的 Nvidia Blackwell 數(shù)據(jù)中心 GPU 將在 2024 年底之前發(fā)貨。
那么,根據(jù)最新的消息來看,原本計劃在2025年秋季開業(yè)的超級計算工廠,現(xiàn)在有望提前近一年的時間實現(xiàn)了。但目前下結(jié)論還為時尚早。但今年早些時候,路透社和The Information交談的消息人士似乎更有可能在項目時間上說錯了時間節(jié)點。此外,隨著 xAI Supercluster的啟動和運行,關(guān)于為什么 xAI 沒有等待更強大或下一代 英偉達GPU 的問題也得到了解答。
Supermicro 為 xAI 提供了大部分硬件,該公司的首席執(zhí)行官 Charles Liang 也對馬斯克的帖子發(fā)表了評論稱,“與馬斯克的孟菲斯團隊合作真是太棒了!為了實現(xiàn)目標,我們的執(zhí)行必須盡可能完美、盡可能快、盡可能高效、盡可能環(huán)保——大量的艱苦工作?!?/p>
在隨后的推文中,馬斯克解釋說,新的Supercluster”將“從各個方面訓(xùn)練世界上最強大的人工智能”。從之前的意向聲明來看,xAI 的 100,000 個 H100 GPU 安裝功能現(xiàn)在將針對 Grok 3 模型進行訓(xùn)練。馬斯克表示,改進后的LLM應(yīng)該在“今年12月之前”完成訓(xùn)練階段。
從規(guī)模上看,新的xAI的Supercluster在GPU算力上將會超越目前最強的超級計算機,比如Frontier(37,888個AMD GPU),Aurora(60,000個Intel GPU)和Microsoft Eagle(14,400個Nvidia H100 GPU)。