123,123

Meta训练Llama 3遭遇频繁故障

16384 块 H100 GPU 训练集群每 3 小时“罢工”一次

日期： 2024-07-29

來源：IT之家

關(guān)鍵詞： META Llama3 H100GPU

7 月 28 日消息，Meta 發(fā)布的一份研究報告顯示，其用于訓(xùn)練 4050 億參數(shù)模型 Llama 3 的 16384 個英偉達(dá) H100 顯卡集群在 54 天內(nèi)出現(xiàn)了 419 次意外故障，平均每三小時就有一次。其中，一半以上的故障是由顯卡或其搭載的高帶寬內(nèi)存（HBM3）引起的。

由于系統(tǒng)規(guī)模巨大且任務(wù)高度同步，單個顯卡故障可能導(dǎo)致整個訓(xùn)練任務(wù)中斷，需要重新開始。盡管如此，Meta 團(tuán)隊還是保持了 90% 以上的有效訓(xùn)練時間。

在為期 54 天的預(yù)訓(xùn)練中，共出現(xiàn)了 466 次工作中斷，其中 47 次是計劃中斷，419 次是意外中斷。計劃內(nèi)的中斷是由于自動化維護(hù)造成的，而意外的中斷則主要源于硬件問題。 GPU 問題是導(dǎo)致故障的主要原因，占意外中斷的 58.7%。其中只有三起事件需要大量人工干預(yù)，其余的由自動化管理。

在 419 個意外中斷中，148 個（30.1%）是由各種 GPU 故障（包括 NVLink 故障）引起的，而 72 個（17.2%）是由 GPU 的 HBM3 內(nèi)存故障引起的。有趣的是，54 天內(nèi)只有兩個 CPU 發(fā)生故障。41.3% 的意外中斷是由多種因素造成的，包括軟件錯誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

為提高效率，Meta 團(tuán)隊開發(fā)了一系列工具和優(yōu)化策略，包括縮短任務(wù)啟動和檢查點(diǎn)時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外，Meta 還關(guān)注到了環(huán)境因素的影響，如午間溫度波動對 GPU 性能的輕微影響，以及巨量 GPU 同時運(yùn)行對數(shù)據(jù)中心電網(wǎng)的巨大壓力。

然而，隨著人工智能模型參數(shù)量的不斷增加，所需的計算資源也隨之?dāng)U大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例，故障率可能會成倍增長，給未來的 AI 訓(xùn)練帶來更大的挑戰(zhàn)。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Meta训练Llama 3遭遇频繁故障

日期： 2024-07-29

來源：IT之家

相關(guān)內(nèi)容