123,123

破解AI集群扩展中的关键瓶颈

日期： 2025-04-30

作者：是德科技产品营销经理Emily Yan

來源：是德科技

關(guān)鍵詞： 是德科技 AI集群

人工智能（AI）正以前所未有的速度向前發(fā)展，整個市場迫切需要更加強大、更加高效的數(shù)據(jù)中心來夯實技術(shù)底座。為此，各個國家以及不同類型的企業(yè)正在加大對人工智能基礎(chǔ)設(shè)施的投入。據(jù)《福布斯》報道，2025年，泛科技領(lǐng)域?qū)θ斯ぶ悄艿闹С鰧⒊^2500億美元，其中大部分投入將用于基礎(chǔ)設(shè)施建設(shè)。到 2029 年，全球?qū)Π〝?shù)據(jù)中心、網(wǎng)絡(luò)和硬件在內(nèi)的人工智能基礎(chǔ)設(shè)施的投資將達(dá)到4230億美元。

然而，人工智能技術(shù)的快速創(chuàng)新迭代也給數(shù)據(jù)中心網(wǎng)絡(luò)帶來了前所未有的壓力。例如，Meta最近發(fā)布的有關(guān)Llama 3 405B模型訓(xùn)練集群的論文顯示，該模型在預(yù)訓(xùn)練階段需要超過700 TB的內(nèi)存和16000顆英偉達(dá)H100 GPU芯片。據(jù)Epoch AI預(yù)計，到2030年，人工智能模型所需的計算能力將是目前領(lǐng)先模型的1萬倍。

如果企業(yè)擁有數(shù)據(jù)中心，那么部署人工智能只是時間問題。此篇是德科技署名文章旨在探討人工智能集群擴展面臨的關(guān)鍵挑戰(zhàn)，同時揭示為何“網(wǎng)絡(luò)會是新的瓶頸”。

人工智能集群的崛起

所謂人工智能集群就是一個高度互聯(lián)的大型計算資源網(wǎng)絡(luò)，用于處理人工智能工作負(fù)載。

與傳統(tǒng)的計算集群不同，人工智能集群針對人工智能模型訓(xùn)練、推理和實時分析等工作任務(wù)進(jìn)行了優(yōu)化。它們依靠數(shù)千個GPU、高速互連和低時延的網(wǎng)絡(luò)來滿足人工智能對密集計算和數(shù)據(jù)吞吐量的要求。

建設(shè)人工智能集群

人工智能集群的核心功能類似于一個小型網(wǎng)絡(luò)。構(gòu)建人工智能集群需要將GPU連接起來，形成一個高性能計算網(wǎng)絡(luò)，讓數(shù)據(jù)在GPU之間實現(xiàn)無縫傳輸。這其中強大的網(wǎng)絡(luò)連接至關(guān)重要，因為分布式訓(xùn)練往往需要使用數(shù)千個GPU進(jìn)行長時間并行計算。

人工智能集群的關(guān)鍵組成部分

如圖1所示，人工智能集群由多個重要部分組成。

圖1：AI數(shù)據(jù)中心集群

? 計算節(jié)點如同人工智能集群的大腦，由成千上萬個GPU組成并連接到了機架頂部的交換機。隨著復(fù)雜性的提升，對GPU的需求也在增加。

? 以太網(wǎng)等高速互聯(lián)技術(shù)可實現(xiàn)計算節(jié)點之間的快速數(shù)據(jù)傳輸。

? 網(wǎng)絡(luò)基礎(chǔ)設(shè)施包括網(wǎng)絡(luò)硬件和協(xié)議，它們能夠支持在數(shù)千個GPU之間進(jìn)行長時間的數(shù)據(jù)通信。

擴展人工智能集群

人工智能集群可進(jìn)行擴展，以應(yīng)對日益增長的人工智能工作負(fù)載和復(fù)雜性。直到近期，由于網(wǎng)絡(luò)帶寬、時延等因素的限制，人工智能集群的規(guī)模局限在約3萬個GPU。然而，xAI Colossus超級計算機項目打破了這一局限，將所使用的GPU數(shù)量擴展到了超過10萬顆英偉達(dá)H100 GPU芯片，網(wǎng)絡(luò)和內(nèi)存技術(shù)的進(jìn)步使得這一突破成為可能。

擴展面臨的關(guān)鍵挑戰(zhàn)

隨著人工智能模型的相關(guān)參數(shù)增長到數(shù)萬億個，人工智能集群的擴展會遇到大量來自技術(shù)和財務(wù)層面的阻礙。

網(wǎng)絡(luò)挑戰(zhàn)

GPU可以有效地執(zhí)行并行計算。然而，當(dāng)數(shù)千個甚至幾十萬個GPU在人工智能集群中共同執(zhí)行同一工作任務(wù)時，如果其中一個GPU缺乏所需的數(shù)據(jù)或遇到延遲等情況，其他GPU的工作就會停滯不前。這種長時間的數(shù)據(jù)包延遲或網(wǎng)絡(luò)擁堵造成的數(shù)據(jù)包丟失會導(dǎo)致需要重新傳輸數(shù)據(jù)包，從而大幅延長了任務(wù)完成時間（JCT），造成價值數(shù)百萬美元的GPU閑置。

此外，人工智能工作負(fù)載產(chǎn)生的東西向流量，也就是數(shù)據(jù)中心內(nèi)部計算節(jié)點之間的數(shù)據(jù)遷移，急劇增加，如果傳統(tǒng)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施沒有針對這些負(fù)載進(jìn)行優(yōu)化，可能會出現(xiàn)網(wǎng)絡(luò)擁堵和延遲問題。

互聯(lián)挑戰(zhàn)

隨著人工智能集群規(guī)模的拓展，傳統(tǒng)的互連技術(shù)可能難以支持必要的吞吐量。為了避免瓶頸問題，企業(yè)必須進(jìn)行升級迭代，采用更高速的互連技術(shù)，如800G甚至1.6T的解決方案。然而，要滿足人工智能工作負(fù)載的嚴(yán)格要求，部署和驗證此類高速鏈路并非易事。高速串行路徑必須經(jīng)過仔細(xì)調(diào)試和測試，以確保最佳的信號完整性、較低的誤碼率和長距可靠的前向糾錯（FEC）性能。高速串行路徑中的任何不穩(wěn)定因素都會降低可靠性并減慢人工智能訓(xùn)練的速度。企業(yè)需要采用高精度、高效率的測試系統(tǒng)，在高速互聯(lián)技術(shù)部署前對其進(jìn)行驗證。

財務(wù)挑戰(zhàn)

擴展人工智能集群的總成本遠(yuǎn)遠(yuǎn)不止于購買GPU的花費。企業(yè)必須將電源、冷卻、網(wǎng)絡(luò)設(shè)備和更廣泛的數(shù)據(jù)中心基礎(chǔ)設(shè)施等相關(guān)投入考慮在內(nèi)。然而，通過采用更出色的互連技術(shù)并借助經(jīng)過優(yōu)化的網(wǎng)絡(luò)性能來加速處理人工智能工作負(fù)載，可以縮短訓(xùn)練周期，并釋放資源用于執(zhí)行其他任務(wù)。這也意味著每節(jié)省一天的培訓(xùn)時間，就能大幅降低成本，因此對于財務(wù)風(fēng)險和技術(shù)風(fēng)險需要給予同等的重視。

測試和驗證面臨的挑戰(zhàn)

優(yōu)化人工智能集群的網(wǎng)絡(luò)性能需要對網(wǎng)絡(luò)架構(gòu)和GPU之間的互連技術(shù)進(jìn)行性能測試和基準(zhǔn)測試。然而，由于硬件、架構(gòu)設(shè)計和動態(tài)工作負(fù)載特性之間的關(guān)系錯綜復(fù)雜，對這些器件和系統(tǒng)進(jìn)行驗證具有很大的挑戰(zhàn)性。主要有三個常見的驗證問題需要解決。

第一，實驗室部署方面的限制

人工智能硬件成本高昂、可用的設(shè)備有限以及對專業(yè)網(wǎng)絡(luò)工程師的需求缺口，使得全盤復(fù)制變得不切實際。此外，實驗室環(huán)境通常在空間、電力和散熱方面受到限制，與現(xiàn)實世界的數(shù)據(jù)中心條件不同。

第二，對生產(chǎn)系統(tǒng)的影響

減少對生產(chǎn)系統(tǒng)的測試可能會造成破壞，并影響關(guān)鍵的人工智能操作。

第三，復(fù)雜的人工智能工作負(fù)載

人工智能工作負(fù)載和數(shù)據(jù)集的性質(zhì)多種多樣，在規(guī)模和通信模式上也有很大差異，因此很難重現(xiàn)問題并執(zhí)行一致性的基準(zhǔn)測試。

人工智能將重塑數(shù)據(jù)中心的產(chǎn)業(yè)格局，因此構(gòu)建面向未來的網(wǎng)絡(luò)基礎(chǔ)設(shè)施對于在技術(shù)和標(biāo)準(zhǔn)快速演進(jìn)的過程中保持領(lǐng)先地位至關(guān)重要。是德科技先進(jìn)的仿真解決方案可在部署前對網(wǎng)絡(luò)協(xié)議和系統(tǒng)運行的場景進(jìn)行全面驗證，進(jìn)而幫助企業(yè)獲得關(guān)鍵優(yōu)勢。是德科技致力于幫助網(wǎng)絡(luò)工程師降低人工智能工作負(fù)載的復(fù)雜性并優(yōu)化網(wǎng)絡(luò)性能，從而確保系統(tǒng)的可擴展性、效率，并為應(yīng)對人工智能需求做好充分準(zhǔn)備。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

破解AI集群扩展中的关键瓶颈

日期： 2025-04-30

作者：是德科技产品营销经理Emily Yan

來源：是德科技

相關(guān)內(nèi)容