123,123,123

阿里云展示用于大語言模型訓(xùn)練的自研網(wǎng)絡(luò)設(shè)計(jì)

日期： 2024-07-01

來源：芯智訊

關(guān)鍵詞： 阿里云大語言模型訓(xùn)練

6月29日消息，阿里云近日公布了其專門為訓(xùn)練大型語言模型（LLM）的超大數(shù)據(jù)傳輸而創(chuàng)建的以太網(wǎng)網(wǎng)絡(luò)設(shè)計(jì)，并且已在實(shí)際業(yè)務(wù)中使用了 8 個(gè)月。

阿里云之所以選擇以太網(wǎng)是出于避免過度依賴少數(shù)供應(yīng)商和利用“整個(gè)以太網(wǎng)聯(lián)盟的力量實(shí)現(xiàn)更快發(fā)展”的愿望。這一決定似乎也順應(yīng)了越來越多廠商開始支持以太網(wǎng)，逃離英偉達(dá)NVlink在云端AI互聯(lián)上的壟斷。

阿里巴巴的以太網(wǎng)網(wǎng)絡(luò)計(jì)劃是阿里云高級(jí)工程師、網(wǎng)絡(luò)研究研究員翟恩南（Ennan Zhai）的GitHub 頁面上披露的。翟恩南發(fā)布了一篇論文，該論文將在 8 月份的 SIGCOMM 會(huì)議上發(fā)表，該會(huì)議是美國計(jì)算機(jī)協(xié)會(huì)數(shù)據(jù)通信特別興趣小組的年度聚會(huì)。

這篇題為《阿里巴巴 HPN：用于大型語言模型訓(xùn)練的數(shù)據(jù)中心網(wǎng)絡(luò)》的論文開篇指出，流量云計(jì)算流量“……會(huì)產(chǎn)生數(shù)百萬個(gè)小流量（例如低于 10Gbit/秒）”，而大語言模型訓(xùn)練“會(huì)在每個(gè)主機(jī)上產(chǎn)生少量周期性、突發(fā)性的流量（例如 400Gbit/秒）”。

等價(jià)多路徑路由是一種常用的通過多條路徑將數(shù)據(jù)包發(fā)送到單個(gè)目的地的方法，但它容易出現(xiàn)哈希極化，這種現(xiàn)象會(huì)導(dǎo)致負(fù)載平衡困難并顯著減少可用帶寬。

阿里云的自制替代方案名為“高性能網(wǎng)絡(luò)”（HPN），“通過減少 ECMP 的出現(xiàn)來避免哈希極化，同時(shí)也大大減少了路徑選擇的搜索空間，從而使我們能夠精確選擇能夠容納大流量的網(wǎng)絡(luò)路徑?！?/p>

HPN 還解決了 GPU 在訓(xùn)練大型語言模型時(shí)需要同步工作的事實(shí)，這使得 AI 基礎(chǔ)設(shè)施對(duì)單點(diǎn)故障很敏感——尤其是機(jī)架頂部交換機(jī)。

因此，阿里巴巴的網(wǎng)絡(luò)設(shè)計(jì)使用了一對(duì)交換機(jī)——但不是交換機(jī)供應(yīng)商建議的堆疊配置。

堆滿了卡片

論文解釋稱，阿里云用于大型語言模型訓(xùn)練的每臺(tái)主機(jī)都包含 8 個(gè) GPU 和 9 個(gè)網(wǎng)絡(luò)接口卡 (NIC)，每個(gè)卡都有一對(duì) 200GB/秒的端口。其中一個(gè) NIC 負(fù)責(zé)處理“后端網(wǎng)絡(luò)”上的日常流量。

前端網(wǎng)絡(luò)允許主機(jī)中的每個(gè) GPU 通過以 400-900GB/秒（雙向）運(yùn)行的主機(jī)內(nèi)網(wǎng)絡(luò)直接與其他 GPU 通信。每個(gè) NIC 服務(wù)于單個(gè) GPU（阿里云稱之為“軌道”），這種安排使每個(gè)加速器以“專用的 400Gb/秒 RDMA 網(wǎng)絡(luò)吞吐量運(yùn)行，總帶寬為 3.2Tb/秒”。

論文指出：“這樣的設(shè)計(jì)旨在最大限度地利用 GPU 的 PCIe 功能（PCIe Gen5×16），從而將網(wǎng)絡(luò)發(fā)送/接收容量推向極限。”NIC 上的每個(gè)端口都連接到不同的機(jī)架頂部交換機(jī)，以避免單點(diǎn)故障。

阿里云表示傾向于使用以太網(wǎng)，這對(duì)于 AMD、博通、思科、谷歌、HPE、英特爾、Meta 和微軟來說無疑是個(gè)好消息。所有這些供應(yīng)商最近都加入了Ultra Accelerator Link （UALink）聯(lián)盟，旨在挑戰(zhàn)英偉達(dá)的 NVlink 網(wǎng)絡(luò)業(yè)務(wù)。

英特爾和 AMD 表示，該聯(lián)盟以及Ultra Ethernet等其他先進(jìn)網(wǎng)絡(luò)項(xiàng)目代表了一種更好的 AI 工作負(fù)載網(wǎng)絡(luò)化方式，因?yàn)閺拈L遠(yuǎn)來看，開放標(biāo)準(zhǔn)總是會(huì)獲勝，因?yàn)樗鼈兪箘?chuàng)新變得更加容易。

不過，盡管阿里云的 NPM 設(shè)計(jì)基于以太網(wǎng)，但它仍然有使用英偉達(dá)的技術(shù)。這家英偉達(dá)的 NVlink 用于主機(jī)內(nèi)網(wǎng)絡(luò)（帶寬比主機(jī)間網(wǎng)絡(luò)更大），并且還采用了“軌道優(yōu)化”設(shè)計(jì)方法，即每個(gè)網(wǎng)絡(luò)接口卡都連接到不同的機(jī)架頂部交換機(jī)組。

阿里巴巴的單芯片交換機(jī)統(tǒng)治地位

這篇論文還多次提到阿里云的架頂式交換機(jī)中有一個(gè)“51.2Tb/秒以太網(wǎng)單芯片交換機(jī)（于 2023 年初首次發(fā)布）”。有兩款設(shè)備符合這一描述：博通的Tomahawk ASIC于 2023 年 3 月出貨，思科的G200于同年 6 月上市。提到“2023 年初”似乎表明阿里云選擇了博通的解決方案。

無論阿里巴巴交換機(jī)的內(nèi)部情況如何，該論文表明中國云計(jì)算公司偏愛單芯片驅(qū)動(dòng)的交換機(jī)。

論文指出：“目前已經(jīng)出現(xiàn)了支持更高帶寬容量的多芯片機(jī)箱交換機(jī)”，并指出“阿里云在運(yùn)營數(shù)據(jù)中心網(wǎng)絡(luò)的長期經(jīng)驗(yàn)表明，多芯片機(jī)箱交換機(jī)比單芯片交換機(jī)帶來更多的穩(wěn)定性風(fēng)險(xiǎn)?！?/p>

據(jù)透露，該公司的單芯片交換機(jī)數(shù)量是多芯片交換機(jī)的 32.6 倍。而這些多芯片交換機(jī)發(fā)生嚴(yán)重硬件故障的概率是單芯片交換機(jī)的 3.77 倍。

需要 DIY 散熱器

雖然阿里云推崇單芯片交換機(jī)，并且很享受其采用的 51.2Tbit/秒設(shè)備的吞吐量是之前設(shè)備的兩倍，同時(shí)功耗僅增加 45% 這一事實(shí)，但新款設(shè)備的運(yùn)行溫度并不比之前的產(chǎn)品低。

如果芯片溫度超過 105°C，交換機(jī)可能會(huì)關(guān)閉。阿里云找不到能夠提供能夠?qū)⑿酒瑴囟缺３衷?105°C 以下的冷卻系統(tǒng)的交換機(jī)供應(yīng)商。因此它創(chuàng)建了自己的蒸汽室散熱器。

論文解釋道：“通過優(yōu)化燈芯結(jié)構(gòu)并在芯片中心部署更多的燈芯柱，熱量可以更有效地傳導(dǎo)?！?/p>

數(shù)據(jù)中心設(shè)計(jì)披露

以上所有設(shè)備都內(nèi)置于每個(gè)容納 15,000 個(gè) GPU 的“艙室”中，每個(gè)艙室都位于一個(gè)數(shù)據(jù)中心建筑內(nèi)。

論文透露：“阿里云所有投入使用的數(shù)據(jù)中心建筑的總功率約束為 18MW，而一棟 18MW 的建筑可容納約 15K 個(gè) GPU”，并補(bǔ)充道，“與 HPN 結(jié)合，每棟建筑都可以完美容納整個(gè) Pod，從而在同一棟建筑內(nèi)形成主要的鏈接?！?/p>

大樓內(nèi)的所有光纖長度均在100米以內(nèi)，從而可以“使用成本較低的多模光纖收發(fā)器（與單模光纖收發(fā)器相比，成本降低70％）?！?/p>

但事情并非全是美好的：論文承認(rèn)“HPN 引入了額外的設(shè)計(jì)……使得布線變得更加復(fù)雜?！?/p>

“特別是在構(gòu)建 HPN 的初期，現(xiàn)場(chǎng)工作人員會(huì)犯很多接線錯(cuò)誤?！边@意味著需要進(jìn)行額外的測(cè)試。

論文還指出，單個(gè)以太網(wǎng)芯片的轉(zhuǎn)發(fā)容量每兩年翻一番。因此，阿里云已經(jīng)在“設(shè)計(jì)配備更高容量單芯片交換機(jī)的下一代網(wǎng)絡(luò)架構(gòu)”。

“我們?cè)谙乱淮鷶?shù)據(jù)中心的土地建設(shè)規(guī)劃中，對(duì)單棟建筑的總功率約束進(jìn)行了調(diào)整，以覆蓋更多的GPU，這樣新數(shù)據(jù)中心交付時(shí)，就可以直接配備102.4Tbit/sec的單片交換機(jī)和下一代HPN?！?/p>

論文還指出，訓(xùn)練具有數(shù)千億個(gè)參數(shù)的 LLM“依賴于大規(guī)模分布式訓(xùn)練集群，通常配備數(shù)千萬個(gè) GPU”。

阿里云自己的 Qwen 模型有一個(gè)經(jīng)過 1100 億個(gè)參數(shù)訓(xùn)練的變體——這意味著它有大量使用 NPM 的 pod，以及數(shù)百萬個(gè)生產(chǎn)中的 GPU。隨著其模型和數(shù)據(jù)中心變得越來越大、越來越多，它還需要更多。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

阿里云展示用于大語言模型訓(xùn)練的自研網(wǎng)絡(luò)設(shè)計(jì)

日期： 2024-07-01

來源：芯智訊

相關(guān)內(nèi)容