隨著人工智能(AI)在各行各業(yè)加速落地應(yīng)用,企業(yè)領(lǐng)導(dǎo)者也開始從根本上重新思考數(shù)據(jù)中心的建設(shè)和運(yùn)營方式。同樣,AI在中國市場勢頭正猛,各行業(yè)正從“互聯(lián)網(wǎng)+”“5G+”向“人工智能+”加速轉(zhuǎn)變。根據(jù)《中國智算中心產(chǎn)業(yè)發(fā)展白皮書(2024年)》顯示,截至2024年11月,全國已投運(yùn)的智算中心項(xiàng)目近150個(gè),在建及規(guī)劃建設(shè)的智算中心項(xiàng)目近400個(gè)。此外,據(jù)中國移動(dòng)董事長楊杰預(yù)計(jì),未來3年中國市場智能算力規(guī)模增長將超2.5倍,年均復(fù)合增速近40%。
要滿足AI快速增長趨勢下的需求,僅僅增加容量是不夠的,關(guān)鍵在于解決該技術(shù)在現(xiàn)實(shí)應(yīng)用中會(huì)帶來的獨(dú)特問題。
在如今的新時(shí)代,數(shù)據(jù)中心必須支持強(qiáng)大的算力、更快的構(gòu)建速度和更高密度的環(huán)境——這一切都需要能夠跟上AI發(fā)展步伐的基礎(chǔ)設(shè)施來支撐。而光纖正是這種關(guān)鍵基礎(chǔ)設(shè)施的核心。
數(shù)據(jù)中心面臨的AI挑戰(zhàn)
AI的發(fā)展步伐與互聯(lián)網(wǎng)早期足跡如出一轍,但發(fā)展速度卻快得多。過去網(wǎng)絡(luò)規(guī)模的應(yīng)用需要數(shù)十年才能建立,而AI如今僅需短短幾年便能實(shí)現(xiàn)。這就對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施提出了前所未有的要求。
為了跟上這一發(fā)展步伐,數(shù)據(jù)中心的設(shè)計(jì)也在迅速演進(jìn)。高性能圖形處理器(GPU)對(duì)AI工作負(fù)載至關(guān)重要,其對(duì)服務(wù)器之間的連接需求也是前所未有地迫切。與此同時(shí),在基于中央處理器(CPU)的傳統(tǒng)數(shù)據(jù)中心設(shè)計(jì)中,電源和冷卻方面的限制往往意味著機(jī)柜中可容納的服務(wù)器或GPU節(jié)點(diǎn)更少,這因而導(dǎo)致連接所有設(shè)備所需的布線量急劇增加,遠(yuǎn)超傳統(tǒng)數(shù)據(jù)中心。每臺(tái)服務(wù)器都需要高速連接到交換機(jī)、存儲(chǔ)系統(tǒng)和管理工具,對(duì)網(wǎng)絡(luò)造成了巨大的壓力。
以NVIDIA的DGX SuperPOD為例,作為AI基礎(chǔ)設(shè)施的典范,它包含32臺(tái)GPU服務(wù)器,單排連接18臺(tái)交換機(jī)。僅這一配置就需要384條400GE光纖鏈路來處理整個(gè)集群的數(shù)據(jù)傳輸,這還不包括用于存儲(chǔ)和管理的額外連接。數(shù)據(jù)中心機(jī)房內(nèi)部所需的光纖布線量顯著增加,這也直觀地反映出傳統(tǒng)網(wǎng)絡(luò)設(shè)計(jì)已不再適用的原因。
密度的增加就要求采用新的能源管理和冷卻方法,以處理更高的功耗和熱量輸出,同時(shí)支持高度互聯(lián)系統(tǒng)中持續(xù)、大量的內(nèi)部數(shù)據(jù)流量。
與此同時(shí),大規(guī)模數(shù)據(jù)中心建設(shè)和日常運(yùn)營中都存在勞動(dòng)力短缺問題,這也會(huì)減緩數(shù)據(jù)中心的部署速度,并增加維護(hù)這些日益復(fù)雜的環(huán)境的難度。
在這些壓力的共同作用下,數(shù)據(jù)中心無法再依賴傳統(tǒng)的設(shè)計(jì)或漸進(jìn)式的升級(jí)。要想有效地?cái)U(kuò)展AI應(yīng)用,就必須徹底重新思考數(shù)據(jù)傳輸、電力供應(yīng)和熱量管理的方式,同時(shí)確保速度、可靠性和可擴(kuò)展性。
而網(wǎng)絡(luò)在其中扮演了至關(guān)重要的角色。網(wǎng)絡(luò)的核心是光纖創(chuàng)新,它為AI就緒型數(shù)據(jù)中心奠定了重要基石。
利用光纖讓數(shù)據(jù)中心為AI就緒
對(duì)于數(shù)據(jù)中心運(yùn)營商而言,AI正在徹底重塑其設(shè)施的基石。僅僅關(guān)注算力的傳統(tǒng)思維已不再足夠。成功的關(guān)鍵在于連接一切的網(wǎng)絡(luò),它必須確保海量數(shù)據(jù)能夠快速、可靠且不間斷地傳輸。
正因如此,我們需要將光纖視為AI就緒型數(shù)據(jù)中心運(yùn)營的基石。AI工作負(fù)載依賴于GPU之間的高速、低延遲連接,讓它們協(xié)同工作并且需要通過網(wǎng)絡(luò)進(jìn)行擴(kuò)展,將成千上萬的GPU整合到快速興起的AI工廠中。如果沒有完善的基礎(chǔ)設(shè)施設(shè)計(jì)就會(huì)出現(xiàn)瓶頸,進(jìn)而導(dǎo)致性能下降、成本上升和可擴(kuò)展性停滯。
為了滿足這些需求,光纖網(wǎng)絡(luò)必須不斷演進(jìn)。如今的數(shù)據(jù)中心需要更密集、容量更大的光纖,既能處理海量數(shù)據(jù)流,又能在同樣大小的物理空間內(nèi)部署。同時(shí),隨著熟練勞動(dòng)力的短缺和加速部署的壓力,光纖安裝也必須更快且更簡單。這推動(dòng)了向預(yù)端接光纖解決方案的轉(zhuǎn)變:即插即用的系統(tǒng)能夠簡化數(shù)據(jù)中心的建設(shè)并減少停機(jī)時(shí)間。
保持領(lǐng)先意味著要洞察市場趨勢。越來越多部署大型AI集群的數(shù)據(jù)中心運(yùn)營商正在從點(diǎn)對(duì)點(diǎn)布線轉(zhuǎn)向更具可擴(kuò)展性的結(jié)構(gòu)化布線系統(tǒng)。單模光纖和多模光纖的選擇依然關(guān)鍵,具體取決于設(shè)施的規(guī)模和設(shè)計(jì),而InfiniBand和以太網(wǎng)在管理不同類型的AI流量方面持續(xù)發(fā)揮著至關(guān)重要的作用。
與此同時(shí),業(yè)界正在朝更高速度和更大容量的方向邁進(jìn),以支持下一代性能的提升,從400 Gb/s邁向800 Gb/s、1.6 Tb/s、甚至更高的速度,并通過8芯和12芯光纖連接實(shí)現(xiàn)這一目標(biāo)。未來,隨著對(duì)更高傳輸速度的需求不斷增加,16芯光纖連接有望成為行業(yè)發(fā)展的新趨勢。
展望未來,光纖的角色不僅是解決方案的一部分,更是未來發(fā)展的基石。在AI時(shí)代,能夠占據(jù)領(lǐng)先地位的數(shù)據(jù)中心將是那些能夠以更高的速度傳輸更多數(shù)據(jù)、實(shí)現(xiàn)最大化利用并無縫擴(kuò)展以支持未來AI技術(shù)和架構(gòu)的數(shù)據(jù)中心。
隨著AI不斷重新定義各行各業(yè),高性能光纖基礎(chǔ)設(shè)施將成為確保數(shù)據(jù)中心不僅能滿足當(dāng)下需求,更能適應(yīng)未來AI驅(qū)動(dòng)型創(chuàng)新的關(guān)鍵所在。