在淘金熱時(shí)期,懷揣著致富夢(mèng)想的探礦者們紛紛涌入美國(guó)西部,希望通過(guò)淘金發(fā)家致富。如今,科技領(lǐng)域的開(kāi)拓者也同樣躍躍欲試,希望在人工智能(AI)領(lǐng)域大展拳腳。普華永道(PWC)估計(jì),到2030年,全球經(jīng)濟(jì)總收益的45%將由人工智能驅(qū)動(dòng),越來(lái)越多的行業(yè)將受益于人工智能帶來(lái)的生產(chǎn)力和產(chǎn)品性能提升。普華永道的研究進(jìn)一步指出,人工智能有望為全球GDP額外貢獻(xiàn)15.7萬(wàn)億美元,增幅約為14%。然而,這一具有劃時(shí)代意義的經(jīng)濟(jì)機(jī)遇,對(duì)計(jì)算能力和功率密度的需求已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了當(dāng)前的承載能力。
無(wú)論是為淘金者提供商品、服務(wù)和安全保障,還是為企業(yè)提供服務(wù)器、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)設(shè)施和數(shù)據(jù)存儲(chǔ),基礎(chǔ)設(shè)施始終是推動(dòng)發(fā)展的重要驅(qū)動(dòng)力。隨著人工智能應(yīng)用的增加,對(duì)人工智能就緒的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)容量的需求早已超過(guò)了其可用性。這一劃時(shí)代的經(jīng)濟(jì)機(jī)遇推動(dòng)了對(duì)計(jì)算能力和功率密度的需求,使其超出了現(xiàn)有能力所能處理的范圍。
全球政府和商界領(lǐng)袖都將目光投向了人工智能(AI)所帶來(lái)的無(wú)限可能。政府的政策框架和投資計(jì)劃,為各方在人工智能“淘金熱”中搶占一席之地提供了政策框架和資金支持。
企業(yè)和產(chǎn)業(yè)界也在大力投資基礎(chǔ)設(shè)施建設(shè),以支持未來(lái)的創(chuàng)新發(fā)展。據(jù)《福布斯》11月估計(jì),2025年,大型科技公司在人工智能方面的支出將超過(guò)2500億美元,其中大部分投入將用于基礎(chǔ)設(shè)施建設(shè)。僅微軟一家公司今年就將投資800億美元用于建設(shè)具備訓(xùn)練強(qiáng)大人工智能模型所需能力和速度的數(shù)據(jù)中心。這些數(shù)字看似驚人,但為了滿足對(duì)計(jì)算能力的需求,確保人工智能創(chuàng)新不會(huì)停滯不前,這些投資是必不可少的。
計(jì)算能力:當(dāng)今世界最寶貴的資源
人工智能數(shù)據(jù)中心提供人工智能工作負(fù)載所需的海量數(shù)據(jù)存儲(chǔ)空間、閃電般快速的網(wǎng)絡(luò)連接,以及高性能計(jì)算(HPC)能力,并以此推動(dòng)人工智能的創(chuàng)新。人工智能數(shù)據(jù)中心還擁有精密的冷卻和功率管理系統(tǒng),能夠應(yīng)對(duì)人工智能硬件因高密度功率需求而帶來(lái)的相關(guān)挑戰(zhàn)。如果沒(méi)有這些獨(dú)特的功能,如今推動(dòng)人工智能突破極限的開(kāi)拓性創(chuàng)新就不可能實(shí)現(xiàn)。然而,隨著越來(lái)越多的企業(yè)希望利用人工智能的潛力,人工智能數(shù)據(jù)中心的設(shè)計(jì)及其采用的系統(tǒng)也必須不斷發(fā)展。
人工智能系統(tǒng)扎根于機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)技術(shù),這兩種技術(shù)都以計(jì)算強(qiáng)度大而“聲名在外”。人工智能模型在訓(xùn)練過(guò)程中會(huì)處理大量數(shù)據(jù)。它們會(huì)在整個(gè)訓(xùn)練過(guò)程中調(diào)整和完善參數(shù),以優(yōu)化性能。即使對(duì)于基本模型而言,這也是一個(gè)計(jì)算密集型過(guò)程。
短短幾年間,基于人工智能的應(yīng)用已經(jīng)發(fā)展到了收益遞減的階段。業(yè)界需要越來(lái)越復(fù)雜的模型來(lái)增強(qiáng)現(xiàn)有用例,并推動(dòng)生成式人工智能(gen AI)等新興用例的發(fā)展。然而,隨著模型越來(lái)越先進(jìn),其對(duì)計(jì)算能力的要求也與日俱增,訓(xùn)練高級(jí)人工智能和機(jī)器學(xué)習(xí)算法所需的計(jì)算能力也會(huì)呈指數(shù)級(jí)攀升。OpenAI早期的生成式人工智能機(jī)器模型就是這種龐大計(jì)算能力需求的典型展示。在六年時(shí)間里,該公司的機(jī)器學(xué)習(xí)模型運(yùn)行所需的計(jì)算能力增長(zhǎng)了驚人的30萬(wàn)倍。
六年前,在獲取訓(xùn)練模型(這些模型后來(lái)發(fā)展成為ChatGPT)的資源方面,OpenAI幾乎不會(huì)遇到什么競(jìng)爭(zhēng)對(duì)手。然而如今訓(xùn)練生成式人工智能模型的“參與者”大幅增加,所有人都在爭(zhēng)奪那增長(zhǎng)幅度極為有限的資源。生產(chǎn)下一個(gè)ChatGPT所需的大規(guī)模計(jì)算能力變得珍貴而有限。擴(kuò)大這種資源的使用范圍是一件成本高昂的事情,這一點(diǎn)從為構(gòu)建這些資源而進(jìn)行的投資規(guī)模就可見(jiàn)一斑。隨著人工智能的飛速發(fā)展,人工智能數(shù)據(jù)中心開(kāi)發(fā)人員正在尋找解決方案,以確保這些關(guān)鍵的創(chuàng)新驅(qū)動(dòng)因素能夠適應(yīng)和擴(kuò)展,從而滿足未來(lái)的需求。
為不可預(yù)測(cè)的情況制定應(yīng)對(duì)之策
在人工智能時(shí)代構(gòu)筑數(shù)據(jù)中心意味著要確保這些設(shè)施能夠適應(yīng)大規(guī)模GPU集群的功耗,適應(yīng)云計(jì)算和邊緣計(jì)算之間動(dòng)態(tài)變化的平衡,并提高容量以跟上不斷增長(zhǎng)的需求,避免出現(xiàn)中斷或停機(jī)的情況。除了通過(guò)建設(shè)新數(shù)據(jù)中心來(lái)擴(kuò)充容量外,確保數(shù)據(jù)中心的可靠性和安全性也至關(guān)重要。目前,傳統(tǒng)的數(shù)據(jù)中心測(cè)試解決方案用于設(shè)計(jì)和測(cè)試構(gòu)成人工智能數(shù)據(jù)中心的各類組件和系統(tǒng)。但這種方法已經(jīng)難以為繼,人們亟需一種全新途徑。
人工智能數(shù)據(jù)中心由錯(cuò)綜復(fù)雜的系統(tǒng)組成,而這些系統(tǒng)又是由一個(gè)個(gè)獨(dú)立組件組成的復(fù)雜網(wǎng)絡(luò)。其中任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,這些支撐創(chuàng)新和市場(chǎng)資本支出的基礎(chǔ)設(shè)施就會(huì)受到影響。因此,人工智能數(shù)據(jù)中心的可靠性取決于其最薄弱的環(huán)節(jié)。在追求高性能的前沿領(lǐng)域,每一塊芯片、每一根電纜、每一次互連、每一臺(tái)交換機(jī)、每一臺(tái)服務(wù)器和每一塊GPU都蘊(yùn)含著巨大的潛力,也都伴隨著同等程度的風(fēng)險(xiǎn)。為了降低這種風(fēng)險(xiǎn),每個(gè)組件都必須能作為一個(gè)系統(tǒng),在日益增長(zhǎng)的需求下獨(dú)立、協(xié)調(diào)地工作。
構(gòu)建能夠應(yīng)對(duì)人工智能工作負(fù)載巨大需求的網(wǎng)絡(luò),意味著要對(duì)每個(gè)組件、連接和配置進(jìn)行驗(yàn)證。由于其所涉及的巨大風(fēng)險(xiǎn)和規(guī)模,即使是最小的效率提升、運(yùn)營(yíng)改進(jìn)或性能增強(qiáng),都會(huì)抵消創(chuàng)新的收益遞減。因此,要想在這場(chǎng)現(xiàn)代“淘金熱”中獲得成功和利潤(rùn),就必須采用能夠承受未來(lái)各種挑戰(zhàn)的新技術(shù)堆棧。
面向未來(lái)的人工智能創(chuàng)新
為滿足未來(lái)對(duì)人工智能就緒型網(wǎng)絡(luò)、半導(dǎo)體和數(shù)據(jù)中心設(shè)備的需求,就必須具備人工智能就緒型測(cè)試和仿真工具的技術(shù)堆棧。在這場(chǎng)“淘金熱”中,無(wú)數(shù)數(shù)字勘探者會(huì)競(jìng)相角逐,爭(zhēng)搶先機(jī),而具備人工智能就緒的測(cè)試和仿真工具將幫助參與者脫穎而出。是德科技正在幫助人工智能數(shù)據(jù)中心設(shè)計(jì)人員進(jìn)行面向未來(lái)的設(shè)計(jì),并針對(duì)此類復(fù)雜環(huán)境的動(dòng)態(tài)需求量身打造強(qiáng)大的工具技術(shù)堆棧。憑借涵蓋仿真器、模擬器和測(cè)試硬件的全棧產(chǎn)品組合,是德科技解決方案可輕松模擬真實(shí)世界中的人工智能工作負(fù)載,對(duì)網(wǎng)絡(luò)組件進(jìn)行驗(yàn)證,并優(yōu)化從物理硬件到應(yīng)用層行為等各個(gè)層面的系統(tǒng)級(jí)性能。