南華早報(bào)10月18日發(fā)布博文,報(bào)道稱在韓國首爾舉辦的第 31 屆操作系統(tǒng)原理研討會(huì)(SOSP)上,阿里云發(fā)布的“Aegaeon”的計(jì)算池化解決方案研究成果成功入選,可解決 AI 模型服務(wù)中普遍存在的 GPU 資源浪費(fèi)問題。
查詢公開資料,SOSP 是計(jì)算機(jī)操作系統(tǒng)領(lǐng)域的頂尖會(huì)議,相當(dāng)于計(jì)算機(jī)操作系統(tǒng)界的“奧斯卡”,其錄取率控制非常嚴(yán)格,平均每年收錄的論文數(shù)量僅有數(shù)十篇,入選論文代表了操作系統(tǒng)和軟件領(lǐng)域最具代表的研究成果。
博文稱云服務(wù)商當(dāng)前在提供 AI 模型服務(wù)時(shí),面臨著嚴(yán)重的資源效率低下問題。平臺(tái)需要同時(shí)托管數(shù)千個(gè) AI 模型以處理海量并發(fā) API 調(diào)用,但用戶請(qǐng)求往往高度集中在少數(shù)幾個(gè)熱門模型上,例如阿里巴巴的 Qwen 系列模型。
研究人員發(fā)現(xiàn),這種“長尾效應(yīng)”導(dǎo)致了嚴(yán)重的資源閑置:在阿里云的模型市場(chǎng)中,竟有 17.7% 的 GPU 算力僅被用于處理 1.35% 的請(qǐng)求,造成了巨大的成本浪費(fèi)。
為解決這一痛點(diǎn),Aegaeon 系統(tǒng)應(yīng)運(yùn)而生。它通過創(chuàng)新的 GPU 資源池化技術(shù),允許單個(gè) GPU 動(dòng)態(tài)服務(wù)于多個(gè)不同的 AI 模型,打破了以往 GPU 與特定模型綁定的低效模式。

在阿里云模型市場(chǎng)進(jìn)行的為期超過三個(gè)月的 Beta 測(cè)試中,Aegaeon 系統(tǒng)展現(xiàn)了卓越的效能。測(cè)試數(shù)據(jù)顯示,服務(wù)數(shù)十個(gè)參數(shù)量高達(dá) 720 億的大模型,所需的英偉達(dá) H20 GPU 數(shù)量從 1192 個(gè)成功減少至 213 個(gè),數(shù)量削減高達(dá) 82%。

這項(xiàng)由北京大學(xué)與阿里云合作的研究成果,被認(rèn)為是“首個(gè)揭示并解決市場(chǎng)上并發(fā)大語言模型服務(wù)存在過高成本”的公開工作,為行業(yè)提供了全新的優(yōu)化思路。
值得一提的是,阿里云首席技術(shù)官周靖人也是該論文的作者之一。周靖人是國際電氣與電子工程師協(xié)會(huì)會(huì)士(IEEE Fellow),國際計(jì)算機(jī)協(xié)會(huì)會(huì)士(ACM Fellow),阿里巴巴集團(tuán)副總裁,阿里云智能 CTO、達(dá)摩院副院長。

