上周五美股博通大漲24.43%、市值站上萬億美元后,本周一博通股價(jià)又上漲了11.21%,市值達(dá)1.17萬億美元。該公司拿出超市場(chǎng)預(yù)期的一份最新財(cái)報(bào)后,市場(chǎng)對(duì)于AI定制芯片的興趣仍在高漲。即便周二美股多只芯片股普跌,博通周二股價(jià)回調(diào)跌3.91%,收盤市值也仍在1.1萬億美元以上。
在AI領(lǐng)域,博通涉足定制或?qū)S眉呻娐罚?a class="innerlink" href="http://ihrv.cn/tags/ASIC" target="_blank">ASIC)和以太網(wǎng)網(wǎng)絡(luò)部件,博通與三家大型云廠商合作開發(fā)定制AI芯片。作為一種更專用的芯片,ASIC和更通用的GPU(圖形處理器)站在了對(duì)立面,前者是谷歌、Meta、亞馬遜和諸多創(chuàng)業(yè)公司的陣營(yíng),后者則主要站著英偉達(dá)和AMD。
博通股價(jià)起飛只是ASIC反攻GPU陣營(yíng)的一個(gè)前奏。除了用自研ASIC替代英偉達(dá)GPU的云廠商,ASIC領(lǐng)域的創(chuàng)業(yè)潮也在涌動(dòng),創(chuàng)業(yè)公司正在世界范圍內(nèi)尋找客戶。在業(yè)內(nèi)人士看來,GPU和ASIC之爭(zhēng)更像是一場(chǎng)通用和專用陣營(yíng)之爭(zhēng),在AI最終定型之前,兩種芯片都不會(huì)完全取代對(duì)方,這場(chǎng)博弈也不一定以一輸一贏為結(jié)果。
誰在給博通們創(chuàng)造業(yè)績(jī)?
GPU霸主英偉達(dá)在聚光燈下站了太久,人們可能容易忽略背后各云廠商的造芯努力,它們?cè)O(shè)計(jì)的ASIC滲透率可能比很多人想象的更深。
ASIC包含多類芯片,諸如TPU(Tensor Processing Unit,張量處理器)、LPU(語言處理器)、NPU(神經(jīng)網(wǎng)絡(luò)處理器)等。云廠商中,谷歌多年前就布局TPU,其第六代TPU Trillium在本月正式向客戶開放使用;Meta今年推出了專為AI訓(xùn)練和推理設(shè)計(jì)的定制芯片MTIA v2;亞馬遜有Trainium2,并計(jì)劃明年發(fā)布Trainium3;微軟則有自研AI芯片Azure Maia。
或許是因?yàn)椴粚?duì)外銷售芯片,這些云廠商的AI芯片比較少受到市場(chǎng)關(guān)注。但實(shí)際上,這些云廠商已在自己的數(shù)據(jù)中心部署ASIC芯片并著力擴(kuò)大這些芯片的使用。
以谷歌為代表,TechInsights數(shù)據(jù)顯示,去年谷歌已悄然成為全球第三大數(shù)據(jù)中心處理器設(shè)計(jì)公司,位列CPU霸主英特爾和GPU霸主英偉達(dá)之后。谷歌內(nèi)部工作負(fù)載運(yùn)行TPU而不對(duì)外出售芯片。
亞馬遜則向OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic進(jìn)行多次投資,加深與該公司的綁定。Anthropic就用了亞馬遜的Trainium。亞馬遜近日透露,建設(shè)給Anthropic使用的Rainier超級(jí)計(jì)算機(jī)集群項(xiàng)目很快會(huì)完成,亞馬遜還在建設(shè)更多產(chǎn)能以滿足其他客戶用Trainium的需求。
定制芯片廠商博通、Marvell的相關(guān)訂單就是來自這些云廠商。其中,谷歌、Meta的ASIC芯片與博通合作定制。除了谷歌,摩根大通分析師預(yù)測(cè),Meta有望成為下一個(gè)為博通帶來10億美元收入的ASIC客戶。亞馬遜則與芯片廠商Marvell合作。本月初,亞馬遜AWS剛與Marvell達(dá)成一項(xiàng)為期五年的協(xié)議,雙方擬擴(kuò)大在AI和數(shù)據(jù)中心連接產(chǎn)品方面的合作,以便亞馬遜部署半導(dǎo)體產(chǎn)品組合和專用網(wǎng)絡(luò)硬件。
體現(xiàn)在業(yè)績(jī)上,2024財(cái)年,博通收入同比增長(zhǎng)44%,達(dá)到創(chuàng)紀(jì)錄的516億美元。該財(cái)年,博通人工智能收入同比增長(zhǎng)220%,達(dá)到122億美元,推動(dòng)公司的半導(dǎo)體收入達(dá)到創(chuàng)紀(jì)錄的301億美元。博通還展望2025財(cái)年第一季度收入同比增長(zhǎng)22%。
據(jù)Marvell本月早些時(shí)候發(fā)布的2025財(cái)年第三季度財(cái)報(bào),該季度公司營(yíng)收則為15.16億美元,同比增長(zhǎng)7%,環(huán)比增長(zhǎng)19%,該公司稱環(huán)比增長(zhǎng)幅度高于此前指引的中點(diǎn),并預(yù)測(cè)下一季度營(yíng)收還將環(huán)比增長(zhǎng)19%。Marvell表示,第三季度的業(yè)績(jī)表現(xiàn)和對(duì)第四季度業(yè)績(jī)表現(xiàn)強(qiáng)勁的預(yù)期主要是由定制AI芯片項(xiàng)目推動(dòng)的,這些項(xiàng)目已經(jīng)開始量產(chǎn),并預(yù)計(jì)2026財(cái)年需求還將保持強(qiáng)勁勢(shì)頭。
除了谷歌、Meta、亞馬遜這些云廠商,OpenAI、蘋果也多次傳出與這類ASIC定制芯片廠商合作的消息。近日蘋果便傳出正在開發(fā)AI服務(wù)器芯片、正與博通合作開發(fā)該芯片網(wǎng)絡(luò)技術(shù)的消息,OpenAI此前傳出已與博通合作數(shù)月構(gòu)建AI推理芯片。
ASIC創(chuàng)業(yè)公司網(wǎng)羅客戶
云廠商自研大模型并通過投資綁定了一些大模型創(chuàng)業(yè)公司,與ASIC定制廠商合作的自研芯片用于這些大模型訓(xùn)練和推理,不需要依賴外售。ASIC創(chuàng)業(yè)公司則不同,它們選擇了不同的芯片代工商,并需要自己尋找客戶。
其中,推出了晶圓級(jí)芯片的Cerebras Systems將芯片交給臺(tái)積電生產(chǎn),Etched的Sohu芯片采用臺(tái)積電4nm工藝。采用近存計(jì)算架構(gòu)的Groq LPU芯片對(duì)制程的要求沒有那么高,用了GlobalFoundries的14nm工藝。
這些ASIC創(chuàng)業(yè)公司正在全世界范圍內(nèi)網(wǎng)羅客戶,從正加碼布局AI的中東國(guó)家搜尋客戶成為一些ASIC創(chuàng)業(yè)公司的共同選擇。據(jù)Cerebras Systems公開的數(shù)據(jù),2023年Cerebras Systems凈銷售額近7900萬美元,今年上半年達(dá)1.364億美元。2023年該公司來自阿聯(lián)酋阿布扎比的G42公司的收入占總收入83%,G42還承諾在明年購(gòu)買價(jià)值14.3億美元的Cerebras Systems產(chǎn)品和服務(wù)。
記者9月在沙特阿拉伯的AI峰會(huì)上也看到了Cerebras Systems、Groq和另一家AI芯片初創(chuàng)公司SambaNova Systems的身影。Cerebras Systems當(dāng)時(shí)與沙特阿美簽署了諒解備忘錄,沙特阿美計(jì)劃用Cerebras Systems的產(chǎn)品訓(xùn)練和部署大模型。
Groq則與沙特阿美的數(shù)字與技術(shù)子公司合作,計(jì)劃在沙特建設(shè)全球最大規(guī)模的推理數(shù)據(jù)中心,該數(shù)據(jù)中心今年年底建成投運(yùn),初期包括1.9萬個(gè)Groq LPU,未來有望擴(kuò)展至20萬個(gè) LPU。據(jù)SymbaNova Systems官網(wǎng)消息,該公司也與迪拜公司Solidus AI Tech合作,計(jì)劃為歐洲的高性能計(jì)算數(shù)據(jù)中心提供SymbaNova Cloud,并與在中東、南亞、歐洲、非洲地區(qū)開展業(yè)務(wù)的Canvass AI公司合作,向企業(yè)提供AI解決方案。
此外,據(jù)企業(yè)官網(wǎng)消息,SymbaNova Systems與美國(guó)阿貢國(guó)家實(shí)驗(yàn)室合作。Groq則與面向美國(guó)和加拿大政府部門提供IT方案的廠商Carahsoft 合作,并與能源領(lǐng)域的Earth Wind&Power合作,計(jì)劃在挪威建設(shè)AI計(jì)算中心。
專用與通用之爭(zhēng)
GPU和ASIC目前的優(yōu)缺點(diǎn)都很明顯。GPU勝在通用,能運(yùn)行諸多算法,且英偉達(dá)CUDA生態(tài)成熟,具備易用性,缺點(diǎn)在于通用的GPU在算力和功耗上會(huì)有一定浪費(fèi)。ASIC相對(duì)專用,針對(duì)特定算法的設(shè)計(jì)使算力和功耗表現(xiàn)可能更優(yōu)。以Groq的LPU為例,該公司稱LPU速度比英偉達(dá)GPU快十倍,但價(jià)格和耗電量都僅為后者的十分之一。不過,越是專用的ASIC越難容忍太多算法,原本在GPU上跑的大模型要遷移至ASIC上運(yùn)行不一定容易,整體上易用性也低于GPU。
在ASIC愈來愈猛的攻勢(shì)下,兩類芯片是否即將決出勝負(fù)?或者說,資本市場(chǎng)對(duì)博通的看好是不是“反噬”了對(duì)英偉達(dá)的市場(chǎng)預(yù)期?在博通市值站上萬億美元之時(shí),美股上周五至本周二,英偉達(dá)股價(jià)連跌三天?!澳阈枰ミ_(dá),但我認(rèn)為市場(chǎng)也在說,除此之外還有其他受益者。”信托投資公司Truist聯(lián)席首席投資官基思?勒納(Keith Lerner)評(píng)論稱。不過,一些芯片業(yè)內(nèi)人士認(rèn)為,GPU與ASIC之爭(zhēng)可以看作通用芯片與專用芯片之爭(zhēng),從這個(gè)層面看,兩種芯片在一段時(shí)間之內(nèi)都有騰挪的空間,并非簡(jiǎn)單的一方取代一方的關(guān)系。
從使用場(chǎng)景看,一名業(yè)內(nèi)人士告訴記者,GPU仍要用在大量并行化通用用例中,在此之外的其他需求可以使用成本更低的ASIC,例如在推理端使用低功耗的AISC。麥肯錫的研究也認(rèn)為,未來AI工作量主要轉(zhuǎn)向推理,到2030年,配備ASIC芯片的AI加速器將處理大多數(shù)AI工作負(fù)載。
但具體未來ASIC能拿下多大的AI芯片市場(chǎng)份額,可能仍有變數(shù),這種變數(shù)來自GPU對(duì)ASIC芯片優(yōu)點(diǎn)的吸收。安謀科技產(chǎn)品總監(jiān)鮑敏祺向記者表示,GPU不一定會(huì)被其他芯片取代。GPU主要在AI云端應(yīng)用,GPU更容易接入openCL cuda或者SYCL這種軟件編程生態(tài)模式,具備便利性。而從能效角度看,GPU會(huì)帶來更多的多線程上下文切換開銷,這些開銷不容忽視。由此看,未來在端側(cè)場(chǎng)景,GPU和其他芯片會(huì)逐步走向融合,而不是互相取代。就像英偉達(dá)H100的Tensor Core(張量處理單元)已經(jīng)引入了更多Tensor專用的技術(shù),芯片之間已經(jīng)在取對(duì)方的長(zhǎng)處逐步彌補(bǔ)自身的短處。
千芯科技董事長(zhǎng)陳巍也認(rèn)為,針對(duì)諸如能耗高等短板,GPU仍能在自身范疇內(nèi)進(jìn)行改良,這種改良正是吸收了專用芯片的長(zhǎng)處。
“GPU和其他AI芯片架構(gòu)之間,兩方面力量在博弈,新舊此消彼長(zhǎng)。微軟、特斯拉、谷歌等已經(jīng)走向研究更專用的芯片的路線,英偉達(dá)雖然做的還是GPU,但它的路線也從原來的傳統(tǒng)GPU轉(zhuǎn)向更專用的計(jì)算結(jié)構(gòu),其Tensor Core部分已經(jīng)明顯超過原來的CUDA Core部分。” 陳巍告訴記者。
目前已經(jīng)出現(xiàn)了越來越專門針對(duì)大模型的ASIC芯片,通過更極致的專用性提高芯片效率。例如Etched將主流大模型所基于的Transformer架構(gòu)固定在芯片Sohu上,聲稱一臺(tái)集成8塊Sohu的服務(wù)器性能匹敵160個(gè)英偉達(dá)H100 GPU。陳巍告訴記者,他猜測(cè)后續(xù)也可能出現(xiàn)針對(duì)大模型應(yīng)用的專用GPU,GPU廠商有比較高的概率會(huì)進(jìn)一步改進(jìn)Tensor Core結(jié)構(gòu),從而犧牲掉一部分對(duì)顯存的支持能力。
不過,這種極致的專用性也是一把雙刃劍。另有業(yè)內(nèi)人士向記者表示,當(dāng)前AI的主流架構(gòu)是Transformer,未來隨著AI架構(gòu)演進(jìn),Transformer不一定是終局,在此過程中,通用的GPU一直能被采用,但當(dāng)AI主流架構(gòu)發(fā)生變化時(shí),特別專用的ASIC芯片將無法適應(yīng)。
從這個(gè)層面看,ASIC也需要考慮舍棄通用性的風(fēng)險(xiǎn)?!埃℅PU通用性的重要性)確實(shí)如此?!?鮑敏祺告訴記者,當(dāng)Transformer改變,GPU將有優(yōu)勢(shì)。以NPU為例,一方面,原本的DSA(特定領(lǐng)域架構(gòu))可能無法應(yīng)對(duì)算法流程變化,因此對(duì)一些向量計(jì)算需要考慮引入更多通用能力。另一方面,在具備通用計(jì)算能力的情況下,芯片則可能沒有針對(duì)特定計(jì)算類型進(jìn)行優(yōu)化,導(dǎo)致遇到性能瓶頸。因此設(shè)計(jì)時(shí)既要引入更多通用計(jì)算能力以適應(yīng)算法等的變化,又要平衡通用計(jì)算能力和執(zhí)行特定任務(wù)的性能。