AI圈又變天了。
還沒(méi)消化完Sora帶來(lái)的震撼,又一家硅谷初創(chuàng)企業(yè)帶著史上最快的大模型和自研芯片LPU霸占了熱搜。
就在昨天,AI芯片創(chuàng)企Groq(不是馬斯克的Gork)開(kāi)放了自家產(chǎn)品的免費(fèi)試用。相比其他AI聊天機(jī)器人,Groq閃電般的響應(yīng)速度迅速引爆互聯(lián)網(wǎng)討論。經(jīng)過(guò)網(wǎng)友測(cè)試,Groq每秒生成速度接近500 tok/s,碾壓GPT-4的40 tok/s。
有網(wǎng)友震驚地說(shuō):
它回復(fù)的速度比我眨眼還快。
不過(guò),需要強(qiáng)調(diào)的是,Groq并沒(méi)有研發(fā)新模型,它只是一個(gè)模型啟動(dòng)器,主頁(yè)上運(yùn)行的是開(kāi)源模型Mixtral 8x7B-32k和Llama 270B-4k。
冠絕大模型圈子的響應(yīng)速度,來(lái)自驅(qū)動(dòng)模型的硬件——Groq并未使用英偉達(dá)的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。
每秒500 tokens,寫(xiě)論文比你眨眼還快
LPU最突出的特點(diǎn)就是快。
根據(jù)2024年一月的測(cè)試結(jié)果,由Groq LPU驅(qū)動(dòng)Meta Llama 2模型,推理性能遙遙領(lǐng)先,是頂級(jí)云計(jì)算供應(yīng)商的18倍。
華爾街見(jiàn)聞此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分鐘內(nèi)就能生成與莎士比亞《哈姆雷特》相同數(shù)量的單詞,比普通人的打字速度快75倍。
還有網(wǎng)友測(cè)試同時(shí)用Gemini、GPT-4和Groq完成一個(gè)代碼調(diào)試問(wèn)題。
結(jié)果,Groq的輸出速度比Gemini快10倍,比GPT-4快18倍。
Groq在速度上對(duì)其他AI模型的降維打擊,讓網(wǎng)友直呼,“AI推理界的美國(guó)隊(duì)長(zhǎng)來(lái)了”。
LPU,英偉達(dá)GPU的挑戰(zhàn)者?
再?gòu)?qiáng)調(diào)一遍,Groq沒(méi)有開(kāi)發(fā)新的模型,它只是用了不一樣的芯片。
根據(jù)Groq官網(wǎng)的介紹,LPU是一種專(zhuān)為AI推理所設(shè)計(jì)的芯片。驅(qū)動(dòng)包括GPT等主流大模型的GPU,是一種為圖形渲染而設(shè)計(jì)的并行處理器,有數(shù)百個(gè)內(nèi)核,而LPU架構(gòu)則與GPU使用的SIMD(單指令,多數(shù)據(jù))不同,這種設(shè)計(jì)可以讓芯片更有效地利用每個(gè)時(shí)鐘周期,確保一致的延遲和吞吐量,也降低了復(fù)雜調(diào)度硬件的需求:
Groq的LPU推理引擎不是普通的處理單元;它是一個(gè)端到端系統(tǒng),專(zhuān)為需要大量計(jì)算和連續(xù)處理的應(yīng)用(如LLM)提供最快的推理而設(shè)計(jì)。通過(guò)消除外部?jī)?nèi)存瓶頸,LPU推理引擎的性能比傳統(tǒng)GPU高出幾個(gè)數(shù)量級(jí)。
簡(jiǎn)單來(lái)說(shuō),對(duì)用戶(hù)而言,最直觀的體驗(yàn)就是“快”。
使用過(guò)GPT的讀者一定知道,痛苦地等待大模型一個(gè)一個(gè)地吐出字符是一種怎樣痛苦的體驗(yàn),而LPU驅(qū)動(dòng)下的大模型,基本可以做到實(shí)時(shí)響應(yīng)。
比如下圖,華爾街見(jiàn)聞向Groq詢(xún)問(wèn)LPU和GPU的區(qū)別,Groq生成這個(gè)回答用時(shí)不到3秒,完全不會(huì)像GPT、Gemini那樣出現(xiàn)顯著的延遲。如果以英文提問(wèn),生成速度還會(huì)更快。
Groq官方的介紹還顯示,創(chuàng)新的芯片架構(gòu)可以把多個(gè)張量流處理器(Tensor Streaming Processor,簡(jiǎn)稱(chēng)TSP)連接在一起,而不會(huì)出現(xiàn)GPU集群中的傳統(tǒng)瓶頸,因此具有極高的可擴(kuò)展性,簡(jiǎn)化了大規(guī)模AI模型的硬件要求。
能效也是LPU的另一個(gè)亮點(diǎn)。通過(guò)減少管理多個(gè)線程的開(kāi)銷(xiāo)和避免內(nèi)核的利用率不足,LPU每瓦特可以提供更多的算力。
Groq創(chuàng)始人兼首席執(zhí)行官Jonathan Ross在采訪中,時(shí)時(shí)不忘給英偉達(dá)上眼藥。
他此前對(duì)媒體表示,在大模型推理場(chǎng)景,Groq LPU芯片的速度比英偉達(dá)GPU快10倍,但價(jià)格和耗電量都僅為后者的十分之一。
實(shí)時(shí)推理是通過(guò)經(jīng)過(guò)訓(xùn)練的AI模型運(yùn)行數(shù)據(jù)的計(jì)算過(guò)程,以提供AI應(yīng)用的即時(shí)結(jié)果,從而實(shí)現(xiàn)流暢的最終用戶(hù)體驗(yàn)。隨著AI大模型的發(fā)展,實(shí)時(shí)推理的需求激增。
Ross認(rèn)為,對(duì)于在產(chǎn)品中使用人工智能的公司來(lái)說(shuō),推理成本正在成為一個(gè)問(wèn)題,因?yàn)殡S著使用這些產(chǎn)品的客戶(hù)數(shù)量增加,運(yùn)行模型的成本也在迅速增加。與英偉達(dá)GPU相比,Groq LPU集群將為大模型推理提供更高的吞吐量、更低的延遲和更低的成本。
他還強(qiáng)調(diào),Groq的芯片,由于技術(shù)路徑不同,在供應(yīng)方面比英偉達(dá)更充足,不會(huì)被臺(tái)積電或者SK海力士等供應(yīng)商卡脖子:
GroqChip LPU的獨(dú)特之處在于,它不依賴(lài)于三星或SK海力士的HBM,也不依賴(lài)于臺(tái)積電將外部HBM焊接到芯片上的CoWoS封裝技術(shù)。
不過(guò),另有一些AI專(zhuān)家在社交媒體上表示,Groq芯片的實(shí)際成本并不低。
如人工智能專(zhuān)家賈揚(yáng)清分析稱(chēng),Groq綜合成本相當(dāng)于英偉達(dá)GPU的30多倍。
考慮到每張Groq芯片的內(nèi)存容量為230MB,實(shí)際運(yùn)行模型需要572張芯片,總成本高達(dá)1144萬(wàn)美元。
相比之下,8張H100的系統(tǒng)在性能上與Groq系統(tǒng)相當(dāng),但硬件成本僅為30萬(wàn)美元,年度電費(fèi)約2.4萬(wàn)美元。三年總運(yùn)營(yíng)成本對(duì)比顯示,Groq系統(tǒng)的運(yùn)營(yíng)成本遠(yuǎn)高于H100系統(tǒng),
而且,更關(guān)鍵的是,LPU目前僅用于推理,要訓(xùn)練大模型,仍然需要購(gòu)買(mǎi)英偉達(dá)GPU。
創(chuàng)始人為谷歌TPU設(shè)計(jì)者之一 相信未來(lái)2年能賣(mài)出100萬(wàn)個(gè)LPU
在今天互聯(lián)網(wǎng)上一炮而紅之前,Groq已經(jīng)低調(diào)埋頭研發(fā)7年多的時(shí)間。
公開(kāi)資料顯示,Groq成立于2016年,總部位于美國(guó)加州圣塔克拉拉山景城。公司創(chuàng)始人Jonathan Ross是前谷歌高級(jí)工程師,是谷歌自研AI芯片TPU的設(shè)計(jì)者之一。產(chǎn)品主管John Barrus曾在谷歌及亞馬遜擔(dān)任產(chǎn)品高管。
高管內(nèi)唯一一位華裔面孔、副總裁Estelle Hong,在公司任職已有四年,此前曾供職于美國(guó)軍隊(duì)及英特爾。
就在去年8月,Groq也宣布了和三星的合作計(jì)劃,表示其下一代芯片將在美國(guó)德克薩斯州三星芯片工廠采用4納米工藝生產(chǎn),預(yù)計(jì)量產(chǎn)時(shí)間為24年下半年。
展望下一代LPU,Ross相信GroqChip的能效將提高15到20倍,可以在相同的功率范圍內(nèi)為設(shè)備增加更多的矩陣計(jì)算和SRAM存儲(chǔ)器。
在去年底的采訪中,Ross表示,考慮到GPU的短缺和高昂的成本,他相信Groq未來(lái)的發(fā)展?jié)摿Γ?/p>
在12個(gè)月內(nèi),我們可以部署10萬(wàn)個(gè)LPU,在24個(gè)月內(nèi),我們可以部署100萬(wàn)個(gè)LPU。