精品欧美不卡一区在线观看 ,色综合久久天天综合绕观看

Groq自研史上最快大模型LPU速度碾壓英偉達GPU

日期： 2024-02-21

來源：華爾街見聞

關(guān)鍵詞： Groq LPU 大模型 AI

AI圈又變天了。

還沒消化完Sora帶來的震撼，又一家硅谷初創(chuàng)企業(yè)帶著史上最快的大模型和自研芯片LPU霸占了熱搜。

就在昨天，AI芯片創(chuàng)企Groq（不是馬斯克的Gork）開放了自家產(chǎn)品的免費試用。相比其他AI聊天機器人，Groq閃電般的響應(yīng)速度迅速引爆互聯(lián)網(wǎng)討論。經(jīng)過網(wǎng)友測試，Groq每秒生成速度接近500 tok/s，碾壓GPT-4的40 tok/s。

有網(wǎng)友震驚地說：

它回復(fù)的速度比我眨眼還快。

不過，需要強調(diào)的是，Groq并沒有研發(fā)新模型，它只是一個模型啟動器，主頁上運行的是開源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠絕大模型圈子的響應(yīng)速度，來自驅(qū)動模型的硬件——Groq并未使用英偉達的GPU，而是自研了新型AI芯片——LPU（Language Processing Units）。

每秒500 tokens，寫論文比你眨眼還快

LPU最突出的特點就是快。

根據(jù)2024年一月的測試結(jié)果，由Groq LPU驅(qū)動Meta Llama 2模型，推理性能遙遙領(lǐng)先，是頂級云計算供應(yīng)商的18倍。

華爾街見聞此前文章提及，Groq LPU搭配Meta Llama 2 70B能在7分鐘內(nèi)就能生成與莎士比亞《哈姆雷特》相同數(shù)量的單詞，比普通人的打字速度快75倍。

還有網(wǎng)友測試同時用Gemini、GPT-4和Groq完成一個代碼調(diào)試問題。

結(jié)果，Groq的輸出速度比Gemini快10倍，比GPT-4快18倍。

Groq在速度上對其他AI模型的降維打擊，讓網(wǎng)友直呼，“AI推理界的美國隊長來了”。

LPU，英偉達GPU的挑戰(zhàn)者？

再強調(diào)一遍，Groq沒有開發(fā)新的模型，它只是用了不一樣的芯片。

根據(jù)Groq官網(wǎng)的介紹，LPU是一種專為AI推理所設(shè)計的芯片。驅(qū)動包括GPT等主流大模型的GPU，是一種為圖形渲染而設(shè)計的并行處理器，有數(shù)百個內(nèi)核，而LPU架構(gòu)則與GPU使用的SIMD（單指令，多數(shù)據(jù)）不同，這種設(shè)計可以讓芯片更有效地利用每個時鐘周期，確保一致的延遲和吞吐量，也降低了復(fù)雜調(diào)度硬件的需求：

Groq的LPU推理引擎不是普通的處理單元；它是一個端到端系統(tǒng)，專為需要大量計算和連續(xù)處理的應(yīng)用（如LLM）提供最快的推理而設(shè)計。通過消除外部內(nèi)存瓶頸，LPU推理引擎的性能比傳統(tǒng)GPU高出幾個數(shù)量級。

簡單來說，對用戶而言，最直觀的體驗就是“快”。

使用過GPT的讀者一定知道，痛苦地等待大模型一個一個地吐出字符是一種怎樣痛苦的體驗，而LPU驅(qū)動下的大模型，基本可以做到實時響應(yīng)。

比如下圖，華爾街見聞向Groq詢問LPU和GPU的區(qū)別，Groq生成這個回答用時不到3秒，完全不會像GPT、Gemini那樣出現(xiàn)顯著的延遲。如果以英文提問，生成速度還會更快。

Groq官方的介紹還顯示，創(chuàng)新的芯片架構(gòu)可以把多個張量流處理器（Tensor Streaming Processor，簡稱TSP）連接在一起，而不會出現(xiàn)GPU集群中的傳統(tǒng)瓶頸，因此具有極高的可擴展性，簡化了大規(guī)模AI模型的硬件要求。

能效也是LPU的另一個亮點。通過減少管理多個線程的開銷和避免內(nèi)核的利用率不足，LPU每瓦特可以提供更多的算力。

Groq創(chuàng)始人兼首席執(zhí)行官Jonathan Ross在采訪中，時時不忘給英偉達上眼藥。

他此前對媒體表示，在大模型推理場景，Groq LPU芯片的速度比英偉達GPU快10倍，但價格和耗電量都僅為后者的十分之一。

實時推理是通過經(jīng)過訓(xùn)練的AI模型運行數(shù)據(jù)的計算過程，以提供AI應(yīng)用的即時結(jié)果，從而實現(xiàn)流暢的最終用戶體驗。隨著AI大模型的發(fā)展，實時推理的需求激增。

Ross認為，對于在產(chǎn)品中使用人工智能的公司來說，推理成本正在成為一個問題，因為隨著使用這些產(chǎn)品的客戶數(shù)量增加，運行模型的成本也在迅速增加。與英偉達GPU相比，Groq LPU集群將為大模型推理提供更高的吞吐量、更低的延遲和更低的成本。

他還強調(diào)，Groq的芯片，由于技術(shù)路徑不同，在供應(yīng)方面比英偉達更充足，不會被臺積電或者SK海力士等供應(yīng)商卡脖子：

GroqChip LPU的獨特之處在于，它不依賴于三星或SK海力士的HBM，也不依賴于臺積電將外部HBM焊接到芯片上的CoWoS封裝技術(shù)。

不過，另有一些AI專家在社交媒體上表示，Groq芯片的實際成本并不低。

如人工智能專家賈揚清分析稱，Groq綜合成本相當(dāng)于英偉達GPU的30多倍。

考慮到每張Groq芯片的內(nèi)存容量為230MB，實際運行模型需要572張芯片，總成本高達1144萬美元。

相比之下，8張H100的系統(tǒng)在性能上與Groq系統(tǒng)相當(dāng)，但硬件成本僅為30萬美元，年度電費約2.4萬美元。三年總運營成本對比顯示，Groq系統(tǒng)的運營成本遠高于H100系統(tǒng)，

而且，更關(guān)鍵的是，LPU目前僅用于推理，要訓(xùn)練大模型，仍然需要購買英偉達GPU。

創(chuàng)始人為谷歌TPU設(shè)計者之一相信未來2年能賣出100萬個LPU

在今天互聯(lián)網(wǎng)上一炮而紅之前，Groq已經(jīng)低調(diào)埋頭研發(fā)7年多的時間。

公開資料顯示，Groq成立于2016年，總部位于美國加州圣塔克拉拉山景城。公司創(chuàng)始人Jonathan Ross是前谷歌高級工程師，是谷歌自研AI芯片TPU的設(shè)計者之一。產(chǎn)品主管John Barrus曾在谷歌及亞馬遜擔(dān)任產(chǎn)品高管。

高管內(nèi)唯一一位華裔面孔、副總裁Estelle Hong，在公司任職已有四年，此前曾供職于美國軍隊及英特爾。

就在去年8月，Groq也宣布了和三星的合作計劃，表示其下一代芯片將在美國德克薩斯州三星芯片工廠采用4納米工藝生產(chǎn)，預(yù)計量產(chǎn)時間為24年下半年。

展望下一代LPU，Ross相信GroqChip的能效將提高15到20倍，可以在相同的功率范圍內(nèi)為設(shè)備增加更多的矩陣計算和SRAM存儲器。

在去年底的采訪中，Ross表示，考慮到GPU的短缺和高昂的成本，他相信Groq未來的發(fā)展?jié)摿Γ?/p>

在12個月內(nèi)，我們可以部署10萬個LPU，在24個月內(nèi)，我們可以部署100萬個LPU。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Groq自研史上最快大模型LPU速度碾壓英偉達GPU

日期： 2024-02-21

來源：華爾街見聞

相關(guān)內(nèi)容