《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > 英偉達(dá)的訂閱軟件帝國(guó)正在形成

英偉達(dá)的訂閱軟件帝國(guó)正在形成

2024-08-08
來源:芯智訊
關(guān)鍵詞: 英偉達(dá) GPU 訂閱軟件 AI

0.png

8月7日消息,隨著人工智能(AI)的繁榮,英偉達(dá)(NVIDIA)的收入飆升,以至于它一度成為世界上最有價(jià)值的公司。這種增長(zhǎng)主要是由于AI需求爆發(fā)下,市場(chǎng)對(duì)其數(shù)據(jù)中心 GPU 的需求推動(dòng)的,這些 GPU 用于訓(xùn)練和運(yùn)行不斷增長(zhǎng)的更好、更智能、更大的大語言模型。但是,盡管投資者愿意相信英偉達(dá)CEO黃仁勛的GPU帝國(guó)將繼續(xù)增長(zhǎng),一個(gè)季度又一個(gè)季度翻一番,但沒有什么是永恒的。如果英偉達(dá)的未來只圍繞銷售GPU而展開,那么這可能是一件大事。但正如黃仁勛經(jīng)常提醒人們的那樣,英偉達(dá)既是一家硬件企業(yè),也是一家軟件企業(yè)。

開拓新市場(chǎng)

從一開始,英偉達(dá)就認(rèn)識(shí)到軟件在推動(dòng) GPU 采用方面的價(jià)值。在上周SIGGRAPH活動(dòng)上與記者勞倫·古德(Lauren Goode)的爐邊談話中,黃仁勛強(qiáng)也調(diào)了這一點(diǎn)。

他解釋說:“每次我們推出特定領(lǐng)域的庫(kù)時(shí),它都會(huì)將加速計(jì)算暴露給新市場(chǎng)?!斑@不僅僅是構(gòu)建加速器,你還必須構(gòu)建整個(gè)堆棧。”

2007 年,英偉達(dá)的計(jì)算統(tǒng)一設(shè)備架構(gòu)CUDA的第一個(gè)版本發(fā)布,它提供了一個(gè) API 接口,用于跨 GPU 并行處理非圖形工作負(fù)載。雖然這仍然需要開發(fā)人員和研究人員重構(gòu)代碼,但對(duì)通用處理器的改進(jìn)是不容忽視的。

對(duì)于 HPC 社區(qū)的人來說尤其如此——這是英偉達(dá)在其舊的游戲和專業(yè)圖形領(lǐng)域之外尋求的首批市場(chǎng)之一。2012 年末,英偉達(dá)的軟件投資幫助橡樹嶺國(guó)家實(shí)驗(yàn)室的 Titan 超級(jí)計(jì)算機(jī)位居 Top500 榜首。

在首次發(fā)布 17 年后,CUDA 只是為特定市場(chǎng)量身定制的不斷增長(zhǎng)的計(jì)算框架之一——從深度學(xué)習(xí)到計(jì)算光刻和量子計(jì)算仿真。

這些框架幫助英偉達(dá)為其加速器創(chuàng)造了市場(chǎng),而這些市場(chǎng)以前幾乎不存在。

超越賦能

軟件是英偉達(dá)不那么秘密的武器,但直到最近,這種“武器”還采取了新賦能的形式。在過去的兩年中,我們看到加速器冠軍的軟件戰(zhàn)略以一種有意義的方式采用了訂閱定價(jià)模式。

2022 年初,在 OpenAI 的 ChatGPT 掀起 AI 淘金熱的幾個(gè)月前,英偉達(dá)首席財(cái)務(wù)官 Collete Kress 詳細(xì)介紹了這家 GPU 巨頭的訂閱推動(dòng)路線圖——她認(rèn)為,這最終將推動(dòng)一萬億美元的收入。

當(dāng)時(shí),Kress 預(yù)測(cè),其中 1500 億美元的機(jī)會(huì)將由英偉達(dá)的 AI Enterprise 軟件套件推動(dòng)。即使現(xiàn)在它已經(jīng)公布了 260 億美元的季度業(yè)績(jī),該業(yè)務(wù)仍遠(yuǎn)低于這一萬億美元的目標(biāo)——但我們開始更好地了解它的增長(zhǎng)方式。

從軟件的角度來看,關(guān)于人工智能支持的大部分工作已經(jīng)完成。英偉達(dá)投入了大量資源來開發(fā) cuDNN、TensorRT LLM 和 Triton 推理服務(wù)等工具,以便在運(yùn)行 AI 模型時(shí)充分利用其硬件。

然而,這些只是一個(gè)拼圖的一部分,必須仔細(xì)組裝和調(diào)整才能提取這種性能,而且每個(gè)模型的調(diào)整都會(huì)有所不同。它需要對(duì)模型、軟件和底層硬件有一定程度的熟悉,而企業(yè)不太可能具備這些熟悉程度。

構(gòu)建 AI 簡(jiǎn)單按鈕

在去年春季的GTC活動(dòng)中,英偉達(dá)展示了一項(xiàng)新產(chǎn)品,旨在降低大規(guī)模采用和部署生成式AI的門檻。該技術(shù)稱為 Nvidia Inference 微服務(wù),簡(jiǎn)稱 NIM,本質(zhì)上由容器化模型和工具組成,這些模型和工具附帶了運(yùn)行它們所需的一切,并已預(yù)先配置。

NIM 容器幾乎可以部署在任何支持 Nvidia GPU 的運(yùn)行時(shí)中。這聽起來可能并不那么令人興奮——但這就是重點(diǎn)。容器編排并不是一個(gè)容易解決的問題——只需詢問 Kubernetes 開發(fā)人員即可。那么,當(dāng)您可以利用客戶已經(jīng)投資的現(xiàn)有工具和服務(wù)時(shí),為什么要重新發(fā)明輪子呢?

NIM 的真正價(jià)值似乎來自 Nvidia 工程師針對(duì)特定模型或用例(如檢索增強(qiáng)生成 (RAG))調(diào)整 TensorRT LLM 或 Triton 推理服務(wù)器等內(nèi)容。如果你不熟悉,你可以在這里找到我們關(guān)于RAG的實(shí)踐指南,但要點(diǎn)是,Nvidia不僅在其硬件方面,而且在其軟件方面都在扮演系統(tǒng)集成商的角色。

NIM 不僅僅是巧妙的包裝。通過致力于構(gòu)建一個(gè)通用的 API,用于模型和工具應(yīng)如何相互通信,Nvidia 可以為客戶提供旨在解決特定用例的模板。

英偉達(dá)的定價(jià)階梯

降低采用和部署 AI 推理的門檻對(duì)軟件許可和硬件銷售都有好處。在軟件方面,在生產(chǎn)環(huán)境中部署 NIM 所需的 AI Enterprise 許可證將使您每年每個(gè) GPU 花費(fèi) 4,500 美元,或每小時(shí)每個(gè) GPU 1 美元。

因此,要使用 NIM 部署 Meta 的 Llama 3.1 405B 模型,您不僅需要租用或購(gòu)買配備 8 臺(tái) H100 或 H200 的系統(tǒng)——這是運(yùn)行模型所需的最低限度,而無需采用更激進(jìn)的量化水平——但您還需要支付 36,000 美元/年或 8 美元/小時(shí)的許可費(fèi)。

假設(shè)使用壽命為六年,則每個(gè)系統(tǒng)的許可證收入在 180,000 美元到 420,480 美元之間,具體取決于您是預(yù)先付款還是按小時(shí)付款。實(shí)際上,希望部署人工智能的企業(yè)將需要多個(gè)系統(tǒng)來實(shí)現(xiàn)冗余和規(guī)模。

這種價(jià)格差異可能會(huì)使承諾獲得年度許可證似乎是一個(gè)顯而易見的選擇。但請(qǐng)記住,我們談?wù)摰氖俏⒎?wù),如果實(shí)施得當(dāng),應(yīng)該能夠根據(jù)需求擴(kuò)大或縮小規(guī)模。

但是,假設(shè) Llama 3.1 405B 大模型對(duì)您的需求來說有點(diǎn)過頭了,運(yùn)行更小參數(shù)規(guī)模的大模型——采用成本低得多的NVIDIA L40S 甚至 L4S可能就足夠了。英偉達(dá)的定價(jià)結(jié)構(gòu)的設(shè)置方式是推動(dòng)客戶轉(zhuǎn)向更強(qiáng)大、能力更強(qiáng)的加速器。

無論您使用的是 8 臺(tái) L40S 還是 8 臺(tái) H200,AI Enterprise 許可證的費(fèi)用都是一樣的。這就產(chǎn)生了一種情況,即購(gòu)買或租用較少的高端 GPU 并在更大的批量大小或隊(duì)列下運(yùn)行模型可能更經(jīng)濟(jì),因?yàn)樵诓渴鸬恼麄€(gè)生命周期內(nèi),您的許可費(fèi)用會(huì)更低。

隨著單個(gè) A100 和 H100 實(shí)例變得越來越普遍(例如,Oracle Cloud Infrastructure 上周宣布推出),企業(yè)在評(píng)估此類部署的總成本時(shí)可能需要考慮這一點(diǎn)。

稍微回顧一下,如果 NIM 幫助英偉達(dá)在預(yù)計(jì) 2024 年出貨的 200 萬個(gè) Hopper GPU 中的每一個(gè)都附加一個(gè) AI Enterprise,那么它的年度訂閱收入將再增加 9 至 175 億美元。實(shí)際上,這不會(huì)發(fā)生——但即使它能實(shí)現(xiàn)其中的一小部分,仍然可以帶來數(shù)十億美元的年收入。

這并不是說NIM沒有挑戰(zhàn)。與 AI 訓(xùn)練相比,推理并不是特別挑剔。有幾個(gè)模型運(yùn)行器支持跨英偉達(dá)、AMD 甚至通用 CPU 進(jìn)行推理。相比之下,NIM 只能在 Nvidia 硬件上運(yùn)行——這對(duì)于希望利用 Kubernetes 等容器編排系統(tǒng)大規(guī)模部署和提供其模型的客戶來說可能會(huì)受到限制。

雖然英偉達(dá)仍然控制著人工智能基礎(chǔ)設(shè)施市場(chǎng)的大部分份額,但這可能不會(huì)是一個(gè)大問題,但對(duì)于擔(dān)心供應(yīng)商鎖定的客戶來說,這無疑是一個(gè)很大的危險(xiǎn)信號(hào)。

它不僅可能引起股東的注意,還可能引起司法部的注意。據(jù)說美國(guó)司法部正在對(duì)這家GPU巨頭提起反壟斷訴訟。

也就是說,如果您只是想使模型更易于在各種云和本地基礎(chǔ)設(shè)施中部署,那么實(shí)際上沒有什么可以阻止任何人創(chuàng)建自己的 NIM 等效物,并根據(jù)他們喜歡的硬件或軟件進(jìn)行調(diào)整。事實(shí)上,令人驚訝的是,更多的開發(fā)人員還沒有做過這樣的事情。我們可以很容易地想象AMD和Intel將類似的服務(wù)推向市場(chǎng) - 甚至可能通過免費(fèi)提供它們來削弱英偉達(dá)。

歸根結(jié)底,英偉達(dá) NIM 的成功可能取決于它們的調(diào)優(yōu)效率或性能如何提高,以及它們?cè)诙啻蟪潭壬细菀灼唇釉谝黄稹?/p>


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。