8月7日消息,隨著人工智能(AI)的繁榮,英偉達(NVIDIA)的收入飆升,以至于它一度成為世界上最有價值的公司。這種增長主要是由于AI需求爆發(fā)下,市場對其數(shù)據(jù)中心 GPU 的需求推動的,這些 GPU 用于訓練和運行不斷增長的更好、更智能、更大的大語言模型。但是,盡管投資者愿意相信英偉達CEO黃仁勛的GPU帝國將繼續(xù)增長,一個季度又一個季度翻一番,但沒有什么是永恒的。如果英偉達的未來只圍繞銷售GPU而展開,那么這可能是一件大事。但正如黃仁勛經(jīng)常提醒人們的那樣,英偉達既是一家硬件企業(yè),也是一家軟件企業(yè)。
開拓新市場
從一開始,英偉達就認識到軟件在推動 GPU 采用方面的價值。在上周SIGGRAPH活動上與記者勞倫·古德(Lauren Goode)的爐邊談話中,黃仁勛強也調(diào)了這一點。
他解釋說:“每次我們推出特定領域的庫時,它都會將加速計算暴露給新市場?!斑@不僅僅是構建加速器,你還必須構建整個堆棧?!?/p>
2007 年,英偉達的計算統(tǒng)一設備架構CUDA的第一個版本發(fā)布,它提供了一個 API 接口,用于跨 GPU 并行處理非圖形工作負載。雖然這仍然需要開發(fā)人員和研究人員重構代碼,但對通用處理器的改進是不容忽視的。
對于 HPC 社區(qū)的人來說尤其如此——這是英偉達在其舊的游戲和專業(yè)圖形領域之外尋求的首批市場之一。2012 年末,英偉達的軟件投資幫助橡樹嶺國家實驗室的 Titan 超級計算機位居 Top500 榜首。
在首次發(fā)布 17 年后,CUDA 只是為特定市場量身定制的不斷增長的計算框架之一——從深度學習到計算光刻和量子計算仿真。
這些框架幫助英偉達為其加速器創(chuàng)造了市場,而這些市場以前幾乎不存在。
超越賦能
軟件是英偉達不那么秘密的武器,但直到最近,這種“武器”還采取了新賦能的形式。在過去的兩年中,我們看到加速器冠軍的軟件戰(zhàn)略以一種有意義的方式采用了訂閱定價模式。
2022 年初,在 OpenAI 的 ChatGPT 掀起 AI 淘金熱的幾個月前,英偉達首席財務官 Collete Kress 詳細介紹了這家 GPU 巨頭的訂閱推動路線圖——她認為,這最終將推動一萬億美元的收入。
當時,Kress 預測,其中 1500 億美元的機會將由英偉達的 AI Enterprise 軟件套件推動。即使現(xiàn)在它已經(jīng)公布了 260 億美元的季度業(yè)績,該業(yè)務仍遠低于這一萬億美元的目標——但我們開始更好地了解它的增長方式。
從軟件的角度來看,關于人工智能支持的大部分工作已經(jīng)完成。英偉達投入了大量資源來開發(fā) cuDNN、TensorRT LLM 和 Triton 推理服務等工具,以便在運行 AI 模型時充分利用其硬件。
然而,這些只是一個拼圖的一部分,必須仔細組裝和調(diào)整才能提取這種性能,而且每個模型的調(diào)整都會有所不同。它需要對模型、軟件和底層硬件有一定程度的熟悉,而企業(yè)不太可能具備這些熟悉程度。
構建 AI 簡單按鈕
在去年春季的GTC活動中,英偉達展示了一項新產(chǎn)品,旨在降低大規(guī)模采用和部署生成式AI的門檻。該技術稱為 Nvidia Inference 微服務,簡稱 NIM,本質上由容器化模型和工具組成,這些模型和工具附帶了運行它們所需的一切,并已預先配置。
NIM 容器幾乎可以部署在任何支持 Nvidia GPU 的運行時中。這聽起來可能并不那么令人興奮——但這就是重點。容器編排并不是一個容易解決的問題——只需詢問 Kubernetes 開發(fā)人員即可。那么,當您可以利用客戶已經(jīng)投資的現(xiàn)有工具和服務時,為什么要重新發(fā)明輪子呢?
NIM 的真正價值似乎來自 Nvidia 工程師針對特定模型或用例(如檢索增強生成 (RAG))調(diào)整 TensorRT LLM 或 Triton 推理服務器等內(nèi)容。如果你不熟悉,你可以在這里找到我們關于RAG的實踐指南,但要點是,Nvidia不僅在其硬件方面,而且在其軟件方面都在扮演系統(tǒng)集成商的角色。
NIM 不僅僅是巧妙的包裝。通過致力于構建一個通用的 API,用于模型和工具應如何相互通信,Nvidia 可以為客戶提供旨在解決特定用例的模板。
英偉達的定價階梯
降低采用和部署 AI 推理的門檻對軟件許可和硬件銷售都有好處。在軟件方面,在生產(chǎn)環(huán)境中部署 NIM 所需的 AI Enterprise 許可證將使您每年每個 GPU 花費 4,500 美元,或每小時每個 GPU 1 美元。
因此,要使用 NIM 部署 Meta 的 Llama 3.1 405B 模型,您不僅需要租用或購買配備 8 臺 H100 或 H200 的系統(tǒng)——這是運行模型所需的最低限度,而無需采用更激進的量化水平——但您還需要支付 36,000 美元/年或 8 美元/小時的許可費。
假設使用壽命為六年,則每個系統(tǒng)的許可證收入在 180,000 美元到 420,480 美元之間,具體取決于您是預先付款還是按小時付款。實際上,希望部署人工智能的企業(yè)將需要多個系統(tǒng)來實現(xiàn)冗余和規(guī)模。
這種價格差異可能會使承諾獲得年度許可證似乎是一個顯而易見的選擇。但請記住,我們談論的是微服務,如果實施得當,應該能夠根據(jù)需求擴大或縮小規(guī)模。
但是,假設 Llama 3.1 405B 大模型對您的需求來說有點過頭了,運行更小參數(shù)規(guī)模的大模型——采用成本低得多的NVIDIA L40S 甚至 L4S可能就足夠了。英偉達的定價結構的設置方式是推動客戶轉向更強大、能力更強的加速器。
無論您使用的是 8 臺 L40S 還是 8 臺 H200,AI Enterprise 許可證的費用都是一樣的。這就產(chǎn)生了一種情況,即購買或租用較少的高端 GPU 并在更大的批量大小或隊列下運行模型可能更經(jīng)濟,因為在部署的整個生命周期內(nèi),您的許可費用會更低。
隨著單個 A100 和 H100 實例變得越來越普遍(例如,Oracle Cloud Infrastructure 上周宣布推出),企業(yè)在評估此類部署的總成本時可能需要考慮這一點。
稍微回顧一下,如果 NIM 幫助英偉達在預計 2024 年出貨的 200 萬個 Hopper GPU 中的每一個都附加一個 AI Enterprise,那么它的年度訂閱收入將再增加 9 至 175 億美元。實際上,這不會發(fā)生——但即使它能實現(xiàn)其中的一小部分,仍然可以帶來數(shù)十億美元的年收入。
這并不是說NIM沒有挑戰(zhàn)。與 AI 訓練相比,推理并不是特別挑剔。有幾個模型運行器支持跨英偉達、AMD 甚至通用 CPU 進行推理。相比之下,NIM 只能在 Nvidia 硬件上運行——這對于希望利用 Kubernetes 等容器編排系統(tǒng)大規(guī)模部署和提供其模型的客戶來說可能會受到限制。
雖然英偉達仍然控制著人工智能基礎設施市場的大部分份額,但這可能不會是一個大問題,但對于擔心供應商鎖定的客戶來說,這無疑是一個很大的危險信號。
它不僅可能引起股東的注意,還可能引起司法部的注意。據(jù)說美國司法部正在對這家GPU巨頭提起反壟斷訴訟。
也就是說,如果您只是想使模型更易于在各種云和本地基礎設施中部署,那么實際上沒有什么可以阻止任何人創(chuàng)建自己的 NIM 等效物,并根據(jù)他們喜歡的硬件或軟件進行調(diào)整。事實上,令人驚訝的是,更多的開發(fā)人員還沒有做過這樣的事情。我們可以很容易地想象AMD和Intel將類似的服務推向市場 - 甚至可能通過免費提供它們來削弱英偉達。
歸根結底,英偉達 NIM 的成功可能取決于它們的調(diào)優(yōu)效率或性能如何提高,以及它們在多大程度上更容易拼接在一起。