123,123

DeepSeek绕过英伟达CUDA积极适配国产GPU

日期： 2025-02-06

來源：电子工程专辑

關鍵詞： Deepseek GPU 人工智能 AI应用

如果DeepSeek成功改用國產(chǎn)GPU，英偉達在人工智能領域的壟斷地位將被打破……

DeepSeek自上線以來便以迅猛的速度在全球范圍內(nèi)獲得了廣泛關注，其日活用戶數(shù)在短時間內(nèi)突破2000萬，成為全球增速最快的AI應用之一。作為一家中國人工智能初創(chuàng)企業(yè)，外部算力(主要是GPU)限制逐漸成為制約其進一步發(fā)展的瓶頸，如今他們正致力于通過優(yōu)化其大模型技術的硬件兼容性來應對潛在的外部算力限制。

DeepSeek與ChatGPT日活用戶增長趨勢對比(來源：AI產(chǎn)品榜)

近期，有報道指出DeepSeek正在繞過英偉達的CUDA(Compute Unified Device Architecture，軟硬體統(tǒng)一計算架構(gòu))編程框架，直接使用底層硬件指令集(PTX)，為未來適配中國國產(chǎn)圖形處理器(GPU)做準備。這一舉措不僅標志著中國AI技術在硬件兼容性上的重大突破，也為全球AI產(chǎn)業(yè)的發(fā)展帶來了新的啟示。

(來源：DeepSeek)

繞開CUDA，直接采用PTX實現(xiàn)更高效的訓練

據(jù)多家媒體報道，DeepSeek在研發(fā)大型語言模型時，選擇了直接使用英偉達的中間指令集框架Parallel Thread Execution (PTX)，而不是常用的CUDA編程框架。這種方法不僅能夠更高效地利用硬件資源，提供更加細粒度的操作控制，還能避免由于CUDA的通用性導致的訓練靈活性損失。

分析表明，這種做法相當于繞過了硬件對訓練速度的限制，使得DeepSeek能夠在五天內(nèi)完成其他模型需要十天才能完成的訓練任務，極大地提高了效率和靈活性。

韓國未來資產(chǎn)證券(Mirae Asset Securities Research)在對DeepSeek技術論文進行分析時發(fā)現(xiàn)，該模型的硬件效率之所以能比Meta等高出10倍，正是因為DeepSeek選擇了從頭開始重建一切。

(來源：X)

據(jù)Tom’s Hardware報道，DeepSeek內(nèi)部擁有一些擅長寫PTX語言的內(nèi)部開發(fā)者，這使得其在硬體適配方面更加得心應手。只要了解這些硬件驅(qū)動提供的一些基本函數(shù)接口，就可以仿照英偉達GPU硬件的編程接口去寫相關的代碼，從而讓自家大模型更加容易適配國產(chǎn)硬件。

CUDA是英偉達開發(fā)的軟硬體整合技術，是一種高級語言，它允許開發(fā)者利用英偉達的圖形處理器(GPU)進行計算。開發(fā)者只需要專注于程序和算法最相關的運行邏輯，而不太需要考慮具體的程序是如何在 GPU 等硬件上具體如何執(zhí)行計算的，從而能夠降低開發(fā)難度。

舉例來說，假如一個人會寫匯編語言，雖然能非常高效地操作計算機，但是，匯編語言對于非專業(yè)出身的人員難度非常高，哪怕執(zhí)行一個給變量賦值操作都需要好幾條命令，并且還要了解寄存器、內(nèi)存等計算機基礎概念。而由于CUDA大大降低了研發(fā)大模型的難度，因此全球大模型開發(fā)商都傾向選擇使用英偉達的CUDA技術，可以說CUDA 便是為了方便開發(fā)基于 GPU 的算法設計的。

然而，DeepSeek卻選擇了另辟蹊徑，從頭開始重建模型，這一做法雖然復雜且難以維護，但卻為其未來適配中國國產(chǎn)GPU打下了堅實的基礎。

適配國產(chǎn)GPU，提升硬件兼容性和自主可控性

DeepSeek這一策略的背后，是對未來可能面臨的算力供應問題的深思熟慮。據(jù)報道，DeepSeek擁有一批擅長編寫PTX語言的內(nèi)部開發(fā)者，這將使其在未來適配中國國產(chǎn)GPU時更加得心應手。
例如，摩爾線程智能科技公司在2025年2月宣布成功部署DeepSeek蒸餾模型推理服務，驗證了其自研全功能GPU在復雜AI任務中的支持能力。摩爾線程還計劃開放自主設計的夸娥(KUAE)GPU智算集群，支持DeepSeek V3、R1模型及新一代蒸餾模型的分布式部署。

同樣在2月，華為昇騰與潞晨科技聯(lián)合發(fā)布了基于國產(chǎn)昇騰910B芯片的DeepSeek-R1系列推理API。這一合作通過自研推理引擎深度適配優(yōu)化昇騰算力，使得DeepSeek-R1的推理性能能夠比肩高端GPU。DeepSeek-R1系列還支持NV H800等常見算力，進一步釋放了異構(gòu)集群的潛力，滿足不同場景下的推理需求。

此外，沐曦2月2日聯(lián)合中國開源大模型平臺Gitee AI發(fā)布了全套DeepSeek-R1千問蒸餾模型;天數(shù)智芯在2月4日宣布完成與DeepSeek-R1模型的適配工作，并上線多個大模型服務。
國外芯片企業(yè)也紛紛表態(tài)，1月25日，AMD宣布將DeepSeek-V3模型集成到其Instinct MI300X GPU上;1月31日，英偉達官宣其NVIDIA NIM微服務預覽版支持DeepSeek-R1模型;1月31日，英偉達宣布DeepSeek能夠在英特爾產(chǎn)品上運行，包括搭載英特爾處理器的AI PC。

推動國產(chǎn)AI生態(tài)建設

DeepSeek開源模型在多語言理解和復雜推理任務中展現(xiàn)了卓越性能，其貢獻不僅在于技術上的領先，更在于持續(xù)支持和賦能開源社區(qū)。通過與國產(chǎn)GPU廠商的深度合作，DeepSeek為國內(nèi)AI開發(fā)者提供了更強大的硬件支持和更靈活的開發(fā)環(huán)境。開發(fā)者可以基于國產(chǎn)GPU和DeepSeek模型，更高效地進行AI應用開發(fā)，推動AI技術在更多領域的落地應用。

通過DeepSeek提供的蒸餾模型，大規(guī)模模型的能力可以遷移至更小、更高效的版本，在國產(chǎn)GPU上實現(xiàn)高性能推理。此舉不僅驗證了國產(chǎn)全功能GPU對復雜AI任務的支持能力，也為通用人工智能(AGI)技術的普及化提供了可行路徑。

國內(nèi)又有更多云巨頭加入到支持行列中。昨天下午，阿里云和百度智能云先后官宣了對DeepSeek-V3、DeepSeek-R1模型的支持。百度智能云更是直接公布了模型的輸入和輸出價格。加之此前的華為云、騰訊云，目前國內(nèi)四大云巨頭都已正式支持DeepSeek。此前海外的AWS、微軟智能云等云巨頭已官宣支持。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

DeepSeek绕过英伟达CUDA积极适配国产GPU

日期： 2025-02-06

來源：电子工程专辑

相關內(nèi)容