《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > DeepSeek繞過英偉達(dá)CUDA積極適配國(guó)產(chǎn)GPU

DeepSeek繞過英偉達(dá)CUDA積極適配國(guó)產(chǎn)GPU

2025-02-06
來源:電子工程專輯

如果DeepSeek成功改用國(guó)產(chǎn)GPU,英偉達(dá)在人工智能領(lǐng)域的壟斷地位將被打破……

DeepSeek自上線以來便以迅猛的速度在全球范圍內(nèi)獲得了廣泛關(guān)注,其日活用戶數(shù)在短時(shí)間內(nèi)突破2000萬,成為全球增速最快的AI應(yīng)用之一。作為一家中國(guó)人工智能初創(chuàng)企業(yè),外部算力(主要是GPU)限制逐漸成為制約其進(jìn)一步發(fā)展的瓶頸,如今他們正致力于通過優(yōu)化其大模型技術(shù)的硬件兼容性來應(yīng)對(duì)潛在的外部算力限制。

0.png

DeepSeek與ChatGPT日活用戶增長(zhǎng)趨勢(shì)對(duì)比(來源:AI產(chǎn)品榜)

近期,有報(bào)道指出DeepSeek正在繞過英偉達(dá)的CUDA(Compute Unified Device Architecture,軟硬體統(tǒng)一計(jì)算架構(gòu))編程框架,直接使用底層硬件指令集(PTX),為未來適配中國(guó)國(guó)產(chǎn)圖形處理器(GPU)做準(zhǔn)備。這一舉措不僅標(biāo)志著中國(guó)AI技術(shù)在硬件兼容性上的重大突破,也為全球AI產(chǎn)業(yè)的發(fā)展帶來了新的啟示。

0.png

(來源:DeepSeek)

繞開CUDA,直接采用PTX實(shí)現(xiàn)更高效的訓(xùn)練

據(jù)多家媒體報(bào)道,DeepSeek在研發(fā)大型語言模型時(shí),選擇了直接使用英偉達(dá)的中間指令集框架Parallel Thread Execution (PTX),而不是常用的CUDA編程框架。這種方法不僅能夠更高效地利用硬件資源,提供更加細(xì)粒度的操作控制,還能避免由于CUDA的通用性導(dǎo)致的訓(xùn)練靈活性損失。

分析表明,這種做法相當(dāng)于繞過了硬件對(duì)訓(xùn)練速度的限制,使得DeepSeek能夠在五天內(nèi)完成其他模型需要十天才能完成的訓(xùn)練任務(wù),極大地提高了效率和靈活性。

韓國(guó)未來資產(chǎn)證券(Mirae Asset Securities Research)在對(duì)DeepSeek技術(shù)論文進(jìn)行分析時(shí)發(fā)現(xiàn),該模型的硬件效率之所以能比Meta等高出10倍,正是因?yàn)镈eepSeek選擇了從頭開始重建一切。

0.png

(來源:X)

據(jù)Tom’s Hardware報(bào)道,DeepSeek內(nèi)部擁有一些擅長(zhǎng)寫PTX語言的內(nèi)部開發(fā)者,這使得其在硬體適配方面更加得心應(yīng)手。只要了解這些硬件驅(qū)動(dòng)提供的一些基本函數(shù)接口,就可以仿照英偉達(dá)GPU硬件的編程接口去寫相關(guān)的代碼,從而讓自家大模型更加容易適配國(guó)產(chǎn)硬件。

CUDA是英偉達(dá)開發(fā)的軟硬體整合技術(shù),是一種高級(jí)語言,它允許開發(fā)者利用英偉達(dá)的圖形處理器(GPU)進(jìn)行計(jì)算。開發(fā)者只需要專注于程序和算法最相關(guān)的運(yùn)行邏輯,而不太需要考慮具體的程序是如何在 GPU 等硬件上具體如何執(zhí)行計(jì)算的,從而能夠降低開發(fā)難度。

舉例來說,假如一個(gè)人會(huì)寫匯編語言,雖然能非常高效地操作計(jì)算機(jī),但是,匯編語言對(duì)于非專業(yè)出身的人員難度非常高,哪怕執(zhí)行一個(gè)給變量賦值操作都需要好幾條命令,并且還要了解寄存器、內(nèi)存等計(jì)算機(jī)基礎(chǔ)概念。而由于CUDA大大降低了研發(fā)大模型的難度,因此全球大模型開發(fā)商都傾向選擇使用英偉達(dá)的CUDA技術(shù),可以說CUDA 便是為了方便開發(fā)基于 GPU 的算法設(shè)計(jì)的。

然而,DeepSeek卻選擇了另辟蹊徑,從頭開始重建模型,這一做法雖然復(fù)雜且難以維護(hù),但卻為其未來適配中國(guó)國(guó)產(chǎn)GPU打下了堅(jiān)實(shí)的基礎(chǔ)。

適配國(guó)產(chǎn)GPU,提升硬件兼容性和自主可控性

DeepSeek這一策略的背后,是對(duì)未來可能面臨的算力供應(yīng)問題的深思熟慮。據(jù)報(bào)道,DeepSeek擁有一批擅長(zhǎng)編寫PTX語言的內(nèi)部開發(fā)者,這將使其在未來適配中國(guó)國(guó)產(chǎn)GPU時(shí)更加得心應(yīng)手。
例如,摩爾線程智能科技公司在2025年2月宣布成功部署DeepSeek蒸餾模型推理服務(wù),驗(yàn)證了其自研全功能GPU在復(fù)雜AI任務(wù)中的支持能力。摩爾線程還計(jì)劃開放自主設(shè)計(jì)的夸娥(KUAE)GPU智算集群,支持DeepSeek V3、R1模型及新一代蒸餾模型的分布式部署。

0.png

同樣在2月,華為昇騰與潞晨科技聯(lián)合發(fā)布了基于國(guó)產(chǎn)昇騰910B芯片的DeepSeek-R1系列推理API。這一合作通過自研推理引擎深度適配優(yōu)化昇騰算力,使得DeepSeek-R1的推理性能能夠比肩高端GPU。DeepSeek-R1系列還支持NV H800等常見算力,進(jìn)一步釋放了異構(gòu)集群的潛力,滿足不同場(chǎng)景下的推理需求。

0.png

此外,沐曦2月2日聯(lián)合中國(guó)開源大模型平臺(tái)Gitee AI發(fā)布了全套DeepSeek-R1千問蒸餾模型;天數(shù)智芯在2月4日宣布完成與DeepSeek-R1模型的適配工作,并上線多個(gè)大模型服務(wù)。
國(guó)外芯片企業(yè)也紛紛表態(tài),1月25日,AMD宣布將DeepSeek-V3模型集成到其Instinct MI300X GPU上;1月31日,英偉達(dá)官宣其NVIDIA NIM微服務(wù)預(yù)覽版支持DeepSeek-R1模型;1月31日,英偉達(dá)宣布DeepSeek能夠在英特爾產(chǎn)品上運(yùn)行,包括搭載英特爾處理器的AI PC。

0.png

推動(dòng)國(guó)產(chǎn)AI生態(tài)建設(shè)

DeepSeek開源模型在多語言理解和復(fù)雜推理任務(wù)中展現(xiàn)了卓越性能,其貢獻(xiàn)不僅在于技術(shù)上的領(lǐng)先,更在于持續(xù)支持和賦能開源社區(qū)。通過與國(guó)產(chǎn)GPU廠商的深度合作,DeepSeek為國(guó)內(nèi)AI開發(fā)者提供了更強(qiáng)大的硬件支持和更靈活的開發(fā)環(huán)境。開發(fā)者可以基于國(guó)產(chǎn)GPU和DeepSeek模型,更高效地進(jìn)行AI應(yīng)用開發(fā),推動(dòng)AI技術(shù)在更多領(lǐng)域的落地應(yīng)用。

通過DeepSeek提供的蒸餾模型,大規(guī)模模型的能力可以遷移至更小、更高效的版本,在國(guó)產(chǎn)GPU上實(shí)現(xiàn)高性能推理。此舉不僅驗(yàn)證了國(guó)產(chǎn)全功能GPU對(duì)復(fù)雜AI任務(wù)的支持能力,也為通用人工智能(AGI)技術(shù)的普及化提供了可行路徑。

0.png

國(guó)內(nèi)又有更多云巨頭加入到支持行列中。昨天下午,阿里云和百度智能云先后官宣了對(duì)DeepSeek-V3、DeepSeek-R1模型的支持。百度智能云更是直接公布了模型的輸入和輸出價(jià)格。加之此前的華為云、騰訊云,目前國(guó)內(nèi)四大云巨頭都已正式支持DeepSeek。此前海外的AWS、微軟智能云等云巨頭已官宣支持。

0.png



Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。