123,123,123

DeepSeek推理任务中昇腾910C已达英伟达H100性能的60%

日期： 2025-02-06

來源：芯智讯

關(guān)鍵詞： Deepseek GPU 昇腾英伟达

2月5日消息，據(jù)tomshardware等多家媒體報道，華為最新的AI處理器昇騰910C（Ascend 910C）的推理性能已經(jīng)達到了英偉達（NVIDIA）H100 GPU的60%。雖然昇騰910C性能與英偉達最新的Blackwell系列AI芯片相比仍有很大差距，但它有助于降低中國對英偉達GPU的依賴。

根據(jù)DeepSeek 研究人員的測試數(shù)據(jù)顯示，在執(zhí)行基于DeepSeek模型的推理任務(wù)中，昇騰910C性能可達到英偉達H100的60%。

這顯示出，華為盡管受美國的制裁，無法獲得臺積電的先進制程技術(shù)的支持，華為AI處理器的能力仍在快速進步。據(jù)介紹，昇騰910C采用chiplet封裝，整合約530億個晶體管。過去昇騰910芯片采用臺積電N7+制程，而昇騰910C芯片則由中芯國際第二代7納米級（N+2）制程制造。

若透過手動優(yōu)化CUNN核心，昇騰910C性能還可進一步提升。此外，DeepSeek 對升騰處理器的原生支持，以及其PyTorch儲存庫可讓CUDA到CUNN無縫轉(zhuǎn)換，讓華為硬件更容易整合到AI工作流程中。

據(jù)了解，DeepSeek的支持為華為芯片帶來了關(guān)鍵優(yōu)勢：從第一天起就支持華為昇騰芯片，自主維護PyTorch倉庫，只需一行代碼就能將CUDA轉(zhuǎn)換為CANN；而且性能優(yōu)化潛力巨大，通過定制優(yōu)化可達到更高性能。

據(jù)華為官網(wǎng)介紹， CANN（Compute Architecture for Neural Networks）是昇騰針對AI場景推出的異構(gòu)計算架構(gòu) ，對上支持多種AI框架，對下服務(wù)AI處理器與編程，發(fā)揮承上啟下的關(guān)鍵作用，是提升昇騰AI處理器計算效率的關(guān)鍵平臺。同時針對多樣化應(yīng)用場景，提供高效易用的編程接口，支持用戶快速構(gòu)建基于昇騰平臺的AI應(yīng)用和業(yè)務(wù)。

據(jù)了解，CANN分社區(qū)版和商用版。前者是快速提供新特性的體驗版，供開發(fā)者提前試用；而后者是滿足商用標準的穩(wěn)定版本。目前，CANN社區(qū)版已經(jīng)來到了8.0.0.alpha003版本，針對Ascend C進行了特性增強。而商用版CANN 8.0.RC3版本也已經(jīng)發(fā)布，新增適配7個操作系統(tǒng)，簡化了CANN安裝流程。

DeepSeek的Yuchen Jin表示，“長周期訓練的穩(wěn)定性是中國芯片最大難關(guān)”。這涉及英偉達軟硬體生態(tài)系統(tǒng)的深度整合，CUDA護城河已經(jīng)發(fā)展二十多年。雖然推理性能可繼續(xù)改善，但持續(xù)的訓練工作負載需要華為進一步改進軟硬體堆疊。

有專家預(yù)測，隨著AI模型向“Transformer構(gòu)架”（如GPT、BERT等）靠攏，CUDA和PyTorch編譯器的重要性將降低。此外，DeepSeek 團隊在軟硬體優(yōu)化方面的專長，也可能大幅降低對英偉達CUDA的依賴，大幅節(jié)省成本。

此前的研究顯示，DeepSeek使用英偉達的H800芯片訓練時，使用英偉達底層硬件指令PTX（Parallel Thread Execution）語言，而非高級編程語言CUDA。這似乎也意味著DeepSeek繞過了CUDA，使用更底層的編程語言做優(yōu)化。

對于程序開發(fā)人員來說，CUDA是一種更加友好的高級語言，開發(fā)者只需要專注于程序和算法最相關(guān)的運行邏輯，而不太需要考慮具體的程序是如何在GPU等硬件上具體如何執(zhí)行計算的，從而能夠降低開發(fā)難度。而PTX在接近匯編語言的層級運行，允許進行細粒度的優(yōu)化，如寄存器分配和Thread / Warp級別的調(diào)整。這種編程非常復(fù)雜且難以維護，所以行業(yè)通用的做法是使用CUDA這樣的高級編程語言。

北京航空航天大學副教授黃雷表示，繞過CUDA可以直接根據(jù)GPU的驅(qū)動函數(shù)做一些新的開發(fā)，從而實現(xiàn)更加細粒度的操作。這也說明DeepSeek擁有一些擅長寫PTX語言的內(nèi)部開發(fā)者。假如它之后使用國產(chǎn)GPU，其在硬件適配方面將會更得心應(yīng)手，其只要了解這些硬件驅(qū)動提供的一些基本函數(shù)接口，就可以仿照英偉達GPU硬件的編程接口去寫相關(guān)的代碼，從而讓自家大模型更加容易適配國產(chǎn)硬件。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

DeepSeek推理任务中昇腾910C已达英伟达H100性能的60%

日期： 2025-02-06

來源：芯智讯

相關(guān)內(nèi)容