《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 黃仁勛承認英偉達設(shè)計缺陷導(dǎo)致舊版Blackwell良率問題

黃仁勛承認英偉達設(shè)計缺陷導(dǎo)致舊版Blackwell良率問題

改進版即將大規(guī)模生產(chǎn)
2024-10-24
來源:芯智訊

10月24日消息,據(jù)路透社報道,英偉達首席執(zhí)行官黃仁勛本周在接受采訪時承認,此前曝光的導(dǎo)致Blackwell GPU良率問題的設(shè)計缺陷是由英偉達自身造成的,但是該設(shè)計缺陷在幾個月前就已經(jīng)在臺積電的幫助下得到了修復(fù),B100/B200 處理器的改進版本即將進入大規(guī)模生產(chǎn)。

“我們在 Blackwell 中遇到了一個設(shè)計缺陷,它的功能很好,但設(shè)計缺陷導(dǎo)致良率很低。”黃仁勛說:“這 100% 是英偉達的錯?!?/p>

當(dāng)關(guān)于設(shè)計缺陷的第一批報道出現(xiàn)時,一些媒體報道說臺積電是罪魁禍首,并暗示這可能會導(dǎo)致英偉達與臺積電之間的合作緊張關(guān)系。但是,根據(jù)黃仁勛的說法,情況并非如此,英偉達自己的誤判導(dǎo)致了問題。黃仁勛還駁斥了有關(guān)兩家公司之間緊張關(guān)系的報道,稱其為“假新聞”。

英偉達的 Blackwell B100 和 B200 GPU 使用臺積電的 CoWoS-L 封裝技術(shù)將其兩個小芯片連接起來,該技術(shù)依賴于配備本地硅互連 (LSI) 橋接器的 RDL 中介層(以實現(xiàn)約 10 TB/s 的數(shù)據(jù)傳輸速率)。這些橋梁的放置至關(guān)重要。然而,GPU 小芯片、LSI 橋片、RDL 中介層和主板基板之間的熱膨脹特性被認為不匹配,導(dǎo)致系統(tǒng)翹曲和失效。據(jù)報道,英偉達不得不修改 GPU 硅的頂部金屬層和凸起,以提高產(chǎn)量。雖然該公司沒有透露有關(guān)修復(fù)的具體細節(jié),但它確實提到需要新的光罩。

良率扼殺問題和主要功能問題在半導(dǎo)體領(lǐng)域并非聞所未聞。通常,公司通過修改一個(或兩個)金屬層并將其稱為新的臺階來修復(fù)它們。

舉個例子:據(jù)報道,英特爾的 Sapphire Rapids 有 500 個錯誤,該公司發(fā)布了大約十幾個步驟來修復(fù)它們(五個是基礎(chǔ)重新旋轉(zhuǎn))。每個新步驟大約需要三個月才能完成(包括識別問題、修復(fù)問題和生產(chǎn)新版本的芯片),因此英偉達和臺積電修復(fù) Blackwell GPU 的速度令人印象深刻。

用于 AI 和超級計算機的現(xiàn)已修復(fù)的 Blackwell GPU 將于 10 月下旬進入大規(guī)模生產(chǎn),并應(yīng)在明年初開始發(fā)貨。也就是說,英偉達今年早些時候透露,為了滿足 AWS、谷歌和Microsoft等主要云服務(wù)提供商對其 Blackwell GPU 的需求,它仍必須在 2024 年底前出貨一些最初的低產(chǎn)量 Blackwell 處理器。目前尚不清楚 2024 年將有多少 Blackwell GPU 運往數(shù)據(jù)中心客戶。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。