在早前舉辦的GTC大會上,英偉達首席科學家兼研究高級副總裁 Bill Dally 提供了 Nvidia 研發(fā)組織的概述和當前優(yōu)先事項的一些細節(jié)。今年,Dally 主要專注于 Nvidia 正在開發(fā)和內(nèi)部使用的人工智能工具來改進自己的產(chǎn)品——如果你愿意的話,這是一個巧妙的反向推銷。換而言之,英偉達已經(jīng)開始使用人工智能來有效地改進和加速 GPU 設(shè)計。
“我們是一個由大約 300 人組成的團隊,他們的目標是讓Nvidia 的產(chǎn)品在定義上領(lǐng)先?!?Dally在今年的演講中描述道?!拔覀冇悬c像遠光燈,試圖照亮遠處的東西。我們被松散地組織成兩隊:供應部分提供了為 GPU 供電的技術(shù)。它使 GPU 本身變得更好,從電路到進入 GPU 和 GPU 系統(tǒng)的 VLSI 設(shè)計方法、架構(gòu)網(wǎng)絡(luò)、編程系統(tǒng)和存儲系統(tǒng)。”
“英偉達研究的需求方試圖通過開發(fā)需要 GPU 運行良好的軟件系統(tǒng)和技術(shù)來推動對英偉達產(chǎn)品的需求。我們擁有三個不同的圖形研究小組,因為我們不斷推動計算機圖形學的最新發(fā)展。我們有五個不同的 AI 組,因為使用 GPU 運行 AI 目前是一件大事,而且規(guī)模越來越大。我們還有從事機器人和自動駕駛汽車的小組。我們有許多按地理順序排列的實驗室,比如我們的多倫多和特拉維夫人工智能實驗室,”他說。
有時,Nvidia 會從幾個團隊中發(fā)起 Moonshot 項目——例如,其中一個團隊生產(chǎn)了 Nvidia 的實時光線追蹤技術(shù)。
與往常一樣,Dally 的談話與上一年有重疊——但也有新的信息。該小組的規(guī)??隙◤?2019 年的 175 人左右增長。毫不奇怪,支持自動駕駛系統(tǒng)和機器人技術(shù)的努力已經(jīng)加強。Dally 說,大約一年前,英偉達從斯坦福大學招募了 Marco Pavone來領(lǐng)導其新的自動駕駛汽車研究小組。他沒有過多談?wù)?CPU 設(shè)計工作,這無疑也在加強。
本文展示的是 Dally 對 Nvidia 在設(shè)計芯片中越來越多地使用 AI 的評論(經(jīng)過輕微編輯)的一小部分以及一些支持幻燈片。
1、映射電壓降(Mapping Voltage Drop)
“作為 AI 專家,我們很自然地希望采用該 AI 并用它來設(shè)計更好的芯片。我們以幾種不同的方式做到這一點。第一種也是最明顯的方法是我們可以采用現(xiàn)有的計算機輔助設(shè)計工具[并結(jié)合人工智能]。例如,我們有一張地圖,可以繪制我們 GPU 中的電源使用位置圖,并預測電壓網(wǎng)格下降的程度——即所謂的 IR 下降,即電流乘以電阻下降。在傳統(tǒng)的 CAD 工具上運行它需要三個小時,”Dally 指出。
“因為這是一個迭代過程,這對我們來說變得非常成問題。相反,我們想做的是訓練一個 AI 模型來獲取相同的數(shù)據(jù);我們在一堆設(shè)計中這樣做,然后我們基本上可以輸入功率圖。[結(jié)果] 推理時間僅為三秒。當然,如果包括特征提取的時間,則為 18 分鐘。我們可以很快得到結(jié)果。在這種情況下,類似的事情不是使用卷積神經(jīng)網(wǎng)絡(luò),而是使用圖神經(jīng)網(wǎng)絡(luò),我們這樣做是為了估計電路中不同節(jié)點切換的頻率,這實際上驅(qū)動了前面示例的電源輸入。再一次,我們能夠比使用傳統(tǒng)工具更快地獲得非常準確的功率估計,而且時間很短,”Dally 說。
2、預測寄生(Predicting Parasitics)
“我特別喜歡的一個功能是用圖神經(jīng)網(wǎng)絡(luò)預測寄生效應。在過去,電路設(shè)計是一個非常迭代(iterative)的過程,您需要在其中繪制原理圖,就像左邊這張帶有兩個晶體管的圖片一樣。但是,直到布局設(shè)計師采用該原理圖并進行布局,提取寄生參數(shù),然后您才能運行電路仿真并發(fā)現(xiàn)您不符合某些規(guī)格,您才會知道它的性能,”Dally指出。
“你會回去修改你的原理圖[并再次通過]布局設(shè)計師,這是一個非常漫長、反復且不人道的勞動密集型過程?,F(xiàn)在我們可以做的是訓練神經(jīng)網(wǎng)絡(luò)來預測寄生參數(shù)將是什么,而無需進行布局。因此,電路設(shè)計人員可以非常快速地進行迭代,而無需在循環(huán)中手動執(zhí)行布局步驟。這里的情節(jié)表明,與基本事實相比,我們對這些寄生因素的預測非常準確?!?/p>
3、布局和布線挑戰(zhàn) (Place and Routing Challenges)
“我們還可以預測路由擁塞(routing congestion);這對我們的芯片布局至關(guān)重要。正常的過程是我們必須制作一個網(wǎng)表,運行布局和布線過程,這可能非常耗時,通常需要幾天時間。只有這樣我們才能得到實際的擁塞,發(fā)現(xiàn)我們最初的位置是不夠的。我們需要對其進行重構(gòu)并以不同的方式放置宏以避免這些紅色區(qū)域(如下幻燈片),這是有太多電線試圖穿過給定區(qū)域的地方,有點像比特的交通堵塞。我們現(xiàn)在可以做的是無需運行布局和路由,我們可以獲取這些網(wǎng)絡(luò)列表并使用圖神經(jīng)網(wǎng)絡(luò)基本上預測擁塞將在哪里并且相當準確。
它并不完美,但它顯示了存在問題的領(lǐng)域。
4、自動化標準單元遷移(Automating Standard Cell Migration)
”現(xiàn)在這些 [方法] 都在使用人工智能來批評人類所做的設(shè)計。更令人興奮的是使用 AI 來實際進行設(shè)計。我給你舉兩個例子。第一個是我們稱為NVCell的系統(tǒng),它結(jié)合使用模擬退火(simulated annealing )和強化學習來基本設(shè)計我們的標準單元庫。因此,每當我們獲得一項新技術(shù)時,比如說我們正在從 7 納米技術(shù)轉(zhuǎn)向 5 納米技術(shù),我們就有了一個cell庫。一個單元就像一個與門和或門,一個全加器。實際上,我們有成千上萬的這些單元必須在新技術(shù)中重新設(shè)計,并具有一套非常復雜的設(shè)計規(guī)則,“Dally 說。
”我們基本上使用強化學習來放置晶體管。但更重要的是,放置后,通常會出現(xiàn)一堆設(shè)計規(guī)則錯誤,并且?guī)缀蹙拖耠娮佑螒蛞粯?。事實上,這正是強化學習所擅長的。一個很好的例子是在 Atari 視頻游戲中使用強化學習。所以這就像一個 Atari 視頻游戲,但它是一個用于修復標準單元中的設(shè)計規(guī)則錯誤的視頻游戲。通過使用強化學習來檢查和修復這些設(shè)計規(guī)則錯誤,我們能夠基本完成標準單元的設(shè)計。您所看到的(幻燈片)是 92% 的單元庫可以通過此工具完成,沒有設(shè)計規(guī)則或電氣規(guī)則錯誤。其中 12% 比人類設(shè)計細胞還小,一般來說,
“這對我們有兩件事。一是節(jié)省了大量勞動力。這是一個大約 10 人的小組,將花費一年的大部分時間來移植一個新技術(shù)庫?,F(xiàn)在我們可以用幾個 GPU 運行幾天來做到這一點。然后人類可以處理那些沒有自動完成的 8% 的cell。在許多情況下,我們最終也會得到更好的設(shè)計。所以它比人工設(shè)計更節(jié)省勞動力?!?/p>
原文鏈接: https://www.hpcwire.com/2022/04/18/nvidia-rd-chief-on-how-ai-is-improving-chip-design/