《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 深度丨特斯拉自研芯片架構(gòu)難度有多大?

深度丨特斯拉自研芯片架構(gòu)難度有多大?

2022-09-02
來(lái)源:Ai芯天下

前言:

不同于手機(jī)為代表的消費(fèi)電子芯片,車規(guī)級(jí)芯片對(duì)使用壽命、安全性、可靠性、質(zhì)量一致性等方面的要求更嚴(yán)苛。

從設(shè)計(jì)到流片成功,一切順利的話,才能量產(chǎn)前裝,整個(gè)過(guò)程大概需要3-5年,當(dāng)初的特斯拉正是用了三年有余。

自研芯片最終的目標(biāo)是追求可擴(kuò)展性

目前,特斯拉正著眼于從頭開(kāi)始構(gòu)建相關(guān)系統(tǒng),不過(guò),它不僅僅是在研發(fā)自己的人工智能芯片,它還在研發(fā)一臺(tái)超級(jí)計(jì)算機(jī)。

在去年的AI Day上,特斯拉就已發(fā)布Dojo超級(jí)計(jì)算機(jī),但當(dāng)時(shí)其羽翼未豐,尚只有第一個(gè)芯片及訓(xùn)練塊,公司仍在推動(dòng)構(gòu)建完整的Dojo Exapod。

而特斯拉也表示,理論上,Dojo ExaPod將是世界上最快的AI訓(xùn)練超級(jí)計(jì)算機(jī)。

從本次研討會(huì)上Talpes的展示來(lái)看,每個(gè)Dojo ExaPod集成120個(gè)訓(xùn)練模塊,內(nèi)置3000個(gè)D1芯片,擁有超過(guò)100萬(wàn)個(gè)訓(xùn)練節(jié)點(diǎn),算力達(dá)到1.1EFLOP*(每秒千萬(wàn)億次浮點(diǎn)運(yùn)算)。

預(yù)計(jì)這臺(tái)定制的超級(jí)計(jì)算機(jī)將提高特斯拉使用視頻數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的能力,并對(duì)特斯拉自動(dòng)駕駛功能至關(guān)重要。

想完成一系列構(gòu)建需要自研芯片

使得Dojo完成訓(xùn)練AI算法的重任,就是特斯拉自研神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片D1芯片。

但在去年特斯拉AIDay上推出的Dojo超級(jí)計(jì)算機(jī),是基于特斯拉自研的D1芯片。

特斯拉D1芯片具備以下特點(diǎn):

①2D Mesh架構(gòu);

②具備向量及矩陣計(jì)算加速單元的眾核架構(gòu);

③存算一體架構(gòu)(近存計(jì)算)。

相比于業(yè)內(nèi)其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節(jié)省5倍。

每個(gè)DojoExaPod集成120個(gè)訓(xùn)練模塊,內(nèi)置3000個(gè)D1芯片,擁有超過(guò)100萬(wàn)個(gè)訓(xùn)練節(jié)點(diǎn),算力達(dá)到1.1EFLOP*(每秒千萬(wàn)億次浮點(diǎn)運(yùn)算)。

Dojo AI系統(tǒng)全自研自研專用指令集

所謂Dojo,是特斯拉自研的超級(jí)計(jì)算機(jī),可利用海量視頻數(shù)據(jù),完成[無(wú)人監(jiān)管]的標(biāo)注和訓(xùn)練。

本質(zhì)上,Dojo由一個(gè)完全定制的架構(gòu)構(gòu)建,涵蓋了計(jì)算、網(wǎng)絡(luò)、輸入/輸出(I/O)芯片到指令集架構(gòu)(ISA)、電源傳輸、包裝和冷卻。

通常,初創(chuàng)公司都希望為每個(gè)系統(tǒng)構(gòu)建一個(gè)或幾個(gè)芯片的AI芯片。

顯然,特斯拉專注于更大的規(guī)模。

更令人興奮的是,它不僅使用商業(yè)上可用的系統(tǒng),而且還在構(gòu)建自己的芯片和系統(tǒng)。

特斯拉Dojo AI系統(tǒng)開(kāi)發(fā)過(guò)程與車載系統(tǒng)類似,特斯拉自己雇傭了研究人員為其研發(fā)相關(guān)的芯片和系統(tǒng)。

Dojo AI系統(tǒng)采用分布式架構(gòu)

特斯拉Dojo AI系統(tǒng)采用分布式架構(gòu),每個(gè)Dojo節(jié)點(diǎn)都有自己的CPU、內(nèi)存和通信接口。

而每個(gè)節(jié)點(diǎn)都有1.25MB的SRAM,然后每個(gè)節(jié)點(diǎn)都連接到一個(gè)2D網(wǎng)格。

Dojo接口處理器位于2D網(wǎng)格的邊緣,它的每個(gè)訓(xùn)練塊有11GB的SRAM和160GB的共享DRAM。

Dojo核心有一個(gè)整數(shù)單元,它從RISC-V架構(gòu)中借用了一些指令,并且有一大堆特斯拉自己創(chuàng)建的附加指令。

Dojo指令集支持64位標(biāo)量指令和64 BSIMD指令,它包括處理從本地內(nèi)存到遠(yuǎn)程內(nèi)存?zhèn)鬏敂?shù)據(jù)的原語(yǔ),并支持信號(hào)量和屏障約束。

這是使內(nèi)存操作符合指令不僅在D1內(nèi)核中運(yùn)行,而且在D1內(nèi)核的集合中運(yùn)行。

每個(gè)Dojo節(jié)點(diǎn)都有一個(gè)內(nèi)核,是一臺(tái)具有CPU專用內(nèi)存和I/O接口的成熟計(jì)算機(jī)。

D1是一個(gè)超標(biāo)量?jī)?nèi)核

D1意味著它在其內(nèi)核中支持指令級(jí)并行性,就像當(dāng)今大多數(shù)芯片一樣,它甚至具有多線程設(shè)計(jì)來(lái)驅(qū)動(dòng)更多指令通過(guò)該內(nèi)核。

D1處理器架構(gòu):每個(gè)D1處理器由18x20的D1核心構(gòu)成。每個(gè)D1處理器中有354個(gè)D1核心可用。

出于良率和處理器核心穩(wěn)定考慮,D1處理器由臺(tái)積電制造,采用7nm制造工藝,擁有500億個(gè)晶體管,芯片面積為645mm?。

這個(gè)尺寸小于英偉達(dá)的A100(826mm?)和AMDArcturus(750mm?)。

但是每個(gè)核心都是一個(gè)完整的帶矩陣計(jì)算能力的CPU,其計(jì)算靈活性是遠(yuǎn)超眾核架構(gòu)的GPU的,這也會(huì)帶來(lái)極高的成本。

·D1核心結(jié)構(gòu):從18x20陣列中每個(gè)D1核心的結(jié)構(gòu)上看,每個(gè)D1核心是帶有向量計(jì)算/矩陣計(jì)算能力的處理。

具有完整的取指、譯碼、執(zhí)行部件。處理器運(yùn)行在2GHz,具有4個(gè)8x8x4矩陣乘法計(jì)算單元。

·D1處理器指令集:以RISC-V架構(gòu)ISA為基礎(chǔ)進(jìn)行擴(kuò)展。

D1核心具備FP32和FP16這兩個(gè)標(biāo)準(zhǔn)的計(jì)算格式,同時(shí)還具備更適合Inference的BFP16格式。

為了達(dá)到混合精度計(jì)算提升性能的目的,D1還采用了用于較低精度和更高吞吐量的8位CFP8格式。

·D1訓(xùn)練塊架構(gòu):每個(gè)D1訓(xùn)練模塊由5x5的D1芯片陣列排布而成,以二維Mesh結(jié)構(gòu)互連。

片上跨內(nèi)核SRAM達(dá)到驚人的11GB,這也算是一個(gè)非常典型的近存計(jì)算架構(gòu)了。當(dāng)然耗電量也達(dá)到了15kW的驚人指標(biāo)。

每個(gè)訓(xùn)練模塊外部邊緣的40個(gè)I/O芯片達(dá)到了36TB/s的聚合帶寬,或者10TB/s的橫跨帶寬。

車企對(duì)芯片從未像如今這么高漲

自動(dòng)駕駛汽車的制造商開(kāi)始意識(shí)到,在復(fù)雜的世界中教汽車自動(dòng)駕駛這種情況總是在變化,這將需要更多的超級(jí)計(jì)算。

一是因?yàn)槿虺掷m(xù)了兩年的“芯片荒”讓主機(jī)廠對(duì)供應(yīng)鏈安全的重視達(dá)到了前所未有的高度;

二是因?yàn)橹悄芑切履茉锤?jìng)爭(zhēng)的必要條件,軟件定義汽車時(shí)代已經(jīng)來(lái)臨。

作為第一個(gè)從Mobileye封閉商業(yè)模式中跳出來(lái)的車企,特斯拉最早2016年初就啟動(dòng)了自動(dòng)駕駛芯片研發(fā)項(xiàng)目,并于2019年正式在量產(chǎn)車上批量搭載。

在特斯拉的帶動(dòng)下,頭部新勢(shì)力如蔚來(lái)、小鵬、理想紛紛跟進(jìn)。

2021年相繼宣布了各自的自動(dòng)駕駛芯片自研計(jì)劃,理想在三個(gè)月前甚至專門為此在綿陽(yáng)成立了[理想智動(dòng)]。

進(jìn)入今年,自動(dòng)駕駛芯片[凌芯01]也進(jìn)入集成驗(yàn)證階段,將在明年二季度進(jìn)行實(shí)車測(cè)試。

結(jié)尾:

特斯拉在芯片和超算開(kāi)發(fā)方面取得成就后,或?qū)⒓?lì)更多的車企加入到芯片和超算研發(fā)上來(lái),大力發(fā)展自主創(chuàng)新能力,提升企業(yè)競(jìng)爭(zhēng)力。

部分資料參考:電子工程世界:《深度解讀特斯拉自研芯片架構(gòu)》,《為自動(dòng)駕駛「操碎了芯」,特斯拉Dojo超算架構(gòu)細(xì)節(jié)首次公開(kāi)》



更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。