《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動態(tài) > Waymo計(jì)算系統(tǒng)猜想

Waymo計(jì)算系統(tǒng)猜想

2020-04-16
來源:與非網(wǎng)

Waymo驚人的 29 個攝像頭的傳感器配置在自動駕駛圈內(nèi)成為熱門話題。

 

近日,Waymo 在 Youtube 上發(fā)了一段視頻專門介紹“WaymoDriver”——自動駕駛巨頭的第五代無人車平臺。視頻主講人是 Waymo 設(shè)計(jì)主管 YooJung Ahn(安永君),這位一手打造了“螢火蟲”自動駕駛汽車的女設(shè)計(jì)師給我們分享了新平臺的基本設(shè)計(jì)理念。 安永君是一位出生在首爾的韓國人,實(shí)際只是消費(fèi)類產(chǎn)品工業(yè)設(shè)計(jì)師,并非技術(shù)人士,加入谷歌前在摩托羅拉和 LG 做手機(jī)工業(yè)設(shè)計(jì),從未有過汽車外觀設(shè)計(jì)經(jīng)驗(yàn),也正因此設(shè)計(jì)出了螢火蟲那樣頗為驚艷的小車。她提到了 29 個攝像頭,還有許多匪夷所思的性能,比如攝像頭可以識別 500 米外的停止標(biāo)識。眾所周知,有效距離與像素?cái)?shù)關(guān)聯(lián)程度最高,目前車規(guī)圖像傳感器最高的是索尼的 IMX324,像素為 742 萬像素,也只敢說能看清 160 米外交通標(biāo)識。 Waymo 有能力自己做攝像頭,但絕無能力自制圖像傳感器。Waymo 要么吹牛,要么使用了 2000 萬或 3000 萬像素的手機(jī)用攝像頭。這樣 Waymo 就離車規(guī)量產(chǎn)的距離越來越遠(yuǎn)了。

 

如此高的數(shù)據(jù)流量恐怕 5 年內(nèi)都找不到車規(guī)級芯片可對應(yīng)。Waymo 或者說谷歌從事自動駕駛已經(jīng)近 11 年,陸續(xù)燒掉估計(jì)超過 200 億美元資金,目前仍未有得到驗(yàn)證的商業(yè)模式,Waymo 頻繁亮相說明 Waymo 已經(jīng)著急想商業(yè)化了,但可能離商業(yè)化會越來越遠(yuǎn)。越復(fù)雜的系統(tǒng),出錯的機(jī)率越高,進(jìn)化的成果應(yīng)該是越來越簡潔,早期的手機(jī)和電腦的大芯片至少有十幾片,今天基本只有兩三片。而 Waymo 的傳感器卻越來越復(fù)雜。

 

言歸正傳。


forward (8).jpg


在 Yole 的報(bào)告里,指出第一代 Waymo(第一代 Waymo 無人車應(yīng)該指的是克萊斯勒大捷龍混動版)使用了 8 個 500 萬像素?cái)z像頭,到目前也沒有車規(guī)級的 500 萬像素傳感器,可以肯定是非車規(guī)圖像傳感器。幀率只有 21fps,盡管如此,帶寬已經(jīng)達(dá) 8.7Gbps。

 

forward (7).jpg


第二代 Waymo 無人車應(yīng)該是指捷豹 I-Pace。

 

 

forward (6).jpg


第二代 Waymo 無人車根據(jù) Yole 的說法,應(yīng)該采用了 14 個 500 萬像素?cái)z像頭,帶寬是驚人的 15.3Gbps。第二代 Waymo 無人車的傳感器(而不是攝像頭)有 29 個才更為合理,當(dāng)然也有可能 Waymo 獨(dú)辟蹊徑,有過人之處,真用了 29 個攝像頭。 500 萬像素?cái)z像頭數(shù)據(jù)帶寬超過 1Gbps,且至少 8 個,這需要非常昂貴的以太網(wǎng)交換機(jī)芯片,大多數(shù)車規(guī)級以太網(wǎng)交換機(jī)芯片只能對應(yīng) 1 路或 2 路 2.5Gbps 帶寬輸入。目前輸入帶寬最高的是博通的 BCM53162,可以對應(yīng) 4 路 2.5GbE,售價高達(dá) 650 美元(Mouser 報(bào)價,100 片起)左右,14 個 500 萬像素至少需要 3 片。

 

forward (5).jpg

上圖為 BCM53162 應(yīng)用圖

 

forward (4).jpg

 


上圖為 BCM53162 內(nèi)部框架圖


博通對 BCM53162 似乎沒有下力氣推廣,2019 年 3 月就推出了 BCM8956X 和 BCM8988X,但具體參數(shù)未對外披露。如果用了 2000 或 3000 萬像素的傳感器,帶寬至少得是 10Gbps,目前沒有車規(guī)級以太網(wǎng)交換機(jī)能對應(yīng)這么高的帶寬。 Waymo 應(yīng)該不會使用多片交換機(jī)芯片,業(yè)內(nèi)更常見的做法是 FPGA 做以太網(wǎng)交換機(jī)芯片。FPGA 可以自定義接口,特別適合無人車這種還未出現(xiàn)成熟 ASIC 的領(lǐng)域,缺點(diǎn)是價格昂貴,能夠支撐如此多高寬帶輸入的 FPGA 價格估計(jì)最低也在 2000 美元以上。 在視覺計(jì)算方面,即便是只使用了 14 個 500 萬像素的攝像頭,那么如果這 14 個攝像頭都做深度學(xué)習(xí)計(jì)算的話,算力至少需要 1000Tops。特斯拉的 FSD 單片算力接近 37TOPS,已經(jīng)是很高的了。需要指出算力比拼必須看精度,浮點(diǎn)、定點(diǎn)、整數(shù)、小數(shù),F(xiàn)P64 為雙精度,F(xiàn)P32 為單精度,F(xiàn)P16 為半精度,還有 bfloat16 介于 FP32 和 FP16 之間。

 

通常都是浮點(diǎn)運(yùn)算,還有更低的 INT8,即整數(shù) 8 位精度。做訓(xùn)練用的多 FP64\FP32\FP16\bfloat16,做推理一般是 INT8。 特斯拉的 FSD 是 36.864TOPS,是基于 INT8 的,而谷歌的 TPU V3 是 420TOPS,是基于 bfloat16,如果換成 INT8 精度,至少可以達(dá)到 600TOPS,但 TPU 不是針對 INT8 設(shè)計(jì)的,所以沒有這個參數(shù)。一般來說,雙精度到半精度就是 4 倍,但英偉達(dá)的比較特殊,它有可能分開兩個針對不同精度的多核,比如英偉達(dá)的 GK104,每個 GK104 的 GPU 內(nèi)含 1536 個 FP32 CUDA Core 和 64 個 FP64  Units ,單精度浮點(diǎn)數(shù) 理論峰值 = 2 GPU *1536 FP32 Core * 2 * 745MHz  = 4.58TFlops,雙精度浮點(diǎn)數(shù) 理論峰值 =2 GPU * 64 FP64 core * 2 * 745MHz = 0.19TFlops。英偉達(dá)的 Tesla T4 有 2560 個 CUDA 核對應(yīng) FP16,還有 320 個 TURring Tensor 核對應(yīng) FP32,F(xiàn)P32 算力為 8.1TFLOPS(浮點(diǎn)),F(xiàn)P16 精度為 65.13TFLOPS(浮點(diǎn)),INT8 精度下可達(dá) 130TOPS,INT4 精度下可達(dá) 260TOPS。

 

forward (3).jpg


那么 Waymo 有沒有可能用自己的獨(dú)門武器 TPU V3 呢?

 

forward (2).jpg


需要指出 TPU V3 并非是一塊芯片,而是 4 片芯片構(gòu)成的一塊板卡,谷歌還有規(guī)模更大的 1024 個 TPU V3 組成 TPU V3 POD。TPU V3 采用液冷,每個芯片算力有 105TOPS,TPU 使用 bfloat16 數(shù)據(jù)。因?yàn)樯疃葘W(xué)習(xí)的矩陣運(yùn)算瓶頸在存儲帶寬,TPU V3 不計(jì)成本使用了 HBM 內(nèi)存,內(nèi)存帶寬 3516GB/s,是特斯拉的 10 倍以上帶寬,F(xiàn)SD 不可能達(dá)到 36.8TOPS 的理想狀態(tài),某些時候,可能會下降一半。英特爾、英偉達(dá)和華為的此類高算力芯片都是不計(jì)成本采用昂貴的 HBM 內(nèi)存,AMD 的民用級產(chǎn)品也有奢侈使用 HBM。

 

之所以這么做就是深知瓶頸在存儲而非運(yùn)算單元本身。TPU V3 未知其功耗,大多數(shù)人估計(jì)在 200-350 瓦之間,要達(dá)到 1000TOPS 以上,得 3 塊 TPUV3,功耗高達(dá) 1 千瓦,顯然更是遠(yuǎn)離車規(guī)了,而成本則會非常驚人。一塊 TPU V3 估計(jì)價格在 5000 美元以上,3 塊得 1.5 萬美元。顯然遠(yuǎn)離量產(chǎn)了。最重要的是 TPU V3 是針對訓(xùn)練設(shè)計(jì)的。車載需要的是推理部分。

 

 Waymo 不大可能用 TPU V3,成本和功耗太高。 目前有關(guān) Waymo 計(jì)算平臺的唯一公開信息是 2017 年 9 月英特爾的新聞,英特爾聲稱自 2009 年以來,其一直與谷歌合作開發(fā)無人駕駛汽車,同時也與 Waymo 合作,為后者提供 Xeon 處理器、 Arria  FPGA(用于機(jī)器視覺)以及千兆以太網(wǎng)的解決方案,以幫助 Waymo 無人汽車實(shí)時處理信息。EyeQ5 的算力只有 12TOPS,并且在今年才量產(chǎn),顯然 Waymo 是不可能用 EyeQ5 的。最大可能還是 Xeon 處理器加 Arria  FPGA。

 

 

forward (1).jpg


上圖為英特爾設(shè)計(jì)的無人駕駛計(jì)算平臺。雖然英特爾寫的是 Arria 10 系列 FPGA,但針對深度學(xué)習(xí)加速,英特爾最常見的是 Stratix10。使用 FPGA 做深度學(xué)習(xí)加速的典型代表是微軟,從 2015 年末開始,微軟就在其購買的幾乎每臺新服務(wù)器上部署 Catapult FPGA 板卡。這些服務(wù)器被用于微軟的必應(yīng)搜索、Azure 云服務(wù)以及其他應(yīng)用。這也使得微軟成為了世界上最大的 FPGA 客戶之一。當(dāng)使用微軟獨(dú)創(chuàng)的 ms-fp8 數(shù)據(jù)格式(8 位比特精度)時,在 Stratix 10 FPGA 上可以得到 90 TFLOPS 的峰值性能。 Stratix 10 是英特爾 2015 年的產(chǎn)品。2019 底,Stratix 10 升級為 Agilex,Agilex FPGA 芯片基于第二代 HyperFlex 架構(gòu)開發(fā),相較于上一代的 Stratix 10 FPGA,性能提升了 40%,功耗降低了 40%,DSP FP16 半精度浮點(diǎn)性能最高 40 TFlops(每秒 40 萬億次)、INT8 整數(shù)性能最高 92Tops,收發(fā)器數(shù)據(jù)率最高 112Gbps。更高算力的有 Xilinx 的 ACAP 系列 FPGA,最高達(dá) 147TOPS(INT8)。

 

 不過 FPGA 的功耗已經(jīng)不是我們一貫印象中的那么低了,以英特爾 FPGA 的可編程加速卡來說,基于 Stratix 10 SX FPGA(280 萬邏輯單元)的 D5005 可編程加速卡,已在 HPE ProLiant DL3809 Gen10 服務(wù)器中應(yīng)用。TDP 高達(dá) 215 瓦,Givena specific airflow, the Intel FPGA PAC D5005 can dissipate up to 189 W ofpower,of which up to 137 W can come from the FPGA. 英特爾稱一般情況下 D5005 功耗 189 瓦,F(xiàn)PGA 是 137 瓦。而英偉達(dá)的 T4 只有 75 瓦,芯片本身只有 70 瓦。D5005 價格也比較高,高達(dá) 1 萬美元,當(dāng)然其內(nèi)部還有 2 個四通道小型可插拔(QSFP)接口,接口速度高達(dá) 100G,關(guān)鍵它是可編程的,貴有貴的道理。不過 Stratix 10 SX FPGA 芯片的價格至少也在 3000 美元以上,英偉達(dá)的 T4 單芯片價格應(yīng)該低于 1000 美元。 因此使用英偉達(dá) Tesla T4 的可能性最高,Waymo 可能降低了深度學(xué)習(xí)模型的精度,可能是 INT2 甚至 INT1,T4 在 INT1 下可達(dá) 1040TOPS 算力。

 

 

forward.jpg

 

最后說一下 Waymo 的外觀,這么多傳感器裸露在外,特別是無人車有時行動遲緩,在路口反應(yīng)不過來,很容易被追尾或剮蹭,這些精密的傳感器先不用說更換的成本很高,安裝傳感器的復(fù)雜標(biāo)定絕非一般 4S 店能完成的,特別是多個傳感器合二為一,每一個重新安裝都要標(biāo)定,是單一標(biāo)定還是聯(lián)合標(biāo)定,恐怕只有 Waymo 總部用昂貴儀器才能做到。這樣的車保險(xiǎn)費(fèi)會高的驚人。 再有就是這些傳感器裸露在外,難免會讓小偷覬覦。另外這個巨大無比的車頂部分,傳統(tǒng)車廠絕對無法接受,風(fēng)阻問題就是消耗能源問題。 Waymo 為無人車努力了 11 年,全球最頂尖的人才匯聚,燒掉至少 200 億美元,直到今天,還是工程樣車的模樣,離車規(guī)量產(chǎn)依然是遙遙無期。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。