2012年,深度學習“巨佬”Geoffrey Hinton及其學生Alex,在ImageNet競賽中,借助GPU來加速訓練深度神經(jīng)網(wǎng)絡,奪得了競賽的冠軍。
而本次競賽的影響力,從學術界直接穿透到產(chǎn)業(yè)界,不僅推動了第三次人工智能浪潮的到來,更是幫助英偉達的GPU開拓了新的增量市場。
其中,自動駕駛應用,作為AI領域的重要細分市場,成為了英偉達發(fā)力的主要方向之一。
彼時正是Intel旗下Mobileye統(tǒng)治自動駕駛芯片的時代。Mobileye以cv技術為基礎,推出了算法+EyeQ系列芯片組成的系列解決方案,可以幫助車企實現(xiàn)從L0級的碰撞預警,到L1級的AEB緊急制動、ACC自適應巡航,再到L2級的ICC集成式巡航等各種功能?!八惴?芯片”打包的商業(yè)模式,幫助Mobileye在早期的市場中賺了個盆滿缽滿。
此外,當時的車企還將重要的技術力量集中在發(fā)動機、變速箱等比較傳統(tǒng)的汽車“核心”領域,而將電子、智能化部分的研發(fā)交給德賽西威等Tier 1廠商來做技術打包整合,直接封裝成模塊使用。Mobileye就是這種模式下的集大成者。Mobileye 短期優(yōu)勢在于,在中國的車企還沒有能力去構建自己的知識產(chǎn)權的情況下,它愿意用 Mobileye 趕緊把車給造出來,實現(xiàn)快速量產(chǎn);長期來看,車企慢慢還是像自建自動駕駛技術最終會是自研。
隨著技術的進步,自動駕駛在L2級別以后的發(fā)展逐漸需要更高的芯片算力,而車企開始主要要求自己掌控智能駕駛輔助的“靈魂”算法,也需要更開放的平臺來做算法的差異化。這時Mobileye開始遭遇到了硬件性能和商業(yè)模式的雙重挑戰(zhàn),并最終被挑戰(zhàn)者英偉達拉下了行業(yè)頭把交椅。
算力卷王誕生
英偉達的成功原因?
無論是通用Cruise、亞馬遜 Zoox、AutoX、小馬智行這樣的Robotaxi公司,還是奔馳、捷豹路虎、沃爾沃這樣的全球知名車企,都已經(jīng)和英偉達建立了合作。
圖源 | Nvidia官網(wǎng)
不久前,2022年英偉達GTC大會上,“黃教主”官宣了與比亞迪的合作關系。按照規(guī)劃,從2023年上半年起,比亞迪就將在部分車型上搭載英偉達的Orin芯片,以及相配套的的軟硬件系統(tǒng)。
無獨有偶,蔚來、小鵬、理想三家強勢新勢力今年的新款車型,都搭載了英偉達的自動駕駛芯片。像高合、智己L7、集度等逐漸開始顯露頭角的玩家,也選擇與英偉達達成合作。根據(jù)筆者在《缺少自動駕駛的比亞迪還能火多久》中的介紹,比亞迪之所以采用高端芯片與英偉達合作,中低端采用地平線和自研的方式。其最重要的一點就是節(jié)省產(chǎn)品的研發(fā)和上市時間,實現(xiàn)產(chǎn)品的快速迭代。
英偉達在自動駕駛領域的成功,其實簡單來說就兩點:
完全開放
其開發(fā)的芯片不僅性能強大,更像是“公版顯卡”,不僅不限制車企自行開發(fā)自動駕駛軟件算法,還有很強的硬件兼容性。如果廠家不具備相應的實力,或者就想貫徹“拿來主義”,英偉達也有自動駕駛全家桶解決方案。
無與倫比的強大算力
從2018年的Parker到現(xiàn)如今的Orin,已經(jīng)實現(xiàn)254倍的算力增長。英偉達在2022 GTC演講中發(fā)布了下一代SoC單芯片,也就是當前大熱的Orin系統(tǒng)的接任者,NVIDIA DRIVE Thor。去年黃仁勛還說會有一個1000TOPS的Atlan,結果今年就直接說Atlan繼任者來了,是2000TOPS算力的Thor。也正因為Thor太強了,并且同樣將在2025年裝車,所以英偉達就干脆取消了Atlan。
此外,自動駕駛技術主要由高精地圖、感知模塊、決策模塊和執(zhí)行模塊組合而成,各家自動駕駛供應商、各大主機廠,主要內卷的也就是這四大類別技術。感知模塊可能是近幾年車企宣傳的重點,多目攝像頭、車內人員監(jiān)測、毫米波雷達、激光雷達、測距雷達,各種新技術、新規(guī)格讓用戶看的云里霧里,可這些監(jiān)測模塊的數(shù)據(jù)匯總在一起的就是一堆圖形信息,而這恰好是英偉達最擅長的領域。
2000TOPS是個啥概念?參照英偉達的A100,如果把FP8等同于INT8,那么就相當于英偉達A100三倍的算力。A100的FP32單精度,那就是約為20TFLOPS。英特爾至強處理器icelake的Gold 6348 CPU,對應的單精度算力是4.6TFLOPS。這意味著Thor比Gold 6348處理器的浮點運算性能高出12倍。
除了GPU算力夠強,Thor還是一顆SOC,集成了ARM的CPU。這顆CPU核心Grace是ARM即將發(fā)布的全新一代架構,ARM Poseidon AE (波塞冬)內核,單線程性能業(yè)內最強。說到SOC,這里有一個參照物是高通的驍龍855芯片,也就是目前應用最多的汽車座艙芯片的8155原型,是110GFLOPS,光是GFLOPS和TFLOPS單位就是一萬倍的差距。
Thor的誕生
如何改變自動駕駛行業(yè)?
這樣一來對于很多自動駕駛算法公司,和自研的自動駕駛芯片公司會產(chǎn)生什么影響呢?
眾所周知,AI的兩個重點:算法+算力同樣重要。在算力不夠的情況下,算法就顯得非常重要。效率足夠高、輕量化的算法可以在有限的算力下完成更多的工作。然而當算力足夠高,足夠奢侈的情況下,算法優(yōu)化的差別就顯得不那么大了,很多應用直接上通用算法就行了。那么很多在算法上有積累的公司一下子處境尷尬起來。如果英偉達再自己下場,將自動駕駛的算法開源,那么算法公司這個生態(tài)位就很難繼續(xù)存在下去了。而車企也必將更深的被綁定在英偉達這個平臺生態(tài)上。
目前的現(xiàn)狀大概是這樣。英偉達在自動駕駛芯片領域處于壟斷地位,而高通在智能座艙領域也基本處于壟斷地位。所以大部分車企都會選擇在自動駕駛域采用英偉達的Orin,而智能座艙用高通的8155。術業(yè)有專攻,這樣做其實也沒錯,畢竟兩個應用還是有不小的差異,而同時也符合目前汽車的分布式域架構,不同域之間還是有一定的區(qū)隔。
不過英偉達的Thor出現(xiàn)以后,超高的算力讓一顆SOC就可以實現(xiàn)自動駕駛和智能座艙的所有功能。通過多域計算,Thor系統(tǒng)可以為自動駕駛和車載信息娛樂劃分任務,可以根據(jù)實際的用戶需要,將2000TFLOPS算力分配到自動駕駛,或者車載娛樂上。而同一顆SOC上,也可以同時運行Linux、QNX 和 Android三種不同的操作系統(tǒng),可以分別代表自動駕駛、功能安全和智能座艙三種應用。
當然,如果車企覺得這種單芯片的做法不保險,也可以通過NVLink-C2C芯片互連技術在連接兩顆芯片單獨運行操作系統(tǒng)。試想一下兩顆Thor實現(xiàn)4000TFLOPS的算力,以后汽車就是移動的服務器了。特斯拉設想的大型游戲已經(jīng)是小case了,將來可能會有更多專業(yè)級的計算會在車上實現(xiàn)。
從這一角度來看,智能座艙領域的王者高通或將面臨非常大的挑戰(zhàn)。特別是這次Thor采用的ARM波塞冬架構,用到手機上估計在2023年左右量產(chǎn),而Thor上車時間則是2024年底??梢哉f車載芯片和手機芯片已經(jīng)沒有代差了。當然,考慮到Thor是在2024年量產(chǎn),而高通8155則是前兩代產(chǎn)品,高通是有可能在2022年底或2023年初發(fā)布更為激進的產(chǎn)品,并將ARM波塞冬架構也導入座艙芯片。
實際上,當英偉達Thor剛公布不久,高通就坐不住了。在日前舉行的高通汽車投資者大會上,高通汽車高級副總裁兼總經(jīng)理納庫爾·杜格爾正式宣布,推出“業(yè)內首個集成式汽車超算SOC”,名字叫做Snapdragon Ride Flex。據(jù)透露,Snapdragon Ride Flex確切的說是一個SoC產(chǎn)品家族,其包括Mid、High、Premium三個級別。Ride Flex Premium SoC單顆芯片的AI算力在600TOPS以上。最高級的Ride Flex Premium SoC再加上外掛的AI加速器(可能是NPU,MAC陣列)組合起來,就可以實現(xiàn)2000TOPS的綜合AI算力。
大算力之外,Snapdragon Ride Flex作為一個超算芯片家族,其最大的目標是實現(xiàn)車內的中央計算——即同時為智能駕駛、智能座艙、通信等能力提供計算支持,這也與英偉達Thor雷神芯片一致。預計最終上市時間可能會在2025年,稍晚于Thor。
曾幾何時,超過100TOPS的算力已經(jīng)算是比較高端的芯片了。而在英偉達和高通的“PPT”大戰(zhàn)下,整個自動駕駛芯片行業(yè)正在加速內卷,算力門檻一再飆升。
在這么卷的情況下,也開始有不少廠商出來給這場算力競爭降降溫了。在行業(yè)玩家都紛紛追求高算力的2022年,Mobileye今年推出的旗艦產(chǎn)品EyeQ Ultra卻只有176TOPS。Mobileye的CEO Ammon Shashua表示,“我們非常坦率地認為TOPS是一個非常不充分的計算能力指標,集成在EyeQ芯片中的計算模型非常復雜,遠不是單一指標能夠量化的”。而Tesla的FSD芯片,也還保持在144 TOPS的算力,但自動駕駛的體驗目前是業(yè)內公認的頭部位置。Ammon Shashua同時也提出了對于功耗的擔憂,他認為超高算力的芯片將會帶來過高功耗,從而減少新能源汽車的行駛時長。畢竟,行駛中的汽車與服務器還是兩種不同的應用場景。
國內的自動駕駛芯片代表廠商地平線也認為,應該更強調芯片的有效利用率而非只關注算力。他們將地平線征程5和Nvidia最新一代自動駕駛芯片Orin在同一套數(shù)據(jù)集上進行評測對比,發(fā)現(xiàn)征程5的FPS優(yōu)于Nvidia Orin的表現(xiàn)。地平線認為,盡管競品的AI芯片算力更高,但其算力的有效利用率上卻打了很大折扣,不同模型算法的有效利用率有很大差異。實際使用時就會有個很奇怪的現(xiàn)象,雖然芯片的TOPS很高,但實際模型跑在芯片上的效果并不好,這正是芯片有效利用率低的表現(xiàn)。
以特斯拉為例,它的自動駕駛平臺是隨相關技術不斷發(fā)展而同步提高算力的,目前,特斯拉自動駕駛平臺算力也不過100多TOPS。顯然,自動駕駛必要的技術積累是車企邁不過的檻,積累上的差距不是單純堆算力就能彌補的,過度堆算力只會增加消費者不必要的購車成本。其實,自動駕駛技術的真正成熟還是需要包括基礎研究在內的一系列相關技術取得突破。
不過,盡管有種種擔憂,考慮到未來的“一顆芯片”控制整車將成為趨勢,哪怕僅僅從單芯片的采購成本和市場宣傳的角度來看,芯片算力內卷已經(jīng)不可避免。而在這個算力大幅度提升的緊要關頭,中國芯片廠商正面臨1990年以來前所未有的制裁,中國自動駕駛自主之路的速度或將進一步放緩。
新的制裁開始了
美國時間10月7日,美國商務部工業(yè)安全局(BIS)宣布了對美國《出口管理條例》(EAR)的一系列修訂,并公布了針對中國企業(yè)的新的出口管制限制措施。這是BIS近年來最大幅度的限制性舉措,也是近期中美科技“脫鉤”的最大動作。
我們重點關注與自動駕駛行業(yè)相關的一條禁令:GPU出口管制的技術限制設定為英偉達A100的指標,(單精度19.5TFLOPS.雙精度97TFLOPS. I/O為600GB/SL超過標準需要申請許可證。)A100是英偉達2020年9月發(fā)布的7納米GPU芯片,H100則是英偉達2022年3月發(fā)布并預計將在三季度上市的4納米GPU芯片。這兩款GPU產(chǎn)品,均是市場上可獲取的最高性能GPU產(chǎn)品之一。
8月份,美國政府向AMD、英偉達發(fā)出臨時禁售通知,說明出口管制政策的修訂工作已經(jīng)基本完成,從英偉達的公告可以看出,商務部已經(jīng)制定了“芯片性能達到A100閾值”作為制裁的分界線。8 月 31 日,英偉達提交給美國證券交易委員會的報告中顯示,美國政府要求限制其向中國出口最新兩代旗艦 GPU 計算芯片 A100 和 H100。此外,AMD 的數(shù)據(jù)中心級 GPU MI100 與 MI200 也被限制出口。隨后,英偉達宣布已經(jīng)獲得了美國政府授權,可以在明年 3 月之前繼續(xù)向美國客戶出口到中國的產(chǎn)品提供 A100,明年 9 月前繼續(xù)履行 A100 和 H100 的訂單。盡管如此,英偉達的股價還是應聲而落,市值蒸發(fā)了 288 億美元。
10月7日進行的修訂,很明顯是對于8月AMD、英偉達GPU禁售令的詳細說明。而除了此前提到過的數(shù)據(jù)中心、服務器、超算等應用將遭受影響外,目前如火如荼的新能源汽車算力競爭或許也將踩上剎車。特別在剛剛舉行的Nvidia AI Day上發(fā)布的算力超過2000TOPS的自動駕駛芯片Thor,可能會受到限制,而英偉達的芯片目前幾乎已經(jīng)壟斷了中高端自動駕駛市場。
中國本土芯片商被鎖死了嗎?
2022中國電動汽車百人會論壇上,全國政協(xié)經(jīng)濟委員會副主任、前工信部部長苗圩,在談及芯片供應問題時,言辭激烈?!捌噺S商真正采取行動的沒有,只會光叫喚?!边@句話說得很重了。
不僅直言中國汽車行業(yè)缺芯少魂,更是對國內車企把車規(guī)級芯片、操作系統(tǒng)等卡脖子技術扔給一級配套商(tier1廠商)的“不作為”,表達了不滿。國內的汽車半導體供應鏈,僅僅寄希望于Tier 1,將砝碼全部壓在英偉達、高通這樣的國際巨頭(特別是美國企業(yè))身上,一旦出現(xiàn)了類似于開頭美國出口管制的情況,供應鏈安全將遭受巨大挑戰(zhàn)。高通當然是可替代英偉達的一個選項,不過作為國外廠商,高通面臨著和英偉達一樣的風險。
今年來,國內開始涌現(xiàn)出類似于地平線、黑芝麻、寒武紀、華為、芯馳等本土廠商,紛紛發(fā)力自動駕駛芯片。比如獲得理想汽車青睞的地平線,2021新款理想ONE上已經(jīng)配置上了征程3芯片;智能駕駛、中央網(wǎng)關、智能座艙全方位布局的芯馳科技,產(chǎn)品已經(jīng)覆蓋國內超70%的車廠。
其中地平線征程5基于臺積電16nm制程打造,AI算力可以達到128TOPS。華為的MDC 810,算力400TOPS,已經(jīng)實現(xiàn)量產(chǎn)上車。MDC 810并搭載沒有支持通用計算的GPU,而是用“特定域架構”的AI芯片Ascend昇騰負責計算。黑芝麻的華山2號A1000量產(chǎn)已經(jīng)在路上,INT8精度下單顆芯片算力達58TOPS,將在江汽集團思皓新車型上首發(fā)量產(chǎn),具體時間未定。今年下半年,芯馳將推出算力超過200TOPS的自動駕駛專用芯片。而量產(chǎn)計劃,按照半導體行業(yè)普遍規(guī)律來看,不會早于2024年。
根據(jù)中信證券的最新的《自動駕駛芯片行業(yè)研究報告(2022)》分析,上面這些可替代英偉達Orin的本土方案,從性能和量產(chǎn)節(jié)奏來看,優(yōu)缺點明顯。國內自主替代的產(chǎn)品,已經(jīng)走到量產(chǎn)前夜,而且可以通過架構、系統(tǒng)、軟件的優(yōu)化,達到和英偉達Orin相當?shù)男Ч2贿^考慮到汽車芯片的設計,不僅需要車規(guī)級的認證,還需要半導體技術的積累,以及整個車芯產(chǎn)業(yè)鏈的互相支撐。哪怕芯片廠商設計生產(chǎn)出了產(chǎn)品,Tier 1們不采用,供應鏈被切斷,也很難被整車配置,進行市場檢驗、技術迭代。再加上國際環(huán)境的動蕩、技術的封禁、疫情的反復,以及原材料上漲等一系列不確定因素,本土自動駕駛芯片的真正替代和趕超時間可能還要延后。
與此前不少媒體分析,相關制裁措施“利好國產(chǎn)GPU和AI芯片”的樂觀不同。筆者認為,這次美國將邏輯芯片的管控范圍調整到16/14nm或更先進的制程,而28nm及以上制程的擴產(chǎn)也需要獲得許可。未來國內的芯片設計公司或將被鎖死在16/14nm之內,無法流片更高級別工藝的芯片。值得一提的是,除了手機之外,目前包括PC、拼版、車機、自動駕駛算力平臺以及可穿戴領域的芯片,都在加速邁向先進制程。特別是車機和自動駕駛平臺,邁向先進制程的速度非常快。接下來的3-5年將是國產(chǎn)AI芯片廠商加速AI應用落地和大規(guī)模部署的快速發(fā)展時期。如果國產(chǎn)芯片被鎖死在16/14nm之內,就如同《三體》中地球基礎科技被智子鎖定一樣,將在未來的關鍵競爭節(jié)點上丟掉主動權。先進制程代工這道關不過,未來所有的中國芯片企業(yè)都將是華為。
除了先進制程之外,國產(chǎn)芯片廠商還面臨EDA和IP環(huán)節(jié)的差距。以GPU為例,作為高性能高復雜度的大芯片,想在短期內快速推出相關產(chǎn)品,必然依賴外部IP。雖然目前各家國產(chǎn)GPU都在宣傳“獨立自主研發(fā)”,然而在核心基礎上的投入都不夠,大多采用license IP模式,同質化非常嚴重。從理論上來說,自研IP越多,GPU的差異化更明顯,但相對而言資金、人員、時間上的成本投入也更高。一家從事GPGPU研發(fā)的企業(yè)代表告知,GPU IP自研需要36-48個月以及200個工程師,而采用外購IP的方式,可以減少12-18個月開發(fā)周期。
在PC和服務器GPU領域,核心的GPU IP廠商主要是Imagination、芯原、格蘭菲;在移動GPU領域,主要有Arm Mali、Imagination PowerVR系列,芯原在前幾年收購美國嵌入式GPU設計商圖芯之后亦有不少授權用戶,以及高通的Adreno。高通Adreno從AMD買入,且不對外銷售。作為GPU的老牌巨頭,英偉達、AMD均有自己的強大GPU IP,英特爾也購買了AMD的GPU IP要在獨立GPU市場卷土重來。
整體而言,國內GPGPU企業(yè)與國際大廠技術差距約3年,渲染GPU與國際大廠差距約10年左右。要想彌補這一差距,不止要在生態(tài)層面發(fā)力,提升國內核心IP能力顯然是必然要做的功課。
最后,筆者認為,目前對于中國自動駕駛產(chǎn)業(yè)來說,還有1年的緩沖期。一年以后可能要面臨沒有高端芯片可用的尷尬境地。而這種情況下,一方面政府可能需要從保護自身產(chǎn)業(yè)的角度出發(fā)出臺相關產(chǎn)業(yè)政策,有意識的控制L2級別以上自動駕駛的商用落地速度;另一方面,本土芯片廠商則要苦練內功,加強基礎核心技術的研發(fā);而新能源車企則應該不要把所有雞蛋都放到自動駕駛一個籃子里,應該更關注“三電”等新能源汽車的另一大技術方向,盡量做到擴大自身優(yōu)勢,補齊短板。
更多信息可以來這里獲取==>>電子技術應用-AET<<