123,123,123

地平线追击英伟达，天工开物“追“CUDA

日期： 2022-06-02

來(lái)源：电动汽车观察家

關(guān)鍵詞： 地平线英伟达天工开物 CUDA

都是2023年。

3月22日，英偉達(dá)宣布比亞迪將投產(chǎn)搭載DRIVE Orin計(jì)算平臺(tái)的汽車(chē)。

一個(gè)月后，地平線(xiàn)宣布，第三代產(chǎn)品征程5芯片首個(gè)定點(diǎn)合作，花落比亞迪。

兩項(xiàng)合作的上車(chē)時(shí)間，都是2023年。

比亞迪并不是唯一一個(gè)同時(shí)部署英偉達(dá)和地平線(xiàn)的車(chē)企。理想在其爆款2021理想ONE上搭載了征程3以實(shí)現(xiàn)高速領(lǐng)航駕駛輔助能力，而在最新的理想L9上則將使用英偉達(dá)Orin。目前，地平線(xiàn)芯片的定點(diǎn)企業(yè)達(dá)到60家，基本可以肯定，其中也有英偉達(dá)的客戶(hù)。

有評(píng)論認(rèn)為，這是因?yàn)榈仄骄€(xiàn)是國(guó)內(nèi)鮮有通過(guò)了車(chē)規(guī)級(jí)的大算力AI芯片，而且更加便宜，所以車(chē)企選擇其作為英偉達(dá)Orin的“平價(jià)替代”和供應(yīng)鏈安全B選項(xiàng)。

這一說(shuō)法并非全無(wú)道理。

但2015年地平線(xiàn)成立時(shí)，英偉達(dá)的芯片已經(jīng)開(kāi)始準(zhǔn)備上車(chē)特斯拉。短短6年多時(shí)間里，一個(gè)中國(guó)創(chuàng)業(yè)公司如何能夠與AI芯片王者進(jìn)入同一份采購(gòu)清單？

更重要的是，在更遠(yuǎn)的未來(lái)，地平線(xiàn)將只是英偉達(dá)的“平替”，還是將一路追趕，成為其在汽車(chē)AI芯片領(lǐng)域真正的對(duì)手？

本文為大家奉上地平線(xiàn)和英偉達(dá)全方位的對(duì)比，幫助您做出判斷。

邏輯：阿爾法狗會(huì)開(kāi)車(chē)嗎？

如果說(shuō)起廣為人知的人工智能（AI），阿爾法狗肯定算一號(hào)。

2016年，谷歌圍棋人工智能“阿爾法狗”（AlphaGo Lee）以4：1的成績(jī)，戰(zhàn)勝世界冠軍數(shù)量排名第二的韓國(guó)棋手李世石。

圍棋的特性決定了其不適用窮舉法，相比算力更考驗(yàn)棋手的“腦力”，因此這場(chǎng)“人機(jī)大戰(zhàn)”成為人工智能史上一座里程碑：AI在某些領(lǐng)域能比人類(lèi)更“聰明”。

但圍棋翹楚AlphaGo Lee能開(kāi)車(chē)嗎？

答案恐怕是否定的。定位為圍棋人工智能的阿爾法狗以進(jìn)行推理任務(wù)的決策算法為主，其所采用的神經(jīng)網(wǎng)絡(luò)類(lèi)型也許并不能勝任視覺(jué)感知的任務(wù)；

為進(jìn)行比賽，阿爾法狗所需算力高達(dá)約4416TOPS功耗高達(dá)10000W（DeepMind論文），100度電量的車(chē)也只能支撐10小時(shí)（紋絲不動(dòng)），更別說(shuō)帶著衣柜大小的服務(wù)器；

更重要的是，在比賽中，阿爾法狗擁有共計(jì)兩個(gè)小時(shí)＋180秒的“思考”時(shí)間，而汽車(chē)一秒多想的時(shí)間都沒(méi)有。

不能開(kāi)車(chē)的阿爾法狗顯示出了人工智能／神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中的苛刻要求：相比于人類(lèi)智能的高通用性，人工智能在功能實(shí)現(xiàn)上，與應(yīng)用場(chǎng)景、AI算法模型、部署硬件情況息息相關(guān)。

正是這種高度相關(guān)性為地平線(xiàn)追趕英偉達(dá)提供了邏輯基礎(chǔ)。

1．1站在云端的英偉達(dá)

英偉達(dá)是第一個(gè)為AI創(chuàng)造出合適物理“大腦”的公司。

創(chuàng)立于1993年的英偉達(dá)在1999年發(fā)明了GPU（圖形處理器）。相比于CPU，GPU從架構(gòu)上算子的數(shù)量要遠(yuǎn)遠(yuǎn)多于Cache（緩存）和Control（控制器），由此導(dǎo)致其只適用于計(jì)算密集與數(shù)據(jù)并行的運(yùn)算程序。

所謂計(jì)算密集指：數(shù)值計(jì)算的比例要遠(yuǎn)大于內(nèi)存操作，因此內(nèi)存訪(fǎng)問(wèn)的延時(shí)可以被計(jì)算掩蓋，對(duì)緩存的需求較低；

數(shù)據(jù)并行則是說(shuō)：大任務(wù)可以拆解為執(zhí)行相同指令的小任務(wù)，因此對(duì)復(fù)雜流程控制的需求較低。

AI機(jī)器學(xué)習(xí)正是這樣的“運(yùn)算程序”：將一個(gè)復(fù)雜問(wèn)題拆解為眾多的簡(jiǎn)單問(wèn)題，一次性輸入海量用于計(jì)算的參數(shù)。對(duì)簡(jiǎn)單問(wèn)題解決的順序性要求不高，最后輸出整體結(jié)果即可。

而且對(duì)存儲(chǔ)和控制空間需求小，導(dǎo)致GPU更容易增加算子，以此增加算力，并在此后成為“大算力”的領(lǐng)軍企業(yè)。

但要高效運(yùn)行GPU的代碼極度困難，程序員需要把相關(guān)運(yùn)算“黑進(jìn)”圖形API（應(yīng)用程序編程接口），讓顯卡以為是在進(jìn)行圖像渲染計(jì)算，編程難度極高。

直到2006年英偉達(dá)發(fā)布了CUDA?通用并行計(jì)算架構(gòu)，實(shí)現(xiàn)了軟硬解耦。開(kāi)發(fā)者不必再使用高難度的GPU專(zhuān)用開(kāi)發(fā)語(yǔ)言，而能使用通用性的編程語(yǔ)言調(diào)用GPU算力。

至此，GPU“破圖而出”，成為通用并行數(shù)據(jù)處理超級(jí)加速器。英偉達(dá)也由此站上了C位，成為AI時(shí)代的加速器。

一方面，搭載英偉達(dá) GPU 硬件的工作站、服務(wù)器和云通過(guò)CUDA軟件系統(tǒng)以及開(kāi)發(fā)的CUDA－XAI 庫(kù)，為AI領(lǐng)域的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)所需的訓(xùn)練和推理提供軟件工具鏈，來(lái)服務(wù)眾多的框架、云服務(wù)等等，推動(dòng)了 AI 領(lǐng)域的迅速發(fā)展。

另一方面，英偉達(dá)從此前單純的芯片制造商，向人工智能平臺(tái)公司發(fā)展，逐步將業(yè)務(wù)拓展到云端的AI加速、HPC（高性能計(jì)算機(jī)群）高性能計(jì)算、AR／VR（增強(qiáng)／虛擬現(xiàn)實(shí)技術(shù)）等領(lǐng)域。

英偉達(dá)CEO黃仁勛也在CUDA生態(tài)積累14年后放言：“ 英偉達(dá)不是游戲公司，它將推動(dòng)下一個(gè)人工智能大爆炸”。

但至少目前，從業(yè)務(wù)結(jié)構(gòu)上英偉達(dá)還是一個(gè)中心化的云端數(shù)據(jù)中心和游戲公司。

5月26日，英偉達(dá)發(fā)布2023財(cái)年Q1財(cái)報(bào)（截至2022年3月），實(shí)現(xiàn)營(yíng)收82．9億美元，同比增長(zhǎng)46％。其中，由超大規(guī)模計(jì)算、云端和AI業(yè)務(wù)推動(dòng)的數(shù)據(jù)中心業(yè)務(wù)占比45．23％；顯卡支撐的游戲業(yè)務(wù)占比43．67％。

以云端數(shù)據(jù)中心業(yè)務(wù)為核心，英偉達(dá)的核心技術(shù)需要服務(wù)這一場(chǎng)景。

但云端（服務(wù)器、數(shù)字中心）和端側(cè)（手機(jī)、智能汽車(chē)等移動(dòng)端）場(chǎng)景中， AI芯片的運(yùn)算方式有著本質(zhì)性的差別。

· 首先，云端處理大批量一次性到達(dá)的累積數(shù)據(jù)（擴(kuò)大批處理量，batch size），車(chē)端芯片則需要處理流數(shù)據(jù)，隨著行駛（時(shí)間）陸續(xù)到來(lái)的數(shù)據(jù)；

· 第二，云端處理可以“等”數(shù)據(jù)“夠了”再開(kāi)始處理，車(chē)端則需要實(shí)時(shí)完成計(jì)算，盡可能得降低延遲，更勿論幾秒鐘的“等待”；

· 第三：在云端，任務(wù)本身是限定在虛擬世界，無(wú)需考慮與現(xiàn)實(shí)世界的交互。在車(chē)端則身處現(xiàn)實(shí)世界，每一個(gè)任務(wù)都需要考慮交互性。

· 此外，功耗和成本在車(chē)端AI芯片的考量中也占據(jù)更重的分量。

可見(jiàn)，云端AI芯片更側(cè)重于數(shù)據(jù)吞吐量和支持多種AI任務(wù)的要求，車(chē)端的AI芯片則須保證很高的計(jì)算能效和實(shí)時(shí)性要求，能夠?qū)崿F(xiàn)端側(cè)推斷，以及低功耗、低延遲甚至低成本的要求。

但目前，英偉達(dá)端側(cè)芯片的核心GPU架構(gòu)仍是云端架構(gòu)。

Orin誕生于Ampere（安培）架構(gòu)，其正是一季度推動(dòng)英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)增長(zhǎng)近9成的主力產(chǎn)品架構(gòu)。換而言之，面向高級(jí)別自動(dòng)駕駛場(chǎng)景的Orin，其中的核心計(jì)算模塊技術(shù)對(duì)標(biāo)的是云端數(shù)據(jù)中心場(chǎng)景。

英偉達(dá)的這一選擇無(wú)可厚非。架構(gòu)是芯片企業(yè)最底層的核心技術(shù)，迭代成本巨大，也是為了產(chǎn)出更賺錢(qián)的產(chǎn)品。雖然汽車(chē)業(yè)務(wù)已成為英偉達(dá)圖形技術(shù)大會(huì)上的重要一節(jié)，但其創(chuàng)造的營(yíng)收目前仍是微不足道——占比2．1％（2022財(cái)年）。

1．2站在“端側(cè)”的地平線(xiàn)

而地平線(xiàn)目前的核心業(yè)務(wù)只有端側(cè)的汽車(chē)。

地平線(xiàn)的完整名為“地平線(xiàn)機(jī)器人”，其創(chuàng)立設(shè)定的場(chǎng)景便是機(jī)器人這樣需要實(shí)時(shí)完成計(jì)算的端側(cè)場(chǎng)景，其產(chǎn)品所有的軟硬件架構(gòu)都為端側(cè)的特殊需求設(shè)計(jì)。

但“機(jī)器人”此前更多存在于科幻電影當(dāng)中，直到自動(dòng)駕駛使汽車(chē)成為機(jī)器人在現(xiàn)實(shí)世界中的第一個(gè)爆發(fā)點(diǎn)。

“單一”的業(yè)務(wù)結(jié)構(gòu)使地平線(xiàn)的技術(shù)能夠聚焦在“一種”需求上，而汽車(chē)智能化需求的爆發(fā)則為從智能／自動(dòng)駕駛場(chǎng)景出發(fā)，收斂AI任務(wù)范圍，打造更貴、更具針對(duì)性的專(zhuān)用型芯片提供了規(guī)?；A(chǔ)，使其商業(yè)模型能夠成立，從而吸引投資人和專(zhuān)業(yè)“選手”進(jìn)場(chǎng)。

“GPU這樣的通用芯片對(duì)于開(kāi)發(fā)者非常友好，但不是商業(yè)化競(jìng)爭(zhēng)的最優(yōu)解，” 一位芯片行業(yè)專(zhuān)家向《電動(dòng)汽車(chē)觀(guān)察家》表示：“地平線(xiàn)采用面向特定場(chǎng)景的軟硬結(jié)合方法論來(lái)設(shè)計(jì)芯片，也就是DSA（Domain Specific Architecture 特定領(lǐng)域架構(gòu)）的芯片，極大提升了芯片的有效算力?！?/p>

軟硬解耦，將圖形處理的專(zhuān)用芯片GPU變?yōu)檫m用于大規(guī)模并行計(jì)算的通用型芯片，使英偉達(dá)站上AI時(shí)代的C位。

而地平線(xiàn)追趕英偉達(dá)的第一步，是軟硬結(jié)合。

地平線(xiàn)在公眾亮相中多次強(qiáng)調(diào)軟硬結(jié)合方法論核心——以終為始：

· 永遠(yuǎn)從系統(tǒng)的視角評(píng)價(jià)其中每個(gè)模塊（從AI模型、工具鏈、開(kāi)發(fā)工具的全體系出發(fā)，看待芯片上每個(gè)細(xì)微空間的排布邏輯和利用效率）；

· 永遠(yuǎn)用未來(lái)的預(yù)測(cè)來(lái)指導(dǎo)當(dāng)下每個(gè)選擇（針對(duì)自動(dòng)駕駛AI未來(lái)算法演進(jìn)趨勢(shì)，指導(dǎo)當(dāng)下的技術(shù)研發(fā)方向和取舍關(guān)系）。

地平線(xiàn)芯片開(kāi)發(fā)過(guò)程中的一個(gè)環(huán)節(jié)可以從一個(gè)側(cè)面展示軟硬結(jié)合的方法到底如何落地。

地平線(xiàn)有一個(gè)AI模型性能分析工具。首先將選取包含了豐富的、代表未來(lái)演進(jìn)趨勢(shì)的算法模型作為T(mén)esting Benchmark（測(cè)試基準(zhǔn)）。將其在地平線(xiàn)BPU架構(gòu)的建模工具上進(jìn)行運(yùn)行，測(cè)試這架構(gòu)對(duì)算法模型的運(yùn)算性能如何，并基于這一測(cè)試基準(zhǔn)，探索軟件層面的編譯器、模型量化工具、訓(xùn)練工具應(yīng)該怎么做。

由于芯片從設(shè)計(jì)到最終應(yīng)用有著二到三年的”時(shí)差“，這樣的工作流程幫助地平線(xiàn)以軟性的算法趨勢(shì)指導(dǎo)硬件架構(gòu)設(shè)計(jì)，提前“適應(yīng)“未來(lái)。

“像地平線(xiàn)已經(jīng)達(dá)到百萬(wàn)芯片出貨量的征程二代和征程三代芯片里就有比較多的設(shè)計(jì)，在2016年、2017年時(shí)已經(jīng)考慮到了相關(guān)一些算法的演進(jìn)趨勢(shì)?！暗仄骄€(xiàn)高級(jí)研發(fā)總監(jiān)凌坤表示。

征程5對(duì)標(biāo)英偉達(dá)車(chē)端芯片性能情況

邏輯是一回事，技術(shù)實(shí)現(xiàn)往往是另一回事。地平線(xiàn)能夠拿到英偉達(dá)的客戶(hù)根本上還要看數(shù)據(jù)。

單片英偉達(dá)Orin和征程5的算力分別為256TOPS（每秒萬(wàn)億次計(jì)算）和128TOPS，功率為55W和30W，功耗比分別為4．6TOPS／W和4．2TOPS／W。

但如果以自動(dòng)駕駛AI在兩個(gè)平臺(tái)上每秒圖像幀率FPS進(jìn)行對(duì)比測(cè)試時(shí)，Orin為1001FPS，只有一半算力的征程5則實(shí)現(xiàn)了1283FPS（Orin數(shù)據(jù)為地平線(xiàn)基于同安培架構(gòu)的英偉達(dá)RTX3090進(jìn)行調(diào)整后測(cè)算得出）。“能效上來(lái)看，我們（征程5相比Orin）有6倍多的提升。”地平線(xiàn)BPU算法負(fù)責(zé)人羅恒表示。

在智能／自動(dòng)駕駛場(chǎng)景，視覺(jué)仍是目前最核心的感知路線(xiàn)，也是智能／自動(dòng)駕駛AI面臨的核心任務(wù)：“我看到的是什么”。因此，對(duì)于自動(dòng)駕駛所有應(yīng)用的計(jì)算平臺(tái)來(lái)說(shuō)，F(xiàn)PS被認(rèn)為是衡量先進(jìn)算法在計(jì)算平臺(tái)上運(yùn)行效率的評(píng)價(jià)標(biāo)準(zhǔn)之一。

2017年發(fā)布自研的FSD芯片時(shí)，特斯拉創(chuàng)始人馬斯克便以此前應(yīng)用的英偉達(dá)Drive PX2作比，從算力來(lái)看FSD是Drive PX2的3倍，但在執(zhí)行自動(dòng)駕駛?cè)蝿?wù)時(shí)，其FPS是后者的21倍。

GPU的看家本領(lǐng)便是圖像識(shí)別。為何GPU發(fā)明者英偉達(dá)的Orin會(huì)在測(cè)試中表現(xiàn)不及算力只有一半的地平線(xiàn)征程5？部分核心原因在于安培（Ampere）架構(gòu)和貝葉斯（Bayes）架構(gòu)設(shè)計(jì)出發(fā)點(diǎn)的差異。

從物理世界來(lái)看，芯片架構(gòu)就是在方寸之間（目前主流車(chē)規(guī)級(jí)量產(chǎn)芯片尺寸40nm－5nm）做文章：如何在有限的空間內(nèi)排布算子、存儲(chǔ)器以及之間的通信線(xiàn)路，不同的計(jì)算需求將導(dǎo)致不同的陣列方式。

2．1學(xué)霸英偉達(dá)

數(shù)據(jù)中心場(chǎng)景主要包括高性能計(jì)算（HCP）和深度學(xué)習(xí)，以此出發(fā)的芯片架構(gòu)要能夠支持各類(lèi)AI模型任務(wù)，在限定時(shí)間內(nèi)吞吐恒河沙數(shù)般的數(shù)據(jù)量。如同被開(kāi)了金手指的學(xué)霸，文史哲數(shù)理化通吃，一天能做三萬(wàn)張卷子。

英偉達(dá)從帕斯卡到安培架構(gòu)都以高拓展性為核心目標(biāo)：

· 支持盡可能多種類(lèi)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以保證算法的正確率和泛化能力；

· 支持能夠識(shí)別廣大數(shù)字范圍的浮點(diǎn)運(yùn)算，以保證巨大的數(shù)據(jù)吞吐量；

· 支持陣列式結(jié)構(gòu)以能夠連接更多的處理單元，以進(jìn)一步加大可計(jì)算的數(shù)據(jù)規(guī)模。

落地到硬件技術(shù)上，Tensor core（張量核）和cuda core（下稱(chēng)CUDA核）并行，以及從INT1到FP64的數(shù)據(jù)精度范圍等一系列革新技術(shù)，都以支持上述目標(biāo)為目的。

2017年，英偉達(dá)Volta架構(gòu)亮相，其以深度學(xué)習(xí)為核心的標(biāo)志便是推出了與CUDA核）并行的張量核）。

張量（Tensor）是一個(gè)數(shù)學(xué)概念，指多維數(shù)組，有0－5維，被看作是現(xiàn)代機(jī)器學(xué)習(xí)的基礎(chǔ)，是數(shù)據(jù)的容器。

在早期以邏輯判斷模型為主的機(jī)器學(xué)習(xí)中，學(xué)習(xí)任務(wù)簡(jiǎn)單，學(xué)習(xí)素材可被數(shù)據(jù)化為結(jié)構(gòu)化的二維圖表。

但進(jìn)入神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)階段中，AI的任務(wù)不再是找出花束中的藍(lán)色花朵，而是找出圖片庫(kù)中的貓。教材變?yōu)榉墙Y(jié)構(gòu)化數(shù)據(jù)，單一的圖像數(shù)據(jù)就需要三維張量來(lái)表示，語(yǔ)音和視頻的維度則更高。

配合多維張量設(shè)計(jì)的乘積累加運(yùn)算 Multiply Accumulate（MAC）計(jì)算陣列與神經(jīng)網(wǎng)絡(luò)模型的運(yùn)算模式高度匹配，成為AI芯片的核心算子類(lèi)型。

谷歌2015年推出了張量處理器（Tensor Processing Unit，簡(jiǎn)稱(chēng)TPU）。2017年英偉達(dá)在完全面向深度學(xué)習(xí)的Volta架構(gòu)上增加了MAC陣列，直接命名為“張量核”。

對(duì)從事數(shù)據(jù)中心、顯卡和車(chē)端等多種業(yè)務(wù)的英偉達(dá)來(lái)說(shuō)，CUDA核和張量核各有用處。

CUDA核在每個(gè)GPU時(shí)鐘中最多可以執(zhí)行1個(gè)單精度乘法累加運(yùn)算，適用于參數(shù)一致的AI模型深度學(xué)習(xí)以及高精度的高性能計(jì)算。

但對(duì)于AI模型來(lái)說(shuō)，模型參數(shù)的權(quán)重各有不同，如果全部對(duì)標(biāo)當(dāng)中的高精度進(jìn)行運(yùn)算，則時(shí)間長(zhǎng)且內(nèi)存消耗大；而如果都降維到低精度參數(shù)，則輸出的結(jié)果誤差較大。

張量核就可以做到混合精度：每1個(gè)GPU時(shí)鐘執(zhí)行1個(gè)矩陣乘法累加運(yùn)算，輸入矩陣是 FB16，乘法結(jié)果和累加器是FB32矩陣。

混合精度雖然在一定程度上犧牲了訓(xùn)練的精度，但可以減少內(nèi)存的占用，以及縮短模型的訓(xùn)練時(shí)間。

在擴(kuò)充適應(yīng)多樣計(jì)算需求的算子同時(shí)，英偉達(dá)也在不斷擴(kuò)充算子所能支持的浮點(diǎn)精度。

CUDA核在最主流的FP32基礎(chǔ)上，先后增加了對(duì)FP64、INT32 的計(jì)算能力；張量核則可支持FP16、INT8／INT4／Binary、TF32、 BF16、 FP64等多種數(shù)據(jù)精度的支持。

多樣化到什么程度？

FP64具有完整的15–17位十進(jìn)制數(shù)字精度，多用于醫(yī)學(xué)、軍事等對(duì)精度要求極高的科學(xué)計(jì)算，通常不用于深度學(xué)習(xí)計(jì)算。而TF32甚至成為英偉達(dá)GPU中的新數(shù)學(xué)模式。

2．2偏才地平線(xiàn)

但這些高擴(kuò)展性和豐富性，對(duì)自動(dòng)駕駛AI來(lái)說(shuō)是否是必要的？

2018年，英偉達(dá)發(fā)布了采用Volta架構(gòu)GPU的Soc（系統(tǒng)級(jí)芯片）Xavier，可執(zhí)行高級(jí)別自動(dòng)駕駛?cè)蝿?wù)。按照英偉達(dá)的定義，XAVIER是專(zhuān)門(mén)為機(jī)器人和邊緣計(jì)算而設(shè)計(jì)的計(jì)算平臺(tái)，采用臺(tái)積電的12nm工藝。

相比之下，特斯拉FSD采用三星14nm工藝，且算力上Xavier只有FSD的一半。但從面積上，XAVIER卻比FSD要大一些。

背后便是應(yīng)用于云端場(chǎng)景的架構(gòu)，與完全對(duì)標(biāo)一個(gè)品牌需求的車(chē)端架構(gòu)，在芯片布局上的不同。

直觀(guān)來(lái)看，Xavier集成的Volta GPU，提供了512個(gè)CUDA核和64個(gè)張量核。相比之下，F(xiàn)SD中負(fù)責(zé)通用浮點(diǎn)計(jì)算的GPU面積遠(yuǎn)小于其MAC陣列NPU。

從需求出發(fā)，F(xiàn)SD芯片上只需運(yùn)行特斯拉的自動(dòng)駕駛AI，因此完全對(duì)標(biāo)深度學(xué)習(xí)需求的MAC陣列占據(jù)更多的片上位置。

對(duì)Volta GPU來(lái)說(shuō)，端側(cè)以實(shí)時(shí)推理為第一要?jiǎng)?wù)的深度學(xué)習(xí)任務(wù)外，還需要考慮云端的訓(xùn)練和高性能計(jì)算等更多的任務(wù)，通用性計(jì)算與混合精度矩陣計(jì)算需求并重，仍需在方寸之間為CUDA核留下不少的位置。

上述芯片專(zhuān)家向《電動(dòng)汽車(chē)觀(guān)察家》表示：“相比通用型架構(gòu)，自動(dòng)駕駛專(zhuān)用架構(gòu)在設(shè)計(jì)的時(shí)候會(huì)充分考慮到目標(biāo)應(yīng)用場(chǎng)景的特色，采用更高效適用的計(jì)算核以及組合模式，從而實(shí)現(xiàn)計(jì)算效率的提升，更好地滿(mǎn)足目標(biāo)應(yīng)用場(chǎng)景的計(jì)算需求。”

圍繞提升MAC陣列的利用效率，地平線(xiàn)自主研發(fā)的BPU（嵌入式人工智能處理器，Brain Processing Unit，大腦處理器）架構(gòu)采用大規(guī)模異構(gòu)計(jì)算、高靈活大并發(fā)數(shù)據(jù)橋和脈動(dòng)張量計(jì)算核三大核心技術(shù)打造適應(yīng)端側(cè)自動(dòng)駕駛需求的矩陣運(yùn)算。

“英偉達(dá)和地平線(xiàn)的MAC陣列在具體的設(shè)計(jì)上有不少差異?！傲_恒向《電動(dòng)汽車(chē)觀(guān)察家》表示，”從外部結(jié)果來(lái)看，貝葉斯主要面向batchsize＝1、DDR節(jié)省和對(duì)使用depthwise的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化，契合自動(dòng)駕駛場(chǎng)景特征和高能效比?！?/p>

batchsize是指神經(jīng)網(wǎng)絡(luò)一次批量處理的樣本數(shù)目。一次批處理的樣本數(shù)目越多，那么就有潛在的更多并行計(jì)算／加速的可能。在云端場(chǎng)景下，有海量的數(shù)據(jù)需要處理，GPU以及其他一些云端AI芯片在架構(gòu)設(shè)計(jì)上就會(huì)充分考慮batchsize大（一次批處理樣本多）的特性來(lái)設(shè)計(jì)，從而提高硬件效率。

自動(dòng)駕駛和其他一些端側(cè)場(chǎng)景，數(shù)據(jù)上按固定的時(shí)間依次到達(dá)的，比如攝像頭的幀率是30FPS，那么相當(dāng)于每隔33ms就會(huì)有一張圖達(dá)到，這時(shí)候就需要立即處理，盡早搞明白周?chē)臓顩r而對(duì)車(chē)輛做出必要的控制。

本質(zhì)上，自動(dòng)駕駛面臨的就是一個(gè)batchsize＝1的問(wèn)題（來(lái)一張圖就要馬上處理，而不能多等幾張圖一起處理），特斯拉的FSD chip發(fā)布會(huì)也強(qiáng)調(diào)了其架構(gòu)設(shè)計(jì)面向batchsize＝1優(yōu)化。

DDR指雙倍速率同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器，是內(nèi)存的其中一種。在云端，由于可以將大量的存儲(chǔ)單元相連，內(nèi)存可被無(wú)限擴(kuò)大；

但在端側(cè)，內(nèi)存受芯片面積和計(jì)算單元“爭(zhēng)奪”的雙重限制變得有限又昂貴，而且自動(dòng)駕駛一方面產(chǎn)生巨大數(shù)據(jù)量，一方面又不能因內(nèi)存不足而“卡住”。因此通過(guò)硬件的設(shè)計(jì)排布和軟件的指令調(diào)度，有效提升內(nèi)存中數(shù)據(jù)的重復(fù)使用率，節(jié)省內(nèi)存，確保始終有內(nèi)存空間推動(dòng)計(jì)算執(zhí)行下去便非常重要。

depthwise是卷積算子的一種特殊形式，使用其搭建的卷積神經(jīng)網(wǎng)絡(luò)具有最高的算法效率（達(dá)到同樣的算法精度，所需計(jì)算量更少）。目前最強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)就是由大量的depthwise卷積構(gòu)成的。比如，最新?lián)魯×薙win transformer的ConvNeXt。

在針對(duì)自動(dòng)駕駛場(chǎng)景進(jìn)一步優(yōu)化自己的MAC陣列同時(shí)，地平線(xiàn)還開(kāi)發(fā)了與英偉達(dá)CUDA核類(lèi)似的向量加速單元。

“我們這一代的向量加速單元是一個(gè)非常高效、相對(duì)簡(jiǎn)單的（不支持浮點(diǎn)計(jì)算）面向向量（vector）的加速單元?！绷_恒向《電動(dòng)汽車(chē)觀(guān)察家》表示，“這樣一個(gè)相對(duì)簡(jiǎn)單的向量加速單元的好處是功耗、面積上的經(jīng)濟(jì)。下一代貝葉斯我們會(huì)進(jìn)一步加強(qiáng)這個(gè)單元?！?/p>

減少數(shù)據(jù)的吞吐量某種意義上意味著算力，以換取功耗和芯片面積上的經(jīng)濟(jì)。做出算力和經(jīng)濟(jì)性之間的取舍決策，必須是對(duì)自動(dòng)駕駛場(chǎng)景和算法的深刻理解。

技術(shù)革新背后，是地平線(xiàn)BPU三代架構(gòu)以滿(mǎn)足端側(cè)自動(dòng)駕駛的加速需求為核心方向的不斷演進(jìn)。

其一：三代架構(gòu)持續(xù)優(yōu)化BPU IP的性能、面積、功耗，在性能／算力大幅提升的過(guò)程中，保證了所需DDR帶寬只是溫和的增加。

征程5（使用貝葉斯BPU）相對(duì)征程3（使用BPU伯努利2．0）FPS提升10～25倍（不同典型模型），帶寬增加不到2倍，仍然有被動(dòng)散熱方案。

其二：對(duì)性能、面積、功耗和可編程性更好地折中考慮。

BPU伯努利1．0、2．0主要以硬核方式（有限的可編程性）支持常見(jiàn)性能有需求的算子；BPU貝葉斯更加系統(tǒng)、全面地考慮了性能和可編程性方面的需求，增加了靈活的、可編程的向量加速單元，但也包含了一些特定目標(biāo)（如，Warping、Pooling、Resize等）的硬核加速單元。結(jié)果是，BPU貝葉斯更加通用，開(kāi)發(fā)新的算子更為簡(jiǎn)單。

征程5目前在Swin（機(jī)器視覺(jué)最有代表的Transformer）上的FPS已經(jīng)為Xavier的3倍。

“BPU伯努利1．0、2．0到貝葉斯三代架構(gòu)都是以卷積神經(jīng)網(wǎng)絡(luò)加速為核心展開(kāi)的，也是業(yè)界極少數(shù)持續(xù)保持depthwise convolution（卷積神經(jīng)網(wǎng)絡(luò)三十年來(lái)計(jì)算架構(gòu)最大的算法改進(jìn)）高效的加速器?！绷_恒向《電動(dòng)汽車(chē)觀(guān)察家》表示。

對(duì)智能／自動(dòng)駕駛所需算法的持續(xù)追蹤、設(shè)計(jì)自身的軟件算法，使地平線(xiàn)對(duì)車(chē)用領(lǐng)域未來(lái)的軟件算法架構(gòu)有清晰、聚焦的判斷。而且，單一業(yè)務(wù)的地平線(xiàn)，無(wú)需像英偉達(dá)一樣考慮多種業(yè)務(wù)結(jié)構(gòu)的技術(shù)方向和性能需求。

“輕裝上陣”賦予了地平線(xiàn)追趕英偉達(dá)的速度。

征程3推出一年多之后，地平線(xiàn)就推出了全新架構(gòu)的征程5。相比之下，英偉達(dá)Xavier到Orin－X花了三年的時(shí)間。

生態(tài)：構(gòu)建自己的王牌

針對(duì)自動(dòng)駕駛場(chǎng)景算法和需求專(zhuān)門(mén)設(shè)計(jì)的專(zhuān)用芯片實(shí)現(xiàn)在效率上的更高效只是地平線(xiàn)追趕英偉達(dá)的第一步。更難的是構(gòu)建地平線(xiàn)自己好用的軟件體系，以及能支撐持續(xù)演進(jìn)迭代的用戶(hù)生態(tài)——這正是英偉達(dá)的王牌所在。

“歷史上，英偉達(dá)正是靠工具鏈登上了AI王座，并建立了強(qiáng)大的生態(tài)護(hù)城河?！钡仄骄€(xiàn)生態(tài)發(fā)展與戰(zhàn)略規(guī)劃副總裁李星宇向《電動(dòng)汽車(chē)觀(guān)察家》表示，“地平線(xiàn)在成立之初就建立了工具鏈團(tuán)隊(duì)，那個(gè)時(shí)候我們有一種直覺(jué)，未來(lái)工具鏈將成為我們與合作伙伴協(xié)同創(chuàng)新的基礎(chǔ)。

同時(shí)，整個(gè)行業(yè)正在演進(jìn)到數(shù)據(jù)驅(qū)動(dòng)的軟件2．0時(shí)代，地平線(xiàn)也提供端上的開(kāi)發(fā)工具、以及在云端的訓(xùn)練，包括數(shù)據(jù)管理以及仿真平臺(tái)等工具（AIDI 艾迪），與天工開(kāi)物形成完整的開(kāi)發(fā)平臺(tái)，加速面向智能駕駛、智能交互、車(chē)內(nèi)娛樂(lè)應(yīng)用等各種各樣的解決方案開(kāi)發(fā)。”

3．1天工開(kāi)物“追“CUDA

如今，英偉達(dá)GPU成為云端人工智能加速的主流解決方案。究其原因，并非英特爾、高通、ARM等芯片公司的算力不夠，而是在軟件方案上缺乏如CUDA一般完整的編程工具鏈。

構(gòu)建完整、完善、好用的編程工具鏈需要長(zhǎng)時(shí)間和海量的資金投入和技術(shù)積累，而英偉達(dá)CUDA搶跑了十多年的時(shí)間。

早在2006年問(wèn)世之初，英偉達(dá)就開(kāi)始對(duì)CUDA系統(tǒng)在AI領(lǐng)域進(jìn)行大力投入和推廣。一方面在年?duì)I業(yè)額只有30億美元的情況下，每年投入5億美元的研發(fā)經(jīng)費(fèi)更新維護(hù)CUDA；另一方面，為當(dāng)時(shí)美國(guó)大學(xué)及科研機(jī)構(gòu)免費(fèi)提供CUDA系統(tǒng)的使用，使其迅速在AI及通用計(jì)算領(lǐng)域開(kāi)花結(jié)果。

作為后來(lái)者，地平線(xiàn)的天工開(kāi)物目前顯然無(wú)法在完整性上與英偉達(dá)CUDA體系相比，不過(guò)在針對(duì)AI和端側(cè)需求，天工開(kāi)物已有不少亮眼的表現(xiàn)。

“地平線(xiàn)的工具鏈，尤其是其中的模型轉(zhuǎn)換工具和編譯器，可以自動(dòng)完成對(duì)模型的量化和編譯優(yōu)化，通過(guò)自動(dòng)化通用的算法，將模型快速部署在芯片上，運(yùn)行效率高，精度損失小?！绷_恒向《電動(dòng)汽車(chē)觀(guān)察家》表示。

AI模型不僅要在云端完成訓(xùn)練，能夠輸出高精度的結(jié)果，還需要被量化以部署應(yīng)用。

所謂模型量化是將浮點(diǎn)存儲(chǔ)（運(yùn)算）轉(zhuǎn)換為整型存儲(chǔ)（運(yùn)算）的模型壓縮技術(shù)。

模型在訓(xùn)練過(guò)程中會(huì)使用浮點(diǎn)，AI芯片在推理時(shí)為了面積功耗的節(jié)省通常使用8bit整型數(shù)計(jì)算。這樣浮點(diǎn)訓(xùn)練的模型需要進(jìn)行量化，轉(zhuǎn)換到8bit整型來(lái)計(jì)算。

量化，可使模型在運(yùn)行時(shí)存儲(chǔ)開(kāi)銷(xiāo)和帶寬需求更少、更快的計(jì)算速度、更低的能耗與占用面積，得以部署到限制更多，對(duì)速度要求更快的端側(cè)。

但在量化過(guò)程中會(huì)產(chǎn)生數(shù)據(jù)溢出和精度不足舍入錯(cuò)誤。

對(duì)此，2017年，與張量核一道，英偉達(dá)推出了量化工具TensorRT，實(shí)現(xiàn)從模型獲得，到模型優(yōu)化與編譯，再到部署的全過(guò)程。地平線(xiàn)天工開(kāi)物也有類(lèi)似的量化工具，而且對(duì)比測(cè)試中，地平線(xiàn)對(duì)輕量化／小型化AI模型的量化精度，要好于英偉達(dá)的TensorRT。

因?yàn)門(mén)ensorRT要覆蓋云端、端側(cè)等多個(gè)場(chǎng)景下的模型量化，而天工開(kāi)物則針對(duì)性更適宜部署在端側(cè)的模型——采用適用于視覺(jué)識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。

從2012年到2017年，卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)了快速發(fā)展，識(shí)別精度已經(jīng)非常高，但“體積”也非常大。2018年，AI模型訓(xùn)練的工作量相比五年前增長(zhǎng)了30萬(wàn)倍，研究機(jī)構(gòu)使用的模型參數(shù)已達(dá)到萬(wàn)億級(jí)。

大模型帶來(lái)高性能的同時(shí)，也導(dǎo)致在云端效率低、評(píng)估成本高，在端側(cè)難以部署的問(wèn)題。于是，業(yè)界開(kāi)始尋求在同樣的精度下做“減法”：

其一，對(duì)訓(xùn)練好的復(fù)雜模型通過(guò)知識(shí)蒸餾、通道剪枝、低比特量化（浮點(diǎn)計(jì)算轉(zhuǎn)成低比特定點(diǎn)計(jì)算）等手段對(duì)模型進(jìn)行壓縮，降低參數(shù)量和計(jì)算量。

英偉達(dá)2019年發(fā)布的安培架構(gòu)中的一大提升便是張量核增加了對(duì)模型部分參數(shù)為0時(shí)的稀疏矩陣計(jì)算的支持。

其二：深度可分離卷積／深層卷積（depthwise separable convolution）代替普通的卷積，形成小規(guī)模／輕量化模型，如SqueezeNet、MobileNet、ShuffleNet等。

但小模型在量化的過(guò)程中會(huì)出現(xiàn)精度損失的問(wèn)題。對(duì)此，地平線(xiàn)在2017年便就設(shè)計(jì)出了量化訓(xùn)練算法以解決Depthwise模型精度損失的問(wèn)題，并申請(qǐng)了專(zhuān)利。而直到2019年，谷歌才推出相應(yīng)的量化算法。

而且基于對(duì)算法的持續(xù)追蹤，地平線(xiàn)已經(jīng)標(biāo)定出了一個(gè)潛在的“終極答案”——2019年“減法”模型的集大成者EfficientNet。地平線(xiàn)認(rèn)為其標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的演進(jìn)暫時(shí)進(jìn)入一個(gè)平緩發(fā)展的階段。

EfficientNet能夠很好的平衡神經(jīng)網(wǎng)絡(luò)的深度、寬度和分辨率這三個(gè)核心維度，通過(guò)一組固定的縮放系數(shù)統(tǒng)一縮放這三個(gè)維度。

地平線(xiàn)對(duì)征程5和Xavier、Orin（估算）的FPS測(cè)試便是以EfficientNet為測(cè)試模型。在上述測(cè)試中，地平線(xiàn)較之英偉達(dá)量化精度更高的模型也是MobileNet、EfficientNet這樣的輕型／小型模型。

目前，地平線(xiàn)在工具鏈方面已經(jīng)支持了100多家的客戶(hù)。

3．2艾迪“追”Drive

除了與芯片高度結(jié)合的工具鏈，另一大軟件體系的競(jìng)爭(zhēng)是在與車(chē)用高度結(jié)合的開(kāi)發(fā)工具方面。

2017年自Xavier芯片開(kāi)始正式進(jìn)入智能／自動(dòng)駕駛端側(cè)場(chǎng)景之后，英偉達(dá)立刻開(kāi)始著手完善加強(qiáng)端到端的自動(dòng)駕駛和車(chē)用功能解決方案：Drive系列。

在英偉達(dá)統(tǒng)一的計(jì)算架構(gòu)（Xavier／Orin／Atlan）之上，建立了自動(dòng)駕駛家開(kāi)發(fā)平臺(tái)Drive Hyperion，自動(dòng)駕駛模塊化軟件棧Drive SDK，仿真平臺(tái)Drive Sim，和深度學(xué)習(xí)訓(xùn)練平臺(tái)Drive DGX四個(gè)產(chǎn)品。

汽車(chē)客戶(hù)可在DGX上進(jìn)行自動(dòng)駕駛感知、規(guī)劃、控制的模型訓(xùn)練和優(yōu)化；在Sim的虛擬仿真環(huán)境中模型和算法的驗(yàn)證；在Drive SDK的“軟件貨架”中挑選適合自己的軟件“組裝”功能和應(yīng)用；并利用Hyperion進(jìn)行數(shù)據(jù)采集和驗(yàn)證開(kāi)發(fā)。

Drive SDK包含中OS基礎(chǔ)軟件平臺(tái)、和向開(kāi)發(fā)者開(kāi)放的works中間件、AV ／IX自動(dòng)駕駛／智能座艙軟件棧。

開(kāi)發(fā)者可對(duì)調(diào)用、組合、開(kāi)發(fā)抽象封裝在DriveWorks中的攝像頭、毫米波雷達(dá)、激光雷達(dá)、GPS和IMU等傳感器功能，針對(duì)自動(dòng)駕駛的典型使用場(chǎng)景和Corner Case場(chǎng)景開(kāi)發(fā)了多種豐富的神經(jīng)網(wǎng)絡(luò)，構(gòu)建計(jì)算密集型算法進(jìn)行物體檢測(cè)、地圖定位和路徑規(guī)劃。

而基于Drive AV／IX提供的基礎(chǔ)應(yīng)用功能，開(kāi)發(fā)者可拆解、組合出符合自身的新功能和產(chǎn)品能力。

與英偉達(dá)Drive相對(duì)的是地平線(xiàn)艾迪AI軟件產(chǎn)品開(kāi)發(fā)及迭代一站式工具平臺(tái)。其能夠?yàn)橹悄芷?chē)AI開(kāi)發(fā)者提供海量數(shù)據(jù)存儲(chǔ)、處理能力，半自動(dòng)化／自動(dòng)化標(biāo)注能力，大規(guī)模分布式訓(xùn)練及模型管理能力和自動(dòng)化分析、處理產(chǎn)品問(wèn)題等能力。

值得注意的是，艾迪不僅面向地平線(xiàn)的芯片，還可對(duì)接其它芯片，差別只在模型部署階段有所不同。

“開(kāi)發(fā)者圍繞關(guān)鍵場(chǎng)景的問(wèn)題挖掘，模型迭代全流程的自動(dòng)化，可以大幅改善算法的研發(fā)效率，而且可以開(kāi)放的對(duì)接到各類(lèi)的終端上面。通過(guò)這種方式，大大提升了算法研發(fā)人員的研發(fā)效率?！钡仄骄€(xiàn)高級(jí)研發(fā)總監(jiān)凌坤表示。

3．3開(kāi)放構(gòu)建地平線(xiàn)生態(tài)

在硬件高度服務(wù)于軟件，開(kāi)發(fā)模式從過(guò)去的人工定義變?yōu)閿?shù)據(jù)驅(qū)動(dòng)的軟件2．0時(shí)代。軟件體系是地平線(xiàn)最難追上英偉達(dá)的部分，卻也是要真正追上英偉達(dá)的必經(jīng)之路。

體量小、起步晚、還造著更貴、受眾更窄的專(zhuān)用型AI芯片，地平線(xiàn)要如何在講究生態(tài)體系建設(shè)的軟件領(lǐng)域追趕英偉達(dá)？

答案是比開(kāi)放的英偉達(dá)更開(kāi)放。

一方面是覆蓋更廣泛的市場(chǎng)區(qū)間。

地平線(xiàn)的芯片產(chǎn)品體系覆蓋從L2級(jí)到L4級(jí)的智能／自動(dòng)駕駛需求。征程2主要適配面向L2級(jí)的輔助駕駛領(lǐng)域，征程3可適配面向L2＋的高速領(lǐng)航輔助駕駛，征程5可適配更具挑戰(zhàn)的復(fù)雜城區(qū)輔助駕駛。

而目前，英偉達(dá)Xavier／Orin的落地大多是從高端車(chē)型的高速領(lǐng)航輔助駕駛開(kāi)始，并且以城區(qū)駕駛輔助為短期目標(biāo)的。

由此，雙方芯片的上車(chē)規(guī)模便產(chǎn)生了相當(dāng)?shù)牟罹唷?/p>

截止目前，已公布搭載地平線(xiàn)征程芯片的有長(zhǎng)安UNI－T／K／V、奇瑞螞蟻、廣汽埃安AION Y、2021款理想ONE、哪吒U·智等15款車(chē)型以上，當(dāng)中不乏月銷(xiāo)過(guò)萬(wàn)的爆款車(chē)型?；诖?，地平線(xiàn)征程芯片出貨量已突破100萬(wàn)片，與超過(guò)20家車(chē)企簽下了超過(guò)60款車(chē)型前裝量產(chǎn)項(xiàng)目定點(diǎn)。

相比之下，主力搭載英偉達(dá)Xavier的小鵬相關(guān)車(chē)型累計(jì)銷(xiāo)售12萬(wàn)輛左右。

更多出貨量意味著更多的真實(shí)場(chǎng)景數(shù)據(jù)和應(yīng)用需求，這是軟件系統(tǒng)體系不斷提升完善的根本“原料”。“我們把客戶(hù)看到的問(wèn)題、想法，在發(fā)揮創(chuàng)造性上面遇到的阻礙，反過(guò)來(lái)幫助我們改進(jìn)和提升天工開(kāi)物工具鏈，這套千錘百煉的工具鏈就可以更好的提升效率?！绷枥け硎?。

另一方面，則是集眾人之力，加大開(kāi)放深度和廣度。

“地平線(xiàn)提供了一種新的合作范式，就是極致的開(kāi)放與共創(chuàng)，我們努力做的是與上下游的合作伙伴打造一個(gè)生態(tài)合作的熱帶雨林。我們相信：一個(gè)公司的價(jià)值在于他在創(chuàng)新生態(tài)里是否被需要?！崩钚怯钕颉峨妱?dòng)汽車(chē)觀(guān)察家》表示。

英偉達(dá)基于自身的GPU開(kāi)發(fā)出系統(tǒng)級(jí)芯片（SOC），并與CUDA操作系統(tǒng)強(qiáng)綁定，業(yè)界在此基礎(chǔ)上開(kāi)發(fā)自動(dòng)駕駛的軟硬件系統(tǒng)。

地平線(xiàn)則在開(kāi)發(fā)完成BPU和其上的SOC之后，將底層軟件通過(guò)開(kāi)源OS協(xié)同開(kāi)放的模式與整車(chē)企業(yè)共享，使開(kāi)發(fā)者能夠深入操作系統(tǒng)底層，高效地調(diào)用操作系統(tǒng)之下地各種資源。

地平線(xiàn)在去年發(fā)出倡議，結(jié)合征程5芯片，為智能汽車(chē)去打造一個(gè)開(kāi)放、開(kāi)源、行業(yè)廣泛參與的操作系統(tǒng)——TogetherOS。目前為止，地平線(xiàn)已與長(zhǎng)安、長(zhǎng)城等多家國(guó)內(nèi)主機(jī)廠(chǎng)開(kāi)始聯(lián)合開(kāi)發(fā)。

今年，地平線(xiàn)創(chuàng)始人余凱又宣布不僅僅是開(kāi)源OS，地平線(xiàn)將向部分整車(chē)廠(chǎng)開(kāi)放BPU IP授權(quán)。就此，地平線(xiàn)形成三類(lèi)開(kāi)放共贏的商業(yè)模式：

· 一是提供BPU和SoC級(jí)別征程芯片以及操作系統(tǒng)OS，幫助車(chē)企完成自動(dòng)駕駛軟硬件系統(tǒng)開(kāi)發(fā)；

· 二是提供BPU和SoC級(jí)別芯片，整車(chē)廠(chǎng)采用自研操作系統(tǒng)開(kāi)發(fā)自動(dòng)駕駛軟硬件系統(tǒng)；

· 三是提供BPU IP，支持車(chē)企實(shí)現(xiàn)SoC自研并采用自研操作系統(tǒng)和自動(dòng)駕駛軟硬件系統(tǒng)實(shí)現(xiàn)整車(chē)開(kāi)發(fā)。

在此模式下，整車(chē)開(kāi)發(fā)將實(shí)現(xiàn)從芯片到操作系統(tǒng)、再到自動(dòng)駕駛的軟硬件系統(tǒng)的高度協(xié)同，極大提升迭代速度。

作為AI芯片和軟件工具的提供商，底層開(kāi)發(fā)程度越高，意味著基于車(chē)企越多的自主性，由此推動(dòng)其實(shí)現(xiàn)產(chǎn)品和功能的快速迭代——這正是當(dāng)前智能汽車(chē)競(jìng)爭(zhēng)的核心指標(biāo)。由此無(wú)疑將為地平線(xiàn)吸引來(lái)更多的客戶(hù)和合作方。

這是機(jī)會(huì)，但也是成本。開(kāi)放度越高，也意味著開(kāi)放者為應(yīng)用者要提供的適配資源和成本更高。

如Mobiveil首席執(zhí)行官Ravi Thummarukudy所說(shuō)：“要將IP提供給市場(chǎng)需要成本，一旦客戶(hù)取得授權(quán)并開(kāi)始將之整合到SoC，為該IP提供支持就會(huì)成為經(jīng)常性支出?！?/p>

不只是IP，僅僅在征程5的上車(chē)過(guò)程中，地平線(xiàn)為客戶(hù)提供的配套適配服務(wù)的深度和周到程度，就是英偉達(dá)這樣的外資跨國(guó)多業(yè)務(wù)企業(yè)無(wú)法實(shí)現(xiàn)的。

從推出CUDA算起，英偉達(dá)在AI領(lǐng)域已布局16年之久，更是在2015年便開(kāi)始與特斯拉這樣的智能汽車(chē)領(lǐng)軍企業(yè)開(kāi)始合作，其技術(shù)壁壘之高，生態(tài)護(hù)城河之廣，都可以想象。

如今，中國(guó)已經(jīng)成為全球智能汽車(chē)的角斗場(chǎng)。很幸運(yùn)，地平線(xiàn)以中國(guó)市場(chǎng)為起點(diǎn)，開(kāi)始這場(chǎng)艱苦卓絕的追趕。

地平線(xiàn)軟硬結(jié)合的技術(shù)路線(xiàn)＋共創(chuàng)開(kāi)放的商業(yè)模式，能否在多年之后創(chuàng)造出以小勝大，以弱勝?gòu)?qiáng)的“逆襲“故事，只待時(shí)間給出答案。

1最后文章空三行圖片11.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀(guān)點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：aet@chinaaet.com。

地平线追击英伟达，天工开物“追“CUDA

日期： 2022-06-02

來(lái)源：电动汽车观察家

相關(guān)內(nèi)容