近日,英偉達GTC大會上亮相了新一代GPU H100,800億個晶體管,使用臺積電4nm工藝,采用HBM3,可實現(xiàn)3TB/s的顯存帶寬,算力達到了2000TOPs,但功耗也創(chuàng)造了新紀錄,達到了驚人的700W??梢哉f,英偉達已經(jīng)在現(xiàn)有技術(shù)路線上把芯片性能和帶寬做到了極致,業(yè)界將鮮少有企業(yè)能夠用同樣的方式取得更高的突破,要想在關(guān)鍵指標上突破,必須要發(fā)展新路徑。
在人工智能應用推動下,存內(nèi)計算這個新型計算架構(gòu)逐漸被商業(yè)界看重,也成為未來造就計算芯片的熱門技術(shù)之一。在這樣的背景下,后摩智能異軍突起,試圖用存算一體來解鎖大算力AI芯片,據(jù)悉,其首款基于SRAM的存算一體大算力AI芯片近日已被成功點亮。國內(nèi)發(fā)展大算力AI芯片再多一條創(chuàng)新路徑。
用存算一體顛覆大算力AI芯片
在人工智能、5G、大數(shù)據(jù)和自動駕駛交織而成的數(shù)字經(jīng)濟文明時代,計算能力將決定生產(chǎn)力。OpenAI發(fā)現(xiàn),自2012年以來,人工智能所需的計算能力大約每3、4個月翻一番。所以現(xiàn)在,越來越多的芯片企業(yè)開始投入重金,不斷的在AI大算力芯片上攻堅。
那么,目前市面上都有哪些主流的大算力AI芯片方案:
第一種是當下英偉達采用的的這種馮·諾依曼架構(gòu)策略,用HBM來解決內(nèi)存墻的問題,采用3D封裝,工藝要先進,最新一代的英偉達GPU Hopper架構(gòu)已經(jīng)到了4nm。這種方案的優(yōu)點是相對成熟,英偉達已經(jīng)趟過。缺點是無法打造足夠的差異化,能做到英偉達70-80分就差不多是極限,再者,其HBM成本占比較大,總體昂貴。
第二種是DSA,也就是算法和芯片高度綁定在一起的方案。其優(yōu)點是,不僅可以提高計算效率,還能達到降低功耗的目的;該方案類似Turn-key的方式,比較方便省事。但這種方式的缺點是,算法和硬件是緊耦合的,部分算法硬化到電路里,以犧牲靈活性換取效率提升。因為不同客戶所需要的算法各異,而且算法在快速迭代,完全黑盒的方式可能并不那么受歡迎。
在后摩智能看來,對于初創(chuàng)公司,如果沒有技術(shù)創(chuàng)新而采用巨頭大廠的技術(shù)路線,是很難在競爭中脫穎而出的。而且1-2倍的產(chǎn)品性能提升并不具有絕對競爭力,必須要有5倍、10倍以上的提升才能真正刺激到生態(tài)的轉(zhuǎn)變。所以要想在大算力芯片上取得更高的突破和更長遠的發(fā)展,宏觀上必須要有差異化,不能以英偉達的方式去打敗英偉達,就如同當年英偉達沒用英特爾的方式來打英特爾一般。
存算一體這種打破傳統(tǒng)存儲墻和功耗墻的新架構(gòu),成為后摩智能顛覆大算力AI芯片的策略。目前在架構(gòu)創(chuàng)新可稱之為是第三種大算力AI芯片的方式。這是一條有風險的路徑,但也是一條技術(shù)進階比較大的路徑。其實國外已有不少企業(yè)開始在創(chuàng)新架構(gòu)上進行大膽的探索和創(chuàng)新,如英國公司Graphcore的IPU,就是采用基于SRAM的近存計算,其產(chǎn)品也頗具競爭力,只是云端訓練市場生態(tài)太重。后摩智能則更進一步,基于SRAM做到了存內(nèi)計算。
在各種存儲介質(zhì)中,SRAM是一項成熟度較高且能夠滿足理想存內(nèi)計算并行性需求的存儲介質(zhì)之一,是未來3-5年產(chǎn)業(yè)化的必選路徑之一。作為存內(nèi)計算的計算部件,SRAM讀寫性能優(yōu)勢較大,存儲邏輯簡單清晰,不易受外界干擾,外圍電路可操作性大,且能夠和現(xiàn)在的數(shù)字處理器技術(shù)天然融合。
“采取存算一體這種新架構(gòu)的方式,其技術(shù)演進的天花板會更高,而且在成本上更可控,未來也更容易做到大規(guī)模普及?!焙竽χ悄苈?lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭表示。 成立僅1年多,后摩智能的首款基于SRAM的存算一體大算力AI芯片就成功點亮,這也是業(yè)內(nèi)首款大算力存算一體AI芯片。據(jù)后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項之初透露,該款芯片采用22nm工藝制程,樣片算力達20TOPS,可擴展至200TOPS,計算單元能效比高達20TOPS/W。相比國際廠商1~2TOPS/W的平均水準來說,后摩智能在能效比上優(yōu)勢明顯。而且這是在不犧牲芯片靈活性的基礎上做到的,后摩的芯片不但支持市面上的主流算法,還可以支持不同客戶定制自己的算子。
后摩智能芯片開發(fā)板
當下信創(chuàng)等國產(chǎn)替代的剛需,給芯片創(chuàng)業(yè)公司帶來了很大的市場機會,在這樣的需求下,國產(chǎn)芯片無需各項指標都達到100分級別,可能及格就行,但在后摩智能看來,國產(chǎn)替代只是其中一個撬動的點,芯片是一個長跑賽道,要想真正經(jīng)得住市場的長期考量,最終還是能夠持續(xù)的用領先技術(shù)做出有競爭力的產(chǎn)品,真正給客戶帶來價值。
后摩智能信心何在?
當下AI創(chuàng)企眾多,各種技術(shù)路徑不同,做大算力芯片的不少,做存算一體芯片的企業(yè)也有一些,但用存算一體來做AI大算力芯片的卻寥寥無幾。后摩智能為何敢勇闖無人區(qū)?
信曉旭坦言道,存算一體大算力芯片確實沒有企業(yè)工程實現(xiàn)過,主要系其存在一些技術(shù)難點,譬如存儲單元陣列、AI core、工具鏈等各個方面都需要有經(jīng)驗、并且具備極強功力的團隊,將其整合起來,還需要進行整體的協(xié)同優(yōu)化設計,才能最終實現(xiàn)一款高效的基于存算一體的大算力AI芯片。當然如果這些難點被成功攻克之后,將成為企業(yè)最堅固的護城河。
后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項之初補充道,“要做存算一體的AI大芯片,需要有兩撥人:一撥是在存算一體學術(shù)領域達到國際頂尖水準的學者;另一撥是做過大芯片的工程派系。”后摩智能兼具這兩大派系,創(chuàng)始團隊的成員來自普林斯頓大學、美國Penn State大學等海內(nèi)外知名高校,及AMD、Nvidia、華為海思、地平線等一線芯片企業(yè),在先進存儲器件及存算一體技術(shù)方向擁有近15年的研究積累,具有豐富的存算電路設計與流片、先進制造工藝從理論到實踐、以及大芯片設計與實戰(zhàn)經(jīng)驗,主導過多顆世界級芯片的研發(fā)量產(chǎn),包括GPU、CPU、及高性能車規(guī)級AI芯片。
這兩大派系的團隊成員各司所長,又互相爭議,對AI芯片的核心痛點——能效比進行深層次的碰撞。最終做出的產(chǎn)品有兩大優(yōu)勢:一個是芯片的處理能效比大大提升,另外,存算融合的方式也提升了芯片的計算密度,為成百上千Tops的大算力提供更好的擴展性。
那么問題來了,既然后摩智能可以做,其他廠商是不是也可以集齊這兩撥人進行復制?關(guān)于這方面,項之初告訴筆者,首先,對創(chuàng)業(yè)公司來說,有存算一體經(jīng)驗的工程師在工業(yè)界并不多見,新入者需要從零開始做起,而后摩智能已具有2-3年的先發(fā)優(yōu)勢,可以通過快速迭代產(chǎn)品提前拿下一定的市場。再者,像英偉達這樣有足夠資源的巨頭,如果也反過來做存算一體的大芯片,對他們而言,最痛苦的是顛覆原來強大的生態(tài),所以不到萬不得已,他們不會自廢武功。
在當下半導體創(chuàng)業(yè)熱度空前、人心浮躁的大背景下,后摩智能聚攏了在存算一體和AI大芯片領域富有經(jīng)驗的團隊,探索真正顛覆AI芯片的新技術(shù),實現(xiàn)國產(chǎn)芯片換道超車,在前沿化和工程化上與國際大廠進行PK。一位最近新加入后摩智能,在某國際大廠工作了20多年的資深工程師表示,加入后摩智能不僅僅是金錢的意義,更重要的是公司的目標讓他又有了為實現(xiàn)夢想而奮斗的感覺。
應用場景的無限可能
產(chǎn)品研發(fā)出來只是萬里長征的第一步,能夠真正找到落地場景才是更重要的。AI大芯片的第一個市場需求較大的場景是數(shù)據(jù)中心,早期的創(chuàng)業(yè)者們也大都聚焦在這個領域,目前這些企業(yè)也交出了一些性能不錯的產(chǎn)品,現(xiàn)在對AI大芯片的需求已經(jīng)逐漸來到邊緣端,譬如智能駕駛領域,而且其需求快速增長,大有超越數(shù)據(jù)中心之勢。因此,后摩智能首要主打的市場是智能駕駛、泛機器人等大邊緣端。
后摩智能的市場邏輯是,絕對不會和英偉達進行水平競爭,而是要從垂直細分領域、且大廠生態(tài)壁壘最薄弱的地方切入。后摩智能指出,當下AI生態(tài)中最主要的就是算法,早期的CV類算法生態(tài)沒有那么牢不可破,可作為一個發(fā)力突破點。在這方面也有成功的案例,CV類算法目前主要應用在安防和智能駕駛領域,早期安防領域是英偉達主宰的市場,但后來華為海思的3559A很快占領了安防市場;智能駕駛也是CV類的場景,其主要是解決眼睛看的問題,相對來說也是英偉達比較薄弱的地方。
后摩智能基于自研的存算一體大算力AI芯片,
成功跑通智能駕駛算法模型
所以在早期的AI落地場景中,后摩智能會優(yōu)先選擇CV類的場景,智能駕駛是后摩智能首選的方向。智能駕駛作為一個大的市場,作為技術(shù)棧,如果能夠攻克,將來技術(shù)能力自然會外溢到機器人、數(shù)據(jù)中心等更多場景。
“如果市場下游比較固定,那供應鏈也是相對較穩(wěn)定的,這對創(chuàng)業(yè)型公司來說是不友好的。而汽車當下是處于高速變化的場景,新能源車、智能駕駛各個新需求的誕生,車企需要找到更適配的供應鏈。這給創(chuàng)業(yè)公司帶來了很大的機遇?!表椫踔赋觥?nbsp;
后摩智能的團隊在車規(guī)AI芯片上有豐富的經(jīng)驗?,F(xiàn)在公司正在著手引入車規(guī)級認證。信曉旭談到,像智能駕駛這樣的大邊緣推理機會很適合用SRAM做存算一體。當然后摩智能并沒有止步于此,公司還在對新的存儲介質(zhì)RRAM和MRAM進行探索。他補充道,現(xiàn)在在SRAM上的AI核心的設計、編譯器和解決方案等的配套,在RRAM上是可以直接繼承過去的,經(jīng)過幾年的客戶打磨,再隨著RRAM等存儲介質(zhì)的成熟,繼而進行更進一步的提升,徹底顛覆AI計算的格局。值得一提的是,后摩智能已經(jīng)拿到了臺積電RRAM的PDK。
結(jié)語
圖靈獎得主、計算機體系結(jié)構(gòu)宗師David Patterson與John Hennessy認為,未來將是計算機體系結(jié)構(gòu)的黃金十年,新的架構(gòu)設計將會帶來更低的成本,更優(yōu)的能耗、安全和性能。存算一體這種新架構(gòu)作為延續(xù)摩爾定律的一條有利的道路,備受資本界和商業(yè)界關(guān)注。我們也已看到,國外已經(jīng)有多家AI初創(chuàng)公司采用架構(gòu)創(chuàng)新的路徑發(fā)力AI芯片,并且還交付了非常有競爭力的產(chǎn)品,如Graphcore,SambaNova等。
在國產(chǎn)大算力AI芯片的攀登之路上,后摩智能作為國內(nèi)唯一一家選擇以架構(gòu)創(chuàng)新的方式來設計大算力AI芯片,并且躋身為數(shù)不多的國際前沿技術(shù)研究企業(yè)的行列,必將為國產(chǎn)AI芯片彎道超車、趕超巨頭帶來更大的機會。