存算一體的基本概念最早可以追溯到上個世紀七十年代,但是受限于芯片設(shè)計復(fù)雜度與制造成本問題,以及缺少殺手級大數(shù)據(jù)應(yīng)用進行驅(qū)動,存算一體一直不溫不火,但最近幾年,存算一體似乎已經(jīng)進入爆發(fā)前夕。
尤其是國內(nèi)一大批存算一體技術(shù)公司伴隨著融資信息浮出水面,如知存科技、蘋芯科技、九天睿芯、后摩智能、合肥恒爍、閃憶科技、新憶科技、杭州智芯科等,動輒億元起的融資金額也充分證明了資本對存算一體這個賽道的青睞。國外的三星和Myhtic也是該領(lǐng)域的潛心研究者,他們近來也動作頻頻,在最近的hotchips上,三星就披露了他們的HBM-PIM方案,Myhtic的存算一體模擬AI芯片也有了新進展。一個新的存儲計算時代似乎將要來臨。
存內(nèi)計算市場為何被看好?
今年5月Myhtic C輪融資了7000萬美元,迄今為止已共計籌集了1.65億美元;6月10日,知存科技宣布完成億元A3輪融資,產(chǎn)品線擴充及新的產(chǎn)品量產(chǎn),加上此前的兩輪融資,截至目前,知存科技已完成累計近3億元的A輪系列融資;6月25日九天睿芯獲億元級A輪融資,用于新產(chǎn)品研發(fā)和人員擴充的工作;7月2日,杭州智芯科完成近億元的天使輪融資,用于繼續(xù)搭建團隊,啟動ACIM下一階段技術(shù)研發(fā)與市場拓展;8月24日,后摩智能宣布完成3億元人民幣Pre-A輪融資,將用于加速芯片產(chǎn)品技術(shù)研發(fā)、團隊拓展,早期市場布局及商業(yè)落地;8月24日,蘋芯科技完成近千萬美元Pre-A輪融資,據(jù)悉,本輪融資將主要用于芯片研發(fā)相關(guān)工作。
從融資金額的用途我們也可以窺見,這些存算一體芯片公司有的處于團隊搭建階段,有的是正在芯片研發(fā)階段,還有的已經(jīng)到了產(chǎn)品線擴充和量產(chǎn)階段。前幾年(2019年左右)這個市場國內(nèi)也就僅有3-4家嶄露頭角的企業(yè),但現(xiàn)在存算一體這個賽道顯然已經(jīng)開始變得熱鬧起來了。
動輒億元的資本涌入,前仆后繼的玩家踴躍跳入。為何存算一體芯片市場會如此被看好?
存算一體技術(shù)(PIM :Processing in-memory)被視為人工智能創(chuàng)新的核心。它將存儲和計算有機結(jié)合,直接利用存儲單元進行計算,極大地消除了數(shù)據(jù)搬移帶來的開銷,解決了傳統(tǒng)芯片在運行人工智能算法上的“存儲墻”與“功耗墻”問題,可以數(shù)十倍甚至百倍地提高人工智能運算效率,降低成本。
在知存科技CEO王紹迪的眼中,一直看好存算一體技術(shù)的原因有三:一是算力和運算數(shù)據(jù)量每年都在指數(shù)級增加,然而摩爾定律已經(jīng)接近于到極限,每代芯片只有10-20%的性能提升。二是馮諾依曼架構(gòu)的算力已經(jīng)被內(nèi)存墻所限制,只有解決內(nèi)存墻問題才能進一步提高算力。在各種解決方案中,存內(nèi)計算是最直接也是最高效的。
蘋芯科技CEO楊越則認為,萬物互聯(lián)+的人工智能的時代已經(jīng)到來。智能產(chǎn)品覆蓋面積越來越大,產(chǎn)品形態(tài)的多樣性將迎來爆發(fā)式的增長。我們可以預(yù)見,由于傳輸延遲或數(shù)據(jù)安全考慮,很多數(shù)據(jù)處理及推理運算將在端側(cè)發(fā)生。通用性計算芯片在服務(wù)特定AI算法方面并不具備性價比優(yōu)勢,為AI定制的芯片將成為人工智能產(chǎn)業(yè)鏈條上的底層核心技術(shù)。存內(nèi)計算作為創(chuàng)新性極強的芯片架構(gòu)形式,由于突破了困擾業(yè)界多年的存儲墻問題,且與深度學(xué)習(xí)網(wǎng)絡(luò)運算模型中的基本算子高度契合,使得基于存內(nèi)計算架構(gòu)的芯片相比于市場已有的AI加速芯片,在計算效率(TOPS/Watt)方面有數(shù)量級上的提升。在智能時代里,從可穿戴到自動駕駛,功耗約束下場景里的計算效率都是永恒的主題,存內(nèi)計算是解放算力、提升能效比最強有力的武器之一。
而且與其他低功耗計算,如低電壓亞閾值數(shù)字邏輯ASIC、神經(jīng)模態(tài)(Neuromorphics)計算和模擬計算比較,存內(nèi)計算的優(yōu)勢也盡顯。
王紹迪表示,低功耗亞閾值計算是對現(xiàn)有邏輯計算的功耗優(yōu)化,一般能效可以提升2-4倍,但是算力相應(yīng)降低,只能進行針對性的優(yōu)化。而存內(nèi)計算是新型的運算架構(gòu),做的是二維和三維矩陣運算,能效和算力可以提高100-1000倍。神經(jīng)模態(tài)運算是為類腦算法而設(shè)計的芯片,有不同的實現(xiàn)方式,如模擬計算、數(shù)字計算、無時鐘計算、或者存算一體的實現(xiàn)方式。其實上述三種技術(shù)解決的問題是不一樣的。后摩爾時代下,無法通過工藝的提升來優(yōu)化整體算力,異構(gòu)計算和新架構(gòu)變得更為重要。
在楊越看來,與亞閾值數(shù)字邏輯相比,存內(nèi)計算仍工作在正常供電范圍,可具有實現(xiàn)高算力的可能性。存內(nèi)計算的原理就是模擬計算。存內(nèi)計算與神經(jīng)形態(tài)計算有交集,就是用存內(nèi)計算的原理去實現(xiàn)synaptic connection,可提供高平行度、高能效地synaptic weighting的計算。
存內(nèi)計算的三條主流技術(shù)路徑
在認準(zhǔn)了賽道之后,就是選擇存內(nèi)計算的技術(shù)路徑。對于存算一體技術(shù)來說,處于多種存儲介質(zhì)百花齊放的格局,如SRAM,DRAM,F(xiàn)lash等。目前選擇SRAM介質(zhì)陣營的主要有蘋芯科技、后摩智能、九天睿芯。Flash陣營的代表玩家有知存科技、合肥恒爍、美國的Mythic。DRAM陣營的還相對偏少。
那么該如何選擇合適的技術(shù)路徑,這些技術(shù)路徑又有何特點、壁壘和優(yōu)勢呢?蘋芯CEO楊越認為,技術(shù)路線選擇的出發(fā)點有多個,包括工藝成熟度、加入計算功能的復(fù)雜度及結(jié)果精度、向上對神經(jīng)網(wǎng)絡(luò)算法要求的支持程度、以及落地成本等方面的考慮。
從器件工藝成熟度來看,知存科技認為,SRAM、DRAM和Flash都是成熟的存儲技術(shù),其中SRAM可以在先進工藝上如5nm上制造,DRAM和Flash可在10-20nm工藝上制造。密度方面,F(xiàn)lash最高,其次是DRAM,再次是SRAM。
在電路設(shè)計難度上,存內(nèi)計算的DRAM > 存內(nèi)計算SRAM > 存內(nèi)計算Flash ,在存內(nèi)計算方面,SRAM和DRAM更難設(shè)計,它們是易失性存儲器,工藝偏差會大幅度增加模擬計算的設(shè)計難度,尤其是當(dāng)容量增大到可實用的MB以上,目前市面上還沒有SRAM和DRAM的存內(nèi)計算產(chǎn)品;Flash是非易失存儲器,他的狀態(tài)是連續(xù)可編程的,可以通過編程等方式來校準(zhǔn)工藝偏差,從而提高精度。而近存計算的設(shè)計相對簡單,可采用成熟的存儲器技術(shù)和邏輯電路設(shè)計技術(shù)。
而談到量產(chǎn)難度方面,王紹迪給出的答案是DRAM> Flash >SRAM。
“我們過去做過多種存算一體介質(zhì)的流片,包括Flash、SRAM、RRAM和MRAM。最終發(fā)現(xiàn),F(xiàn)lash是密度最高的存儲介質(zhì),F(xiàn)lash的單個單元可以存儲的bit數(shù)最高(8-bit),這兩個特點都可以大幅度增加存內(nèi)計算的算力?!蓖踅B迪告訴筆者,所以從密度、可量產(chǎn)性、能效層面多方面綜合考量,知存科技最終選擇了Flash介質(zhì)。
楊越表示,F(xiàn)lash和SRAM 路線各自具備優(yōu)勢。我們選擇SRAM方案出于幾個考慮:一,SRAM的速度是所有memory類型中最快的,且沒有寫次數(shù)的限制,對于追求快響應(yīng)的場景幾乎是必選。二,SRAM可以向先進制程兼容,從而達到更高的能效比,更高的面效比等。三,蘋芯現(xiàn)階段的研究工作可大幅提高SRAM相關(guān)計算精度,從而降低了對相關(guān)上層算法補償?shù)囊蟆K?,相對新型存儲器,SRAM的工藝成熟度較高,可以相對較快的實現(xiàn)技術(shù)落地與量產(chǎn)。
存內(nèi)計算的最終產(chǎn)品形態(tài)
在討論存內(nèi)計算最終的產(chǎn)品形態(tài)之前,讓我們首先來看下存內(nèi)計算的賣點究竟是什么?它應(yīng)該被認為是一個有計算能力的存儲器,還是高能效比的計算模塊。如果是前者,則往往需要和臺積電等有志于推動下一代存儲器的廠商一起合作。而后者則更傾向于以AI芯片的形式做design house。
蘋芯CEO楊越認為,存內(nèi)計算硬件的出現(xiàn),本身在催生一種編程觀念上的革命,也就不能再套用傳統(tǒng)的功能上分離的思維去理解。從功能上來說,存內(nèi)計算既可以存儲數(shù)據(jù),又可以做特定的計算,本身并不矛盾。從programmability的角度講,面向AI 的存算一體技術(shù)的出現(xiàn)將會很大程度上影響人們?nèi)绾稳ゾ帉戃浖蛘哒f為更有效率的去編寫軟件提供了一個非常好的基礎(chǔ)平臺和機會。
知存科技王紹迪則表示,兩種方案所需要解決的問題不一樣:1)有算力的存儲還是馮諾依曼架構(gòu)下的存儲器,做一些加密類和低算力計算,從而節(jié)省存儲與CPU之間的帶寬。存內(nèi)計算是非馮諾依曼架構(gòu),它通過存儲單元完成二維和三維矩陣運算(這類運算占據(jù)了AI中95%以上的算力),提供大算力,它存儲數(shù)據(jù)是為了高效完成運算,本質(zhì)不是做存儲器。
對于存算產(chǎn)品,有芯片和IP兩個選擇。而目前我們觀察到,大多數(shù)企業(yè)也都是以芯片為主。
“存內(nèi)計算相關(guān)的IP是很難做的,存內(nèi)計算針對的是運算場景,不是存儲標(biāo)品。需要針對不同場景的算力、成本、功耗需求提供更多種類的IP,并且針對不同的工藝去設(shè)計,需要投入的周期很長。從測試方面,客戶集成存算IP的芯片需要增加特殊的測試步驟。我個人覺得以單芯片和Chiplet形式提供存算一體算力是最佳的方式。”王紹迪告訴筆者。
存內(nèi)計算的應(yīng)用市場廣闊,但仍需時間的打磨
關(guān)于存內(nèi)計算的具體應(yīng)用市場方向,王紹迪認為,存內(nèi)計算的發(fā)展類似于存儲器的發(fā)展路徑,隨著設(shè)計能力不斷提升,工藝不斷成熟、算力每年可以有5-10倍提升,能效每年會有1-2倍提升,成本每年會有30-50%下降,未來的存算產(chǎn)品可以用在大多數(shù)AI應(yīng)用場景,因為它成本算力能效都可以做到最優(yōu)。
蘋芯CEO楊越的觀點是,存內(nèi)計算的應(yīng)用方向及產(chǎn)品形態(tài)將隨著存算技術(shù)成熟度而演進。中早期產(chǎn)品將更多的出現(xiàn)在端側(cè)對低功耗和高能效有強烈需求的場景下。值得強調(diào)的是,隨著智能城市、智能生態(tài)等應(yīng)用的普及,我們預(yù)測從邊緣端接入的智能設(shè)備的市場體量將快速增長,應(yīng)用場景的多樣性也將不斷快速拓展。長遠地看,存算產(chǎn)品的適用范圍也可能會延伸至超大算力領(lǐng)域,我們將持續(xù)積極探索,為未來的應(yīng)用場景做好技術(shù)儲備與戰(zhàn)略規(guī)劃。
據(jù)了解,目前蘋芯已開發(fā)實現(xiàn)了多款基于SRAM的存內(nèi)計算加速單元并已完成流片,處于外部測試和demo階段,公司正與智慧穿戴、圖像物體識別領(lǐng)域的頭部客戶做技術(shù)驗證。
“存內(nèi)計算技術(shù)的發(fā)展是一條追求高能效計算的重要技術(shù)路線,如何有效控制存內(nèi)計算接口是一個重要挑戰(zhàn)。誰擁有兼顧計算密度與存儲密度的存內(nèi)計算硬件架構(gòu),誰就擁有了打開高能效計算的金鑰匙。未來的存內(nèi)計算一定會滲透到大大小小各種規(guī)模的應(yīng)用中去,大大提高計算的能量效率?!睏钤教寡缘?。
在王紹迪看來,存算一體面臨的挑戰(zhàn)就是時間,還有很多事情沒有做,這些都需要通過不斷的實驗去驗證和解決,需要時間,它還在發(fā)展初期,有廣闊的提升空間,這也是我最喜歡它的一點。距離存算一體的能力極限可能還有1000倍的空間,每年我們都能把它提升2-5倍,隨著算力提升和成本降低,它應(yīng)用場景會越來越廣。
寫在最后
“存算一體”打破了運行70年的馮諾依曼架構(gòu),將成為AI時代主流的計算架構(gòu)。目前國內(nèi)外在存算一體方面都處于起步階段,存算一體正處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時期,所以這可能是我們發(fā)展國產(chǎn)芯片的另一大重要方向。