《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > 國產(chǎn)云端AI芯片落腳的難點與機會

國產(chǎn)云端AI芯片落腳的難點與機會

2020-11-11
來源:工業(yè)365

數(shù)據(jù)中心在數(shù)字化、信息化推動社會和產(chǎn)業(yè)發(fā)生了巨大變革的過程中充當(dāng)了重要的角色,隨著人工智能在各行業(yè)的滲透,以及龐大應(yīng)用場景使AI模式越加復(fù)雜,而其中數(shù)據(jù)中心的計算能力需要更高的要求與發(fā)展,而算力的核心就是芯片。

正是基于這個原因,近年來全球涌現(xiàn)出不少致力于AI芯片開發(fā)的企業(yè),燧原科技就是其中之一。在成立之初,公司就瞄準(zhǔn)了云端訓(xùn)練芯片市場缺口,并提出了“做大芯片,拼硬科技”的目標(biāo)。

在這種愿景的驅(qū)動下,從2018年3月成立至今的短短2年半時間內(nèi),燧原科技就陸續(xù)發(fā)布了云端AI訓(xùn)練芯片“邃思DTU”、搭載該芯片的AI加速卡“云燧T10”以及基于OCP加速模組OAM的“云燧T11”。2020年9月,燧原科技再次迎來了里程碑式的突破——其第一代人工智能訓(xùn)練加速卡云燧T10和由其組成的多卡分布式訓(xùn)練集群已在云數(shù)據(jù)中心落地,正式進入商用階段。

近日,燧原科技攜“云燧T10/T11” 首次亮相第三屆全球IC企業(yè)家大會暨第十八屆中國國際半導(dǎo)體博覽會(IC China 2020),在本次大會期間,燧原科技的負(fù)責(zé)人和相關(guān)專家為我們介紹了AI芯片實現(xiàn)商用的過程中存在著諸多挑戰(zhàn),以及燧原科技作為一家初創(chuàng)企業(yè)又是怎樣完成了云端AI大芯片的迅速商用化落地。

一、AI大芯片落地的難點

眾所周知,新場景對算力的需求,使得AI芯片在設(shè)計、制造和封測等方面進行了升級,由此也促生了很多新技術(shù),這不僅為大量初創(chuàng)企業(yè)帶來了發(fā)展機會,也同樣為他們帶來了諸多的挑戰(zhàn)。以芯片設(shè)計為例,設(shè)計企業(yè)需要在架構(gòu)、IP、SoC等方面進行創(chuàng)新。而芯片越大,則意味著整個芯片設(shè)計難度也會呈指數(shù)級上升,這為設(shè)計企業(yè)帶來了難題。除此之外,AI芯片要處理大量的數(shù)據(jù),所以這類芯片對性能的要求就導(dǎo)致了它對先進工藝和先進封裝方面也具有較高的要求。

而在解決了在這三個環(huán)節(jié)中的問題后,也僅僅是企業(yè)成功推出了相關(guān)產(chǎn)品,離實現(xiàn)商業(yè)化落地還存在著一段距離。

“量產(chǎn)是AI大芯片實現(xiàn)商用要翻越的一座大山”,燧原科技創(chuàng)始人兼COO張亞林表示:“在推出產(chǎn)品到實現(xiàn)量產(chǎn)的過程中,需要解決產(chǎn)品質(zhì)量、性能功耗以及良率這三大核心問題。”

為了保證產(chǎn)品質(zhì)量,燧原科技通過用驗證方法學(xué)和驗證覆蓋率來確保芯片設(shè)計質(zhì)量和制造質(zhì)量。在性能功耗優(yōu)化方面,則通過軟硬件聯(lián)合性能以實現(xiàn)端到端的性能調(diào)優(yōu),這包括三個部分,即進行芯片性能極限測試、硬件性能調(diào)優(yōu)以及軟件性能優(yōu)化。在良率方面,存在著晶圓測試(CP)良率挑戰(zhàn)、2.5D封裝良率挑戰(zhàn)以及分級良率挑戰(zhàn)。對此,燧原科技選擇了與產(chǎn)業(yè)鏈上下游伙伴共同合作來提高產(chǎn)品良率。

除了在技術(shù)層面上存在產(chǎn)業(yè)化應(yīng)用的挑戰(zhàn)外,與之相匹配的軟件生態(tài)系統(tǒng)也是AI大芯片難以落地的另一重要因素。

為此燧原科技推出了計算及編程平臺“馭算”。據(jù)介紹,該平臺支持主流深度學(xué)習(xí)框架,并針對邃思芯片進行了特定優(yōu)化。整個平臺不僅包括傳統(tǒng)的算子加速庫,還為數(shù)據(jù)中心大規(guī)模訓(xùn)練集群提供高效靈活的調(diào)度機制。

e1.jpg

(馭算軟件架構(gòu))

二、大芯片背后的硬科技

實現(xiàn)量產(chǎn)是商業(yè)化過程中重要的一環(huán),量產(chǎn)后走向市場并受到市場的青睞則是更重要的環(huán)節(jié),而這就需要依靠產(chǎn)品的硬實力。

通過相關(guān)技術(shù)降低芯片成本,也是云端AI訓(xùn)練芯片硬實力的一種體現(xiàn)。其中,芯片架構(gòu)的創(chuàng)新是實現(xiàn)算力普惠的一個重要因素。

借本次全球IC企業(yè)家大會的機會,燧原科技創(chuàng)始人兼首席執(zhí)行官趙立東發(fā)布了燧原科技的芯片架構(gòu)——“GCU-CARA”(通用計算單元和全域計算架構(gòu))。據(jù)趙立東介紹,該架構(gòu)具有完全可編程、全模式計算、全精度計算和高并行度的特點。

e2.jpg

據(jù)現(xiàn)場燧原科技專家介紹,GCU-CARA具有256個張量計算單元,每個計算單元支持1個32 bit MAC,支持所有精度輸入以及混合精度運算。GCU-CARA擁有廣泛的標(biāo)量、向量、張量計算形式以及各種精度格式的支持,可以提供極其靈活的編程方式和張量切分/復(fù)用方式,從而支持最廣泛的編程需求。

據(jù)悉,燧原科技GCU架構(gòu)還包括GCU-CARE(計算引擎)、GCU-DARE(數(shù)據(jù)架構(gòu))、GCU-LARE(智能互聯(lián))、GCU-PARE(先進封裝)四大核心技術(shù),旨在為人工智能產(chǎn)業(yè)注入了新動能。

目前,燧原GCU已應(yīng)用到云燧T10,T11產(chǎn)品以及數(shù)據(jù)中心AI訓(xùn)練系統(tǒng)和集群中。而今年云燧T10和由其組成的多卡分布式訓(xùn)練集群正式進入商用階段,也從另一方面說明了燧原科技的硬實力受到了市場的認(rèn)可。

三、燧原科技開啟2.0時代

在云燧T10實現(xiàn)商用化落地的前四個月,燧原科技還獲得了新一輪的融資,借助這輪融資,燧原科技得以從1.0跨越到了2.0時代。

張亞林表示:“在1.0時代,燧原科技實現(xiàn)了從0到1的目標(biāo),在這個階段公司的工作重心是放在建設(shè)中國頂尖的工程化團隊,完成產(chǎn)品研發(fā)和量產(chǎn)、實現(xiàn)產(chǎn)品熱啟動,并完成首個人工智能訓(xùn)練解決方案的商業(yè)化落地?!?/p>

已經(jīng)實現(xiàn)商用的云燧T10和由其組成的多卡分布式訓(xùn)練集群是燧原科技完成1.0階段任務(wù)的代表作之一。從上文AI大芯片的商用落地難處便可看出,僅靠一塊芯片或是一種產(chǎn)品難以支撐云端服務(wù)器的使用。從目前市場情況來看,由AI芯片所組成的分布式集群在云端服務(wù)器發(fā)展的過程中起到了重要作用,針對這種商業(yè)訴求,燧原科技所推出的多卡分布式訓(xùn)練集群,就能夠為普惠云端訓(xùn)練的實現(xiàn)提供助力。

“多卡分布式集群的建成并不是一件簡單的事”,張亞林表示:“在這個過程中,燧原科技需要解決多卡之間連接問題,還需要考慮每個板卡的工作分配,使之在盡可能小的功耗下發(fā)揮出最高的性能?!?/p>

e3.jpg

(云燧T10商用化案例展示)

人工智能訓(xùn)練平臺的商業(yè)化落地不僅為燧原1.0畫上了完美的通關(guān)句號,還為燧原科技打開了通往2.0時代的大門。

“2.0時代,燧原科技將進行從1到N的發(fā)展”,據(jù)張亞林介紹:“在2.0時代,燧原科技會專注于建立市場銷售和服務(wù)支持體系,迅速拓展業(yè)務(wù)。同時,公司還將加強國內(nèi)外學(xué)術(shù)端的合作,引進高端人才,構(gòu)建產(chǎn)業(yè)生態(tài)?!?/p>

在產(chǎn)品規(guī)劃方面,作為一個務(wù)實的企業(yè),實現(xiàn)商業(yè)化落地是燧原科技所追求的目標(biāo)之一。以此為基礎(chǔ),燧原科技在進行芯片設(shè)計之初就瞄準(zhǔn)了市場痛點,大大加速了產(chǎn)品的商業(yè)化進程。

張亞林表示:“未來,燧原科技也將以應(yīng)用為導(dǎo)向,進行產(chǎn)品的拓展。在2.0時代,燧原科技還會持續(xù)產(chǎn)品的研發(fā)和迭代,構(gòu)建云端訓(xùn)練和推理平臺完整解決方案。為了實現(xiàn)這一目標(biāo),燧原科技將會在明年推出推理AI芯片?!?/p>

根據(jù)燧原科技的計劃來看,公司將用3年時間來構(gòu)建燧原科技2.0時代。

燧原科技之所以能夠在短時間內(nèi)得到如此迅速的發(fā)展,是因為云端AI訓(xùn)練芯片還處于起步階段,算法和架構(gòu)方面還有很大的上升空間。從云端訓(xùn)練芯片巨頭英偉達的發(fā)展中看,2019年其數(shù)據(jù)中心業(yè)務(wù)營收達到30億美元,AI訓(xùn)練卡則貢獻了其中的20億美元和最大利潤。

而英偉達幾乎壟斷了云端AI訓(xùn)練芯片市場,一家獨大的市場情況就導(dǎo)致了AI云端訓(xùn)練的成本很高。而燧原科技瞄準(zhǔn)這塊市場,就是期望能夠提供可替代的解決方案來推動普惠算力的實現(xiàn)。

據(jù)張亞林介紹,燧原科技瞄準(zhǔn)的是云端計算芯片的存量和增量兩大市場。存量市場指的是目前已有的,并可進行方案替代的市場,例如云服務(wù)商等領(lǐng)域。增量市場則是未來通過技術(shù)迭代并進行方案替代的市場。

他表示:“在國外廠商已經(jīng)構(gòu)建了強大的優(yōu)勢之下,其他廠商要想進入這個市場首先就要適應(yīng)已有的生態(tài)系統(tǒng),通過提供可替代的解決方案是打入這個市場方法之一。這也是為未來突破國外廠商壟斷所奠定的基礎(chǔ)。”

從國內(nèi)云端AI芯片競爭格局來看,由于現(xiàn)階段國內(nèi)致力于發(fā)展云端AI芯片的企業(yè)并不多,且在市場前景巨大的情況下,搶先爭取相關(guān)人才和發(fā)展生態(tài)合作伙伴就成為了驅(qū)動企業(yè)未來發(fā)展的重要引擎之一。而這也是上文所提到的,燧原科技要在2.0時代大力發(fā)展的部分之一。

因此,燧原科技正在積極與全產(chǎn)業(yè)鏈的伙伴達成合作,聯(lián)合伙伴孵化行業(yè)解決方案,深度參與AI產(chǎn)業(yè)聯(lián)盟;積極建立生態(tài),聯(lián)合建立高校聯(lián)合實驗室;并開放底層能力,賦能定制開發(fā),深度參與社區(qū),貢獻測評標(biāo)準(zhǔn)。

在算力即是生產(chǎn)力的今天,業(yè)界對普惠算力的需求日益高漲。在這種市場需求之下,在云端訓(xùn)練芯片這片藍海當(dāng)中,既是挑戰(zhàn)又是機會,而燧原科技的成長也為國內(nèi)云端AI芯片的商業(yè)化發(fā)展提供了選擇。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。