《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > AET原創(chuàng) > 異構看好FPGA 加速云要為AI高算力加速

異構看好FPGA 加速云要為AI高算力加速

2018-04-23
作者:王潔
來源:電子技術應用

算起來,人工智能(AI)概念已經提出60多年了,而最近兩年,得益于智能終端的普及帶來的數據爆發(fā)式增長,以及深度學習、神經網絡算法的發(fā)展,AI市場受到了空前的關注,但AI要得以快速普及,還缺少高算力的推動,需要提供更好的硬件加速條件。

2018年4月17日,業(yè)界領先的異構加速和業(yè)務卸載方案提供商杭州加速云信息技術有限公司在京舉辦了科技峰會及新產品發(fā)布會,隆重發(fā)布了四大創(chuàng)新產品(兩個系列硬件加速產品(SC-OPS, SC-VPX)、兩個IP庫 (FDNN, FBLAS))及三大解決方案(深度學習解決方案、高性能計算及數字信號處理解決方案、邊緣計算解決方案)。

搶先布局異構計算

杭州加速云信息技術有限公司創(chuàng)始人兼CEO鄔剛是學習通信出身,最早跟隨中國程控電話交換機之父鄔江興院士進入通信行業(yè)。兩年之后,他加入了華為負責芯片設計。2007年開始創(chuàng)業(yè),創(chuàng)辦過3家公司,對CPU總線、多核處理器的發(fā)展有著清晰的理解。經過多年的積累和對未來市場的預估,2015年9月,鄔剛先生創(chuàng)辦了加速云。

加速云 CEO 鄔剛.jpg

杭州加速云信息技術有限公司創(chuàng)始人兼CEO 鄔剛

加速云的解決方案可以廣泛應用于深度學習、人工智能、金融、機器視覺等領域。目前已與阿里、騰訊、科大訊飛等多家企業(yè)開展深入合作。

“加速云是從技術上推導出來的一家公司,起源于2014年我們家迎來第一個小朋友,在陪產過程中形成的一個想法?!?鄔剛先生提及創(chuàng)辦加速云的心路歷程,“在2014年,按照英特爾的發(fā)展,下一步一定是異構,我們當時認為異構,要么用GPU,要么用FPGA。英特爾在GPU上有一次失敗嘗試,加上GPU自身功耗太高等問題,FPGA會是異構計算的一個理想選擇?!?/p>

事實上,在加速云誕生之初已經擁有強大的技術儲備。基于FPGA來做異構計算是鄔剛先生2014年4月就想出來的計劃,直等到2014年10月英特爾在IDF大會上宣布x86+FPGA處理器,他認為這個機會點來了,11月份正式開始研究,到2015年4月,研發(fā)出了第一代原型機,2015年9月開始量產,加速云公司隨之注冊。

在深度學習中,做好算法只完成了1/3,在這個團隊里面,既需要很強的實現算法的能力,還要有非常強的工程化能力,這種工程化的能力,包括接口和實現量產的能力?!拔覀冎雷龀鲆粋€東西很容易,但是做好還是挺難的。我們有一個非常小的板卡,迭代了四代,每一次迭代都要花百萬人民幣,因為硬件投入很大,每次迭代有可能只改了一點,我們發(fā)現未來可能存在的一些風險問題,就把它改掉,這是我們團隊特別的地方。我們是一個工程化能力非常強的團隊,整體技術行不行是我們最重要的考量。” 鄔剛先生介紹。

基于FPGA的異構計算是趨勢

目前處于AI大爆發(fā)時期,異構計算的選擇主要在FPGA和GPU之間。盡管目前異構計算使用最多的是利用GPU來加速,FPGA作為一種高性能、低功耗的可編程芯片,在處理海量數據時,FPGA計算效率更高,優(yōu)勢更為突出,尤其在大量服務器部署時,隱形的運營成本會得到顯著降低。

此外,低延遲、確定性延遲,也是FPGA天然的優(yōu)勢。

鄔剛表示:“人工智能已經進入我們的生活,但是未來發(fā)展還存在瓶頸,需要硬件技術和算法方面的突破。異構計算是計算架構的未來趨勢,而FPGA 是實現異構計算的完美選擇。加速云創(chuàng)新的異構計算加速平臺解決方案,具有高性能、高效率、低延時特性以及可編程性和遠程可重構能力,非常適合云上的彈性業(yè)務的需求。我們希望能夠通過我們的技術,幫助更多的企業(yè)實現深度學習,在大數據時代贏得先機?!?/p>

全球最高性能FPGA加速卡

SC-OPS是加速云推出的全球首張Intel Stratix 10 FPGA加速卡,采用Intel最新14nm工藝的Stratix10 GX2800 FPGA器件,單板支持12個200維雙精度線性方程求解,運算時間為466us,為x86系統(tǒng)60~120倍性能;單卡可以實現4500幀/S以上圖像分類(采用AlexNet卷積神經網絡模型,int16)。

SC-OPS.jpg

SC-OPS可以廣泛應用于數據中心、云計算、機器視覺、深度學習、高性能計算、仿真、金融等領域。

全球最高集成度VPX業(yè)務卡

SC-VPX是全球計算密度最高的VPX刀片加速平臺,采用Intel Stratix 10 GX2800器件,兼容GX1650,構造業(yè)界先進、靈活、高效的信號處理和深度學習架構,主要定位高校研究所等單位的雷達、通信、深度學習相關領域的產品原型快速搭建和算法開發(fā)與應用。

SC-VPX.jpg

6U整機可以支持92T/50T FLOPS單精度浮點處理能力,整機可以通過交換板互聯構筑更大的系統(tǒng);支持OpenCL、Verilog開發(fā),支持高性能計算庫。

RTL級深度學習加速庫

深度學習加速庫FDNN是國內首個支持通用卷積神經網絡的FPGA加速庫,基于RTL級代碼,可以提供很高的性能和靈活配置特性。

參數可配置的深度學習基礎庫:卷積、池化、全連接、非線性函數;兼容CAFFE/TensorFlow模型數據;常見各種模型:VGG16, Lenet, YOLO, SSD, ResNet。

FDNN.jpg

RTL級高性能數學加速庫

高性能計算加速庫FBLAS是業(yè)界更高性能的RTL級數學加速庫。參數可配的OpenBlas庫Level2/3:矩陣乘、矩陣分解、矩陣求逆,線性方程求解、微分方程求解,三角函數、非線性求解、超越函數,傅里葉變換。

FBLAS.jpg

FDNN是專門為深度學習設計的,FBLAS更多是偏向于數字信號處理和高性能計算。

三大解決方案

?深度學習加速解決方案-加速云推出一整套基于FPGA的深度學習加速方案,包括SC-OPM/SC-OPF/SC-OPS加速卡及FDNN加速庫,滿足客戶對深度學習高性能、靈活性加速要求。為了方便客戶使用高層語言開發(fā),加速云提供基于FPGA完整的OpenCL異構開發(fā)環(huán)境,快速實現用戶自定義的深度學習加速方案。同時加速云也提供快速深度神經網絡定制加速服務。

?數字信號處理解決方案-針對雷達、通信等數字信號處理系統(tǒng)的要求,結合Intel最新14nm工藝的 Stratix10 FPGA系列,加速云提供了一套完整的硬件和軟件相結合的解決方案,實現了高性能矩陣運算(矩陣乘、轉置、求逆、QR分解)和超高速FFT(傅立葉變換)。為了方便客戶使用高層語言開發(fā),加速云提供基于FPGA完整的OpenCL異構開發(fā)環(huán)境,快速實現用戶自定義的信號處理加速方案。

?邊緣計算解決方案-加速云智能工控解決方案采用高性能Intel Arria10 GX660器件, 具有模塊化設計,強實時特性和高性能的算法IP加速、完整的OpenCL異構開發(fā)環(huán)境,可以實現新一代高性能邊緣計算網關,應用于各種工業(yè)環(huán)境。

加速云最核心的競爭力在于其IP方面,除了用于數字信號處理和高性能計算的數學庫FBLAS,以及用于深度學習的FDNN庫,還具有很多接口類的IP(高速通信接口、視頻接口)、協議類IP(壓縮、解壓縮、加解密),研發(fā)團隊在FPGA方面有著十多年的經驗,積累了很多相關的IP。

憑借自身在FPGA上的技術優(yōu)勢,加速云獲得合作伙伴的大力支持,可以率先拿到英特爾第一批流片的內部測試芯片,對加速云保持技術領先非常重要。

北京站是加速云“加速新科技,驅動智未來” 科技峰會的首站,接下來加速云將在上海、成都、西安三大城市分享其最新成果。過去兩年,加速云平均每年都有獲得一次融資,據悉,第三輪融資正在達成。

   

 


此內容為AET網站原創(chuàng),未經授權禁止轉載。