123,123

为什么你的AI芯片设计总是慢人一步？

日期： 2020-09-23

來源：半导体行业观察

關鍵詞： 人工智能芯片 AISoC

　　人類對于人工智能（AI）的探索從未停止過。

　　從上世紀八十年代開始，多層神經網絡和反向傳播算法的出現給人工智能行業(yè)點燃了新的火花，到2016年Alpha Go擊敗韓國圍棋九段職業(yè)選手，標志著人工智能的又一波高潮來臨。現階段的人工智能領域已經全面開花。

　　AI芯片發(fā)展史

　　人工智能的興起，為半導體行業(yè)帶來了新的機遇，使得半導體市場發(fā)生了翻天覆地的變化。但想要將人工智能移植到智能手機、車聯網、IoT等終端，就對硬件的計算能力和能耗提出了更高的要求。就拿移動端硬件來說，完成這些運算必須同時滿足高速度和低功耗的要求。

　　針對這些需求，人工智能核心計算芯片也經歷了四次大的變化。

　　2007年以前，人工智能研究和應用經歷了數次起伏，一直沒有發(fā)展成為成熟的產業(yè)；同時受限于當時算法、數據等因素，這一階段人工智能對于芯片并沒有特別強烈的需求，通用的CPU芯片即可提供足夠的計算能力。

　　隨著高清視頻、游戲等行業(yè)的發(fā)展，GPU產品取得快速的突破；同時人們發(fā)現GPU的并行計算特性恰好適應人工智能算法大數據并行計算的要求，如GPU比之前傳統(tǒng)的CPU在深度學習算法的運算上可以提高9到72倍的效率，因此開始嘗試使用GPU進行人工智能的計算。

　　進入2010年后，云計算廣泛推廣，人工智能的研究人員可以通過云計算借助大量CPU和GPU進行混合運算，事實上今天人工智能主要的計算平臺還是云計算。但人工智能業(yè)界對于計算能力的要求快速提升，因此進入2015年后，業(yè)界開始研發(fā)針對人工智能的專用芯片，通過更好的硬件和芯片架構，在計算效率、能耗比等性能上得到進一步提升。

　　AI SoC的基石

　　由于已經發(fā)現傳統(tǒng)架構對于AI SoC而言效率低下，因此系統(tǒng)規(guī)范需要進行越來越多的架構探索來優(yōu)化設計，以提高神經網絡處理的吞吐量。FinFET時代的到來促使產品架構師和片上系統(tǒng) （SoC）工程師更仔細地研究每個時鐘周期中執(zhí)行的計算的效率。

　　越來越多的企業(yè)開始提供精良的神經網絡架構，但這些復雜的功能運行時也使得硅片上的溫度隨之升高，功耗預算愈發(fā)緊張。此外，由于RTL代碼的性質不斷變化，快速發(fā)展的架構使得交付進度也更為緊張。面對功耗和上市時間的雙重挑戰(zhàn)，開發(fā)出適合相同芯片面積并在任務模式下按照預期吞吐量水平發(fā)揮性能的全芯片布局絕非易事。

　　設計人員需要使用構成計算電路的構建模塊，在元件層面解決實現高性能人工智能（AI） SoC的功耗、性能和面積（PPA）目標的問題。布爾邏輯和存儲器存儲元件構成的這些元件塊被稱為基礎IP。

　　目前最流行的深度學習技術是深度神經網絡（DNN），它是許多現代AI應用的基礎。自從DNN在語音識別和圖像識別任務中展現出突破性的成果，使用DNN的應用數量呈爆炸式增長。這些DNN方法被大量應用在無人駕駛汽車，癌癥檢測，游戲AI等方面。在許多領域中，DNN目前的準確性已經超過人類。

　　但在實現DNN時，如果選了錯誤的方式，就可能給項目進度帶來大麻煩。因此，利用能夠在設計周期內為過程校正提供靈活性的基礎IP開展設計是成功推出產品的必要之舉。

　　新思科技的基礎IP產品組合中包括HPC設計套件。該套件是邏輯庫單元和存儲器的集合，已在先進節(jié)點上與EDA工具經過共同優(yōu)化，旨在突破任何設計的PPA極限，并針對支持AI的設計進行優(yōu)化。

　　須知，使用EDA供應商提供的基礎IP解決方案最重要的優(yōu)勢在于互操作性。這意味著設計人員可以使用IP附帶的腳本在最尖端的工藝節(jié)點上進行工作渠道清理流程，并且不會浪費增效時間。

　　新思科技除了供應種類豐富且經過硅驗證的產品組合用于實現理想PPA目標之外，還支持滿足個性化設計需求的定制服務，使其業(yè)務比任何其他產品更靈活。

　　如何應對AI SoC設計挑戰(zhàn)？

　　隨著AI SoC的復雜性不斷增加，除了實現基礎構建模塊的簡便同時，優(yōu)化、測試和基準界定SoC性能的設計過程也需要工具、服務和/或專業(yè)知識來優(yōu)化AI系統(tǒng)。在設計過程中通過定制和優(yōu)化來培育設計，最終可以決定SoC在市場中能否取得成功。

　　僅依靠傳統(tǒng)的設計流程，設計人員無法得到理想的高性能、市場領先的AI解決方案。他們必須考慮更廣闊范圍的半導體解決方案。

　　在專業(yè)處理能力方面，融合神經網絡能力的SoC必須同時適應異構和大規(guī)模并行矩陣乘法運算。異構組件需要標量、矢量DSP和神經網絡算法能力。

　　在存儲性能方面，AI模型使用大量存儲，這增加了硅片的成本。訓練神經網絡可能需要幾GB到10 GB的數據，這需要使用DDR最新技術，以滿足容量要求。

　　在實時數據連接方面，一旦AI模型經過訓練并可能被壓縮，就可以通過許多不同的接口IP解決方案執(zhí)行實時數據。

　　同時，盡管復制人類大腦還有很長的路要走，但人類大腦已被用作構建人工智能系統(tǒng)的有效模型，并繼續(xù)由全球領先的研究機構建模。

　　SoC 的開發(fā)過程在不斷變化，但本質上包括以下標準環(huán)節(jié)：系統(tǒng)規(guī)范和架構設計；邏輯和功能電路設計；物理設計、驗證和分析；制造、封裝和測試；以及發(fā)布硅驗證。新增 AI 功能可能會增加各個環(huán)節(jié)的復雜性。集成的 IP 明確規(guī)定了一些理論上的能力上限，但是對設計進行優(yōu)化可以使實現結果更接近理論上的最大值。

　　傳統(tǒng) SoC 架構的存儲訪問和處理能力無法滿足需求。僅靠添加有效的矩陣乘法加速器或高帶寬存儲器接口的確有所幫助，但不足以成就AI 的市場領導者，這就更加堅定了在系統(tǒng)設計期間專門針對 AI 進行特定優(yōu)化的理念。

　　由于已經發(fā)現傳統(tǒng)架構對于 AI SoC 而言效率低下，因此系統(tǒng)規(guī)范需要進行越來越多的架構探索來優(yōu)化設計。而因為傳統(tǒng)的架構被認為效率較低，所以更加需要提供架構服務。

　　此外，一代接一代的 AI SoC 正在接受改造，利用經驗豐富的設計團隊進行優(yōu)化和定制。深度學習算法包括許多存儲的權重，理想的情況是將其存儲在片上 SRAM 中，以便節(jié)省功耗和處理工作量，而通過定制來優(yōu)化 SRAM 編譯器的功率和密度是一個明顯的趨勢。

　　定制處理器是新型 AI SoC 解決方案最受歡迎的 IP 開發(fā)成果之一。設計自定義處理器的工具彌足珍貴，它既能確保門級優(yōu)化得到充分利用和重用，也能保證不落后于支持自定義處理器所需的生態(tài)系統(tǒng)。

　　開發(fā)AI SoC 需要市場上一些最具創(chuàng)新性的IP。其中包括快速采用以下新技術：HBM2e、PCIe5、CCIX，以及最新的MIPI。為了采納這些標準技術，設計人員需要支持早期的軟件開發(fā)和性能驗證的先進仿真和原型設計解決方案。這些工具經常被用來實現 AI，原因同樣在于設計的不成熟和復雜性。

　　預先構建的AI SoC 驗證環(huán)境只能供具有AI SoC 開發(fā)經驗的人員使用。因此，設計第二代和后代芯片組的設計服務和公司在上市時間方面具有快于先行者的固有優(yōu)勢。設計人員可以依靠設計服務作為利用 AI SoC 專業(yè)知識的有效方式，從而縮短產品上市時間，并將內部設計團隊解放出來，讓其專心設計差異化功能。

　　接口IP的硬化服務是另一種優(yōu)化工具，可實現更低功耗和更小面積的設計。硬化IP 為 SoC 騰出空間，為達到更高的 AI 性能提供了寶貴的片上 SRAM 和處理器組件。

　　在AI功能進入新市場時選擇用于集成的 IP為AI SoC提供了關鍵組件。新思科技提供了許多專業(yè)解決方案，包括存儲接口IP、多端口的片上SRAM編譯器以及用于實時數據的完整接口選項組合，這三種IP解決方案是下一代AI設計的關鍵組件。

　　總結

　　隨著體系結構迅速發(fā)展，并細化到更具體的應用場景中，這種競爭環(huán)境為差異化和系統(tǒng)優(yōu)化創(chuàng)造了機會。需要通過架構建模來選擇系統(tǒng)和IP配置替代方案優(yōu)化AI片上系統(tǒng)（SoC）設計，從而迅速形成具有競爭力的解決方案。新思科技提供的IP產品組合，節(jié)省了芯片設計商的時間，讓其專心設計差異化功能。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

为什么你的AI芯片设计总是慢人一步？

日期： 2020-09-23

來源：半导体行业观察

相關內容