《電子技術應用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > 寒武紀首顆AI訓練芯片亮相:7納米制程,算力提升四倍,已規(guī)模化出貨

寒武紀首顆AI訓練芯片亮相:7納米制程,算力提升四倍,已規(guī)?;鲐?

2021-01-21
來源:機器之心
關鍵詞: 寒武紀 7納米

  1 月 21 日,寒武紀思元 290 智能芯片及加速卡、玄思 1000 智能加速器在官網(wǎng)低調亮相,寒武紀表示該系列產(chǎn)品已實現(xiàn)規(guī)?;鲐?。去年,寒武紀招股書曾簡單披露了一款訓練芯片的 “彩蛋”,此后,寒武紀思元 290 芯片就一直被業(yè)界廣泛關注并引發(fā)行業(yè)諸多猜想。如今,隨著新一代訓練產(chǎn)品線集中亮相,寒武紀略顯“神秘” 的訓練芯片及相應的業(yè)務布局逐漸清晰。

  思元 290 智能芯片是寒武紀的首顆訓練芯片,采用臺積電 7nm 先進制程工藝,集成 460 億個晶體管,支持 MLUv02 擴展架構,全面支持 AI 訓練、推理或混合型人工智能計算加速任務。

  1.png

  寒武紀首顆訓練芯片思元 290

  寒武紀 MLU290-M5 智能加速卡搭載思元 290 智能芯片,采用開放加速模塊 OAM 設計,具備 64 個 MLU Core,1.23TB/s 內存帶寬以及全新 MLU-Link?多芯互聯(lián)技術,在 350W 的最大散熱功耗下提供 AI 算力高達 1024 TOPS(INT4)。

  寒武紀玄思 1000 智能加速器,在 2U 機箱內集成 4 顆思元 290 智能芯片,高速本地閃存、Mellanox InfiniBand 網(wǎng)絡,對外提供高速 MLU-Link?接口,打破智能芯片、服務器、POD 與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴展架構,實現(xiàn) AI 算力在計算中心級縱向擴展,是 AI 算力的高集成度平臺。

  寒武紀訓練產(chǎn)品線采用自適應精度訓練方案,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等領域的復雜 AI 應用場景提供充裕算力,推動人工智能賦能產(chǎn)業(yè)升級。

  思元 290 采用 MLUv02 擴展架構

  MLUv02 架構為寒武紀 MLU200 全產(chǎn)品線共享,滿足云、邊、端三個場景的算力需求。云端訓練對 AI 算力的要求更為苛刻,因此寒武紀對思元 290 的 MLUv02 架構進行了多項擴展,包括業(yè)內領先的 MLU-Link?多芯互聯(lián)技術、高帶寬 HBM2 內存、高速片上總線 NOC 以及新一代 PCIe 4.0 接口。相比寒武紀思元 270 芯片,思元 290 芯片實現(xiàn)峰值算力提升 4 倍、內存帶寬提高 12 倍、芯片間通訊帶寬提高 19 倍。新架構結合 7nm 制程,思元 290 可提供更優(yōu)性能功耗比,以及多 MLU 系統(tǒng)的擴展能力。

  2.png

  MLU290 的 MLUv02 架構進行了多項擴展。

  寒武紀 MLU-Link? 多芯互聯(lián)技術

  近年來,AI 算法模型的復雜程度高速增長,對算力和訓練速度提出了更高的要求。為了構建更強大的計算平臺,多芯片間的互聯(lián)技術已成為市場剛需。

  寒武紀推出 MLU-Link?多芯互聯(lián)技術,并首次搭載于寒武紀思元 290 芯片,每顆思元 290 的多芯互聯(lián)總帶寬高達 600GB/s。MLU-Link?具備豐富的互聯(lián)特性,突破 PCIe 帶寬和互聯(lián)的瓶頸,相比思元 270 芯片通過 PCIe 并行的通訊方式,帶寬提高 19 倍。MLU-Link?多芯互聯(lián)技術支持多顆思元芯片無縫互聯(lián),支持跨系統(tǒng)互聯(lián),將縱向擴展能力整合到整個人工智能計算中心(AIDC),可以端到端加速大型 AI 模型訓練。

3.png

  思元 290 采用 MLU-Link?多芯互聯(lián)技術進行互聯(lián),帶寬、靈活性全面優(yōu)于 PCIe 3.0。

4.png

  思元 290 相較思元 270 并行通訊總帶寬提升 19 倍。

  寒武紀 vMLU 解決方案

  不同場景下的 AI 訓練對計算和存儲的要求千差萬別,如何提供更靈活也更穩(wěn)定的服務,但同時讓算力得到充分地利用,是 AIDC 面臨的持續(xù)挑戰(zhàn)。

  寒武紀虛擬化技術 vMLU,支持在思元 290 上實現(xiàn) 4 個相互隔離的 AI 計算實例,每個實例獨占計算、內存和編解碼資源。實例之間的硬件資源互不干擾,即使在虛擬化環(huán)境下仍可保持 90% 以上的極高效率,幫助客戶充分利用硬件資源。

微信圖片_20210121132644.gif

  思元 290 上實現(xiàn) 4 個相互隔離的 AI 計算實例。

  vMLU 還可以幫助思元 290 芯片提供最佳的靈活性。通過熱遷移技術,云管理員可將正在運行的 AI 負載及其應用程序移動到另外一臺主機上,從而平衡整個 AIDC 的負載,并實現(xiàn)更好的容災功能。

微信圖片_20210121132709.gif

  vMLU 熱遷移

  寒武紀首款訓練智能加速卡 MLU290-M5

  寒武紀 MLU290-M5 智能加速卡搭載了思元 290 智能芯片,采用開放加速模塊 OAM 設計,具備 64 個 MLU Core,1.23TB/s 內存帶寬以及全新 MLU-Link?多芯互聯(lián)技術,在 350w 的最大散熱功耗下提供 AI 算力高達 1024 TOPS(INT4)。

7.png

  寒武紀智能加速卡 MLU290-M5

8.png

  寒武紀智能加速卡 MLU290-M5 產(chǎn)品規(guī)格

  寒武紀首款智能加速器玄思 1000

  寒武紀首款智能加速器玄思 1000 包含 4 片思元 290 智能加速卡,最大 AI 算力超過 4100 萬億次每秒(4.1 PetaOPS INT4),一臺玄思 1000 計算單元就足以替代一個小型傳統(tǒng)超級計算中心。

  玄思 1000 內置高帶寬低延時的 MLU-Link?多芯互聯(lián)技術,實現(xiàn)內部 4 顆思元 290 進行高速互聯(lián),同時打破服務器、緊耦合微集群(POD)與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴展架構,將 AIDC 構建為節(jié)點、POD 乃至超大規(guī)?;旌蠑U展架構(Hybrid Scale-out),實現(xiàn) AI 算力計算中心級縱向擴展,滿足高性能、高擴展性、靈活性、高魯棒性的要求。

9.png

  玄思 1000 是 AI 算力的高集成度平臺,支持計算中心級縱向擴展。

  重塑 AIDC 基礎架構

  算力、算法、數(shù)據(jù)是人工智能發(fā)展的三大要素,隨著這幾年 AI 的逐步發(fā)展,算力的核心地位更為凸顯。人工智能技術落地于實際應用中需要芯片和硬件層面強大的算力支撐。算力已成為驅動 AI 產(chǎn)業(yè)化和產(chǎn)業(yè) AI 化發(fā)展的關鍵要素。

  下一代 AIDC 要求更多智能芯片無縫協(xié)同、并行運行的同時,還能保持高計算效率,從而提供超級巨大的算力,以應對超大規(guī)模訓練的需要。寒武紀玄思 1000 智能加速器重新思考了未來 AIDC 的基礎架構,在內部和外部采用統(tǒng)一的 MLU-Link?多芯互聯(lián)技術進行通訊,使得思元 290 智能芯片的互聯(lián)范圍可以從單機擴展到 POD 乃至整個計算中心,重塑了基礎架構。

10.png

  玄思 1000 支持 8 個 400G MLU-Link?和 2 個 200G 網(wǎng)絡接口,總帶寬高達 3600Gbps,是傳統(tǒng)異構服務器的 2 倍。

  玄思 1000 配置 8 個對外互聯(lián)的 MLU-Link?接口,支持跨系統(tǒng)互聯(lián)構建 MLU POD。標準配置支持 MLU POD 16、24、32。在 POD 內部,所有 290 芯片均可通過 MLU-Link?多芯互聯(lián)技術進行通訊,在帶寬和延時方面實現(xiàn)了突破;POD 外部通過玄思 1000 內置的網(wǎng)卡與其他系統(tǒng)進行通訊,實現(xiàn)了 AI 訓練集群性能、擴展性和魯棒性的協(xié)同提升。

11.png

  POD 內所有思元芯片通過 MLU-Link?全互聯(lián)。

  除了標準配置的 POD 之外,在計算中心條件允許的前提下,通過 MLU-Link?多芯互聯(lián)技術,可實現(xiàn) 1024 顆或更多思元 290 互聯(lián),不需要額外的網(wǎng)卡即可實現(xiàn)無縫加速。


  寒武紀 Neuware?訓練軟件棧

  寒武紀 Neuware?軟件棧為思元 290 芯片提供完善的軟件及應用生態(tài),支持業(yè)界主流的 TensorFlow 和 PyTorch 等深度學習框架,用戶不需要改變使用習慣,即可在思元 290 芯片上實現(xiàn)圖形圖像、語音、NLP、搜索推薦等多種應用的訓練和推理。其中,基于 Horovod 分布式訓練框架與 MLU-Link?多芯互聯(lián)技術相互配合,讓思元 290 在單機多卡、多機多卡的場景下達到業(yè)界領先的訓練加速比。寒武紀 Neuware?提供完善的開發(fā)工具包和社區(qū)支持,幫助用戶在思元 290 芯片進行方便、靈活的定制開發(fā)及部署工作。配合強大的 BANG 智能編程語言及配套調試工具,用戶可以為自定義的算法提供最佳性能調優(yōu)。

12.png

  寒武紀 Neuware?軟件棧為思元 290 芯片提供完善的軟件及應用生態(tài)。

  2021 年 1 月,IDC 發(fā)布了《2020-2021 中國人工智能計算力發(fā)展評估報告》,該報告預計,中國人工智能市場規(guī)模在 2020 年達到 62.7 億美元,2019-2024 年的復合增長率為 30.4%。IDC 的調研還發(fā)現(xiàn),超過九成的企業(yè)正在使用或者計劃在三年內使用人工智能,其中 74.5% 的企業(yè)期望在未來可以采取具備公用設施意義的人工智能基礎設施。

  隨著 AI 算法突飛猛進的發(fā)展,越來越多的模型訓練需要巨量的算力支撐才能快速有效地實施,算力是未來人工智能應用取得突破的決定性因素。

  值得強調的是,在巨量的人工智能市場中,云服務市場表現(xiàn)更為突出。早前,2020 年 7 月,IDC 發(fā)布的另一份報告顯示,2018 至 2024 年,中國 AI 云服務市場年復合增長率將達到 93.6%。而目前人工智能芯片仍處于成長期,未來三年,人工智能芯片市場將呈現(xiàn)多元化發(fā)展趨勢。

  寒武紀 290 產(chǎn)品線,有望在持續(xù)高速增長的人工智能市場尤其是云服務市場,搶占更多的市場份額,推動自身和 AI 行業(yè)的發(fā)展。據(jù)悉,寒武紀思元 290 芯片及加速卡已與部分硬件合作伙伴完成適配,并已實現(xiàn)規(guī)?;鲐?。

  寒武紀最初布局終端 IP 場景,連續(xù)迭代推出讓其聲名鵲起的寒武紀 1A、寒武紀 1H、寒武紀 1M 系列處理器,而后迅速布局云端智能芯片及加速卡系列產(chǎn)品思元 100 和思元 270,又于 2019 年推出基于思元 220 芯片的邊緣智能加速卡。由此建立起覆蓋云邊端、訓練、推理的完整產(chǎn)品矩陣,同時利用平臺級基礎系統(tǒng)軟件 Cambricon Neuware,連接全線產(chǎn)品,由點及面,實現(xiàn)了“訓推一體、端云融合”。寒武紀也成為目前國際上少數(shù)幾家全面系統(tǒng)掌握了通用型智能芯片及其基礎系統(tǒng)軟件研發(fā)和產(chǎn)品化核心技術的企業(yè)之一。

  


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。