《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 業(yè)界動態(tài) > 阿里平頭哥首款AI芯片發(fā)布!46倍于英偉達P4,刷新全球推理性能最高紀錄

阿里平頭哥首款AI芯片發(fā)布!46倍于英偉達P4,刷新全球推理性能最高紀錄

2019-09-26
關鍵詞: AI芯片 阿里平頭哥

  阿里第一顆芯片誕生!

  剛剛,云棲大會現(xiàn)場,阿里巴巴集團CTO、達摩院院長張建鋒向全場展示了含光800——阿里第一款AI芯片。

640 (1).gif

  為了這款芯片,阿里一年前放下狠話,但誰也沒想到一年后即亮相:不僅完成流片,還已在阿里云上正式上線。

  這也是阿里平頭哥成立以來首款硬件產(chǎn)品,是阿里20年發(fā)展史上首款自主研發(fā)、流片量產(chǎn)的芯片。

  在芯片行業(yè)時代變革轉關之際,阿里好風憑借力、快速取得突破,掌握下一階段擂臺主動權,意義和價值,或許將遠超芯片本身。

  不過發(fā)布現(xiàn)場,張建鋒更想強調的是敬畏之心。

  他說:“在全球芯片領域,阿里巴巴是一個新人,玄鐵和含光800是平頭哥的萬里長征第一步,我們還有很長的路要走?!?/p>

  含光800究竟如何?

640.webp (29).jpg

  含光之名,依然沿襲平頭哥傳統(tǒng),取自神兵寶劍。

  “含光”本是上古三大神劍之一,含而不露,光而不耀,正如含光芯片作用方式——無形卻強勁的算力。

  具體來說,這是一款云端AI芯片,主打推理,重點應用于視覺場景。

  性能方面,打破現(xiàn)有AI芯片記錄,性能及能效比全球第一。

  芯片制程12nm,晶體管數(shù)量高達170億個。

640.webp (28).jpg

  在業(yè)界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍。

640.webp (30).jpg

  能效比500 IPS/W,是第二名的3.3倍。

  以數(shù)據(jù)橫向對比,含光800展現(xiàn)性能,是英偉達最新T415倍,是應用最廣的英偉達P4的46倍——超過去年設計之初吹下的“?!薄?/p>

  目前,含光800已經(jīng)率先在阿里內部多個業(yè)務場景開啟大規(guī)模應用。

  從視頻圖像識別、分類、搜索,到城市大腦等,未來還可應用于醫(yī)療影像、自動駕駛等領域。

  大會現(xiàn)場,張建鋒展示了這款芯片的強大性能。

  每天新增10億商品圖片的拍立淘商品庫,使用含光800識別效率可提升12倍,時間從傳統(tǒng)通用GPU的1小時縮減至5分鐘。

640.webp (26).jpg

  還有城市大腦。在城市大腦中實時處理杭州主城區(qū)交通視頻,需要40顆傳統(tǒng)GPU,延時為300ms,使用含光800僅需4顆,延時降至150ms。

640.webp (25).jpg

  阿里方面稱,含光800會首先在阿里內部場景業(yè)務服役,同時含光800的AI云服務也正式上線,通過阿里云對外提供AI算力,但不會直接以芯片的形式對外售賣。

640.webp (24).jpg

  此前,阿里平頭哥連戰(zhàn)連捷,過去兩個月已經(jīng)發(fā)布了無劍SoC平臺和玄鐵處理器IP,“讓天下沒有難造的芯片”,幫助企業(yè)降低芯片設計門檻。

  現(xiàn)在,作為首款硬件,也是最硬核產(chǎn)品,含光800依然承載平頭哥之志,希望通過阿里云AI云服務,讓企業(yè)隨時隨地可以享受高性能計算。

  而且也意味著阿里平頭哥成立一年來,走過了軟件架構(處理器IP、SoC平臺)到硬件流片的完整流程。

  這是阿里造芯,標志性的“交作業(yè)”時刻。

  阿里造芯這一年

  阿里布局AI芯片,最早曝光于2018年4月。

  其后9月云棲大會,阿里宣布成立平頭哥,并且先將“狠話”放下,正在打造一款NPU,架構設計上,性能成果就要比業(yè)內最好的AI處理器強大40倍。

  此言一出,語驚四座。

  然而一年之后的現(xiàn)在——成績單時刻——阿里平頭哥確實沒有食言。含光800,性能46倍于P4,甚至比最新一代英偉達T4,也有15倍領先。

640.webp (23).jpg

  雖然過程并非完全順風順水,但過去一年,“含光”團隊不僅完成了從無到有的跨越,更是超越了所有人的預期。

  整個過程中,含光800團隊在軟硬件設計上都做了大量工作,例如做架構創(chuàng)新,軟件編譯器、框架、工具鏈等,后期還針對INT8數(shù)據(jù)類型進行了大量優(yōu)化。

  含光800芯片負責人驕旸透露,這款芯片采用自研架構,針對深度學習中使用的大量權重參數(shù)和張量數(shù)據(jù),在支持稀疏壓縮與量化處理的基礎上,通過獨特設計的數(shù)據(jù)訪存與流水線處理技術,大大減低了I/O需求和數(shù)據(jù)的搬移。

  芯片同時深度優(yōu)化了卷積、矩陣乘、向量計算和各種激活函數(shù),通過高有效的硬件資源調度和全并行的數(shù)據(jù)流處理,把AI運算的性能和能效雙雙推向極致。

  另外,還集成了達摩院算法。針對CNN及視覺類算法深度優(yōu)化計算、存儲密度,可實現(xiàn)大網(wǎng)絡模型在一顆NPU上完成計算。

640.webp (22).jpg

  更難能可貴的是,平頭哥團隊攻克了一系列挑戰(zhàn)。

  例如如何兼顧性能、良率、功耗等。平頭哥在軟硬件上充分考慮了這些問題,用最短的時間完成了芯片的設計、流片整個過程,7個月完成前端設計,之后僅了3個月就成功流片。

  驕旸感慨,從傳統(tǒng)造芯角度來看,幾乎是一個不可能完成的任務。但最終,阿里AI芯片團隊,還是創(chuàng)下紀錄,完成挑戰(zhàn),把不可能變?yōu)榭赡堋?/p>

  這其中,自然有“007”們日日夜夜的苦功,不過也不容忽視乘風起勢的大趨勢作用。

  正所謂時來天地同協(xié)力,AI時代的專芯專用需求,阿里業(yè)務場景加持優(yōu)勢,都是不得不說的核心原因。

  NPU:芯片的iPhone時刻

  首先,AI時代的專芯專用需求。

  顧名思義,NPU——神經(jīng)網(wǎng)絡處理器就是專門處理深度神經(jīng)網(wǎng)絡算法的芯片,而深度神經(jīng)網(wǎng)絡算法,核心是模仿生物神經(jīng)網(wǎng)絡結構特點,并且最基本特征就是模仿大腦神經(jīng)元之間傳遞模式,并對輸入的信息進行快速處理。

  然而傳統(tǒng)通用處理器基于馮諾依曼結構,其存儲和運算處理相互分離,如果處理深度神經(jīng)網(wǎng)絡,需要大量讀寫運行操作,會受到帶寬限制,效率較低。

  因此以含光800為代表的神經(jīng)網(wǎng)絡芯片,根據(jù)神經(jīng)網(wǎng)絡推理運算特征,會設計特定的硬件神經(jīng)元、高速連接的存儲結構以及專用指令集,對內存和計算單元實現(xiàn)高效組織管理,實現(xiàn)單條指令完成多個操作,提高計算效率和內存訪問效率。

640.webp (20).jpg

  簡而言之,專芯專用,效率更高、成本更低,相應效益也會更好。

  而且另一方面,因為需求明確,應用場景有針對性,相比打造CPU和GPU,打造AI芯片的門檻要低很多。

  于是整個行業(yè)都在來到一個“iPhone時刻”——軟件重新定義硬件,場景需求重新定義芯片。

  然后過程中最好還能與應用的業(yè)務場景結合,不斷驗證、反饋,迭代,最后在達到目標效果后流片、完成物理實現(xiàn)。

  所以當今之勢,不僅AI造芯初創(chuàng)公司形成小高潮,而且互聯(lián)網(wǎng)巨頭也紛紛跨界變硬,啟動自主AI芯片打造。

  但想不想造、有沒有能力造,最后造的結果如何……完全是好幾個層次,完全是綜合實力的比拼。

  這也就是為什么,阿里的業(yè)務場景優(yōu)勢,會給平頭哥首款AI芯片帶來加速,也是阿里手握新時代芯片競爭“天命”的原因。

640.webp (19).jpg

  何以一年造出AI芯?

  實際上,雖然速度快、成果驚人,但阿里AI芯片并非完全“從0開始”。

  平頭哥創(chuàng)立一年,不過達摩院和阿里各大業(yè)務,已在AI算法和軟件方面積累很長時間。

  含光800團隊透露,基于阿里達摩院的算法以及阿里巴巴集團硬件基礎設施多年技術沉淀,是含光800重構芯片軟硬件技術棧的秘訣所在。

  由于AI芯片的差異化設計主要體現(xiàn)在硬件架構和軟件算法上,二者需要高度適配才能發(fā)揮芯片的最大價值。

  算法方面,阿里巴巴達摩院機器智能實驗室過去兩年構建了完整的算法體系,涵蓋語音智能、語言技術、機器視覺、決策智能等方向,并且取得多個世界領先水平的成果。

640.webp (18).jpg

  硬件方面,阿里巴巴此前已在服務器、FPGA以及存儲等領域擁有多年經(jīng)驗,平頭哥團隊也在體系結構、編譯技術等領域擁有深厚的技術儲備。

  基于這些能力,平頭哥完成了算法和硬件之間鴻溝的快速突破。在算法能力之上,自研芯片架構,并且設計了完整軟件棧。

  而且如此設計理念,效果也立竿見影。例如功耗是AI芯片行業(yè)通病,但平頭哥自研架構可大幅減少對內存的訪問,在保證極致性能的情況下,能把芯片功耗降到最低水平。

  另外,新入局也有新入局的優(yōu)勢。

  帶隊打造含光800的驕旸感慨,半導體巨頭搞AI芯片,會有既有開發(fā)者生態(tài)的包袱,但阿里平頭哥團隊目標專一,就是要實現(xiàn)最強算力,把硬件能力完全釋放,以構建更大的生態(tài)。

  過程中也無時不刻展現(xiàn)著阿里業(yè)務場景優(yōu)勢、以及組織凝聚力。

  而平頭哥在架構設計之初,業(yè)務場景同事就從需求和經(jīng)驗層面給出了全面反饋,直接幫助厘清了需求。

  然后算法加持和驗證迭代階段,達摩院和業(yè)務場景也不厭其煩幫助測試、反饋,提交迭代,共同完成了流片前的最后保障。

  所以雖然阿里造芯,專門成立了平頭哥半導體,但“含光800”從無到有,不光是一個人、一支團隊在戰(zhàn)斗。

  如果你問阿里AI造芯的優(yōu)勢究竟有哪些?

640.webp (17).jpg

  除了有“生死看淡不服就干”的決心,真金白銀的投入,業(yè)內全球資深人才的招攬……

  平頭哥首席科學家、阿里巴巴高級研究員元尊,會將具體優(yōu)勢歸結為“ABCDE”。

  A:Algorithm,算法,阿里本身的技術儲備和AI實力,在算法方面有世界領先的積累。

  B:Big Data,大數(shù)據(jù),龐大的生態(tài)場景和覆蓋方方面面的業(yè)務,在數(shù)據(jù)質和量方面都有優(yōu)勢。

  C:Computing,安全穩(wěn)定的計算力,阿里云的市場龍頭和領先地位,就已能說明一切。

  D:Domain knowledge,專業(yè)領域知識,阿里本身并非只是一家一業(yè)的公司,而是幾十家公司的集合體、經(jīng)濟體,有各種各樣的全面應用場景,對于各項最新技術和產(chǎn)品,有最天然的應用基礎。

  E:Ecosystem,生態(tài)。比起傳統(tǒng)芯片半導體公司,阿里生態(tài)涵蓋之廣泛、能力之多元和應用前景,都是綜合實力的體現(xiàn)。

  元尊認為,擁有“ABCDE”的阿里,比光有C的其他芯片公司,自然更容易更快速站上AI芯片C位。

  而且這種“ABCDE”,一方面幫助造芯,另一方面還幫助用芯。

640.webp (16).jpg

  阿里AI芯片商業(yè)模式

  在阿里內部,因為豐富的場景需求和業(yè)務體量,對高性能AI算力的需求已非一日。

  電商場景中,拍立淘等新興購物方式涉及的圖片搜索,需要AI芯片。

  還有文娛場景,優(yōu)酷視頻修復、分析,也需要AI實現(xiàn)。

  還有阿里正在大規(guī)模落地推進的城市大腦等,如各類車輛進行檢測、跟蹤、特征提取、屬性檢測等,也都離不開更強算力加持。

  未來,在醫(yī)療和自動駕駛等重要垂直領域,更是空間廣闊、商業(yè)前景潛力十足。

  單自主芯片自用,就已效益顯著。

  更何況阿里云的地位和實力,也能讓AI算力通過阿里云賦能更多領域、更多企業(yè)。

  所以此次含光800芯片選擇云服務的商業(yè)模式,也在情理之中。

  阿里方面,則更樂于強調首款AI芯片的商業(yè)模式背后,一以貫之的普惠性——平頭哥創(chuàng)辦的核心理念。

  今年早先推出的無劍SoC平臺和玄鐵處理器IP,都選擇了直接開放授權,幫助企業(yè)降低芯片設計門檻。

  而含光800的普惠性,則體現(xiàn)在通過阿里云AI云服務的形式,讓企業(yè)隨時隨地可以享受高性能計算服務。

640.webp (15).jpg

  平頭哥下一步

  在杭州云棲大會期間,也談到了阿里芯片的下一步。

  隨著含光800發(fā)布,平頭哥已集齊了全棧芯片家族:

  基礎單元處理器IP,C-Sky系列、玄鐵系列,為AIoT終端芯片提供高性價比IP;

  一站式芯片設計平臺,無劍SoC平臺集成CPU、GPU、NPU等,降低芯片設計門檻;

  AI芯片,含光800通過AI云服務為AI場景提供高性能算力。

  這三大產(chǎn)品系列,初步完成了平頭哥端云一體的芯片生態(tài)。

  而接下來,平頭哥產(chǎn)品形態(tài),重點將是云端AI訓練芯片、端上推理芯片,以及用于阿里云神龍服務器的SoC專用芯片,以滿足更多場景的算力需求。

  此外,平頭哥芯片初步軟硬件閉環(huán)實現(xiàn),阿里巴巴在芯片、云和AI三大業(yè)務之間的協(xié)同關系,也雛形初現(xiàn)。

  從時代趨勢而言,三者原本就是三位一體。

  AI算法逐漸集成到芯片,集成算法的專用芯片能為云服務提供了更強的性能,而云計算本身則加速了AI應用的大規(guī)模落地。

640.gif

  過去十年,阿里集中推進、展現(xiàn)成果的是AI和云計算。

  現(xiàn)在,平頭哥補齊芯片一環(huán),阿里在計算版圖中的鐵三角形成。

  不過中國科技互聯(lián)網(wǎng)巨頭,自然還有野心更大的宏偉藍圖——行業(yè)生態(tài)和開發(fā)者生態(tài)。

  此前,玄鐵910發(fā)布,阿里也明確解釋過,平頭哥目標就是打造AIoT時代的基礎設施平臺,延續(xù)從阿里巴巴B2B淘寶支付寶,到阿里云和菜鳥等延續(xù)承襲的阿里之道。

  在此次云棲大會,基于RISC-V架構的玄鐵處理器、以及無劍SoC平臺也有開發(fā)者案例——如人工智能獨角獸云天勵飛、老牌芯片商炬芯科技,以及可重構計算芯片領軍企業(yè)清微智能,都將現(xiàn)場亮相。

  當然,既然AI芯片是一次軟硬件一體化的完全重構,那么在軟件棧和模型框架方面,阿里必然也不會袖手旁觀。

  最明顯的信號,莫過于重磅引入的Caffe之父賈揚清。

640.webp (13).jpg

  One more thing:含光

  最后,阿里首款AI芯片,取名依然寓寄深遠。

  “含光”之名,來自《列子·湯問》,是上古名劍,也是商天子三劍之首。

  “視不可見,運之不知其所觸,泯然無際,經(jīng)物而物不覺?!?/p>

  這把劍隱隱發(fā)光,如光如影如風,快到看不見,無形、無處不在,無往不利。

  平頭哥團隊解釋說,這是含光800團隊內部投票的結果。

  既希望傳達該款NPU的能力,也展現(xiàn)平頭哥首款硬件初入芯片領域的心態(tài)——在英特爾和英偉達等巨頭面前,還是“年輕人”,造芯重器,心懷敬畏。

  不過,含光800面世,依然是阿里和平頭哥歷史性的重要一步。

  阿里剛剛度過了20周歲生日,這一個20年完成了“讓天下沒有難做的生意”。

  接下來20年,能實現(xiàn)“讓天下沒有難造的芯片”的大膽夢想嗎?

  不知道。

  眼下只知道含光初立,一劍光寒十四州,邁出萬里長征第一步。

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。