《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > 姚頌萬字長文:Hot Chips不容錯過,史上最大芯片&摩爾定律

姚頌萬字長文:Hot Chips不容錯過,史上最大芯片&摩爾定律

2019-09-02
關(guān)鍵詞: HotChips 芯片 摩爾定律

  2019 年 8 月 19 日到 21 日,第 31 屆 Hot Chips 大會在斯坦福大學(xué)成功舉辦。從 2016 年開始,這是我參加的第四屆 Hot Chips。在之前的三屆 Hot Chips,有兩次我作為演講者參與(2016 年與 2018 年),有一年作為展商參與(2017 年),這一次是第一次沒有任何任務(wù)來參加 Hot Chips,終于可以安心地聽取報告、進(jìn)行學(xué)習(xí)。

  而在之前 Hot Chips TPC meeting 剛結(jié)束時,已經(jīng)從幾位技術(shù)委員會的成員那里聽說今年的競爭異常激烈,Xilinx 的同事 Ralph Wittig 更是評論,這一屆 Hot Chips 的論文質(zhì)量是他覺得過去十年中最好的,讓人不由得對本次 Hot Chips 充滿期待。

16.webp.jpg

  本次大會確實(shí)是有非常多非常扎實(shí)的工作,也展現(xiàn)了整個處理器與高性能芯片領(lǐng)域行業(yè)的趨勢與變化。本系列文章將介紹我在 Hot Chips 大會上的幾點(diǎn)觀察與思考,涵蓋以下幾點(diǎn)內(nèi)容:

  Cerebras 其實(shí)是在幫大家追求心中的夢想,祝福,但也存在挑戰(zhàn);

  AI 仍是主角,但 AI 芯片設(shè)計已經(jīng)不是主角,從一個新穎的話題變?yōu)榱顺墒斓墓こ蹋?/p>

  異構(gòu)是大勢所趨,無論賽靈思還是英偉達(dá),都在持續(xù)前進(jìn);

  安全是一個越來越重要的話題;

  FPGA 在各種不同應(yīng)用中扮演著重要角色;

  集成電路工藝演進(jìn):未來越來越難,但一定會有突破。

  文章也將介紹一些 Hot Chips 會議上發(fā)生的趣事。未經(jīng)特別說明,圖片均來自于本人在 Hot Chips 拍攝的照片。

15.webp.jpg

  本文作者姚頌是賽靈思 AI 業(yè)務(wù)高級總監(jiān)、原深鑒科技聯(lián)合創(chuàng)始人

  No.1  Cerebras: 會議最大熱點(diǎn)

  本屆 Hot Chips 最大的亮點(diǎn),毫無疑問是 Cerebras 的 wafer-scale engine (WSE)。我們通常的芯片,一片 wafer 可以切出幾十到上萬片不等的芯片,而為了追求極致的性能、最大的片上存儲,Cerebras 選擇了一條極端的路線,讓整片 wafer 就是一片芯片。當(dāng) Cerebras 的聯(lián)合創(chuàng)始人 Sean Lie 拿出樣品實(shí)物的時候,會場里響起了掌聲,這也是本次大會唯一一次不是在報告開始與結(jié)束時候禮節(jié)性的掌聲。

14.webp.jpg13.webp.jpg

  WSE 芯片,由 12x7=84 個 die 組成,共有 40 萬個為深度學(xué)習(xí)優(yōu)化的計算核,片上存儲達(dá)到了驚人的 18GB,超過了很多電腦的內(nèi)存大小。這樣一顆芯片,在我眼里是有特殊的美感的:如同看到長城和金字塔,這樣在技術(shù)水平極其低下時,似乎人類無法實(shí)現(xiàn)的杰作;也如同看到了蒸汽朋克電影中的龐然大物,復(fù)古而雄偉;又如同最為精密和復(fù)雜的機(jī)械表,無數(shù)精巧的結(jié)構(gòu)讓人感嘆。這是在大的范式?jīng)]有改變的情況,當(dāng)前工程技術(shù)可以做到的極限了。

  Cerebras 的報告是極少數(shù)全篇沒有任何性能數(shù)字的報告,只有一句話 “It’s working”。這樣一篇論文能夠被 Hot Chips 錄用來進(jìn)行報告,足見其受到的關(guān)注和重視。而我個人有一個習(xí)慣,除了認(rèn)真聽別人說做了什么,更會去想他們沒說什么。而在這次,他們只說了 “It’s working”,而并沒有說 “It’s working well”,也許就是在暗示些什么。

  Cerebras 的 WSE 芯片仍然是有非常多待解決的問題的:

  (1) 這樣一片芯片,盡管做了很多的容錯設(shè)計,其良品率怎樣,仍然是一個疑問;

  (2) 傳說中 15kw 甚至 50kw 的功耗,怎樣去實(shí)現(xiàn)良好的散熱;

  (3) 整個芯片由 12x7 個 die 組成,die 之間的通信是與臺積電聯(lián)合研發(fā)的新型工藝,其效果如何;

  這樣許許多多的問題,都值得追問下去,而在報告現(xiàn)場,盡管 PPT 上有相關(guān)的頁來闡述是用怎樣的思路來解決,但是 Sean 基本上是一帶而過,沒有介紹任何細(xì)節(jié),這也不由得不讓人猜測,在這些地方,可能仍然存在著非常多的技術(shù)問題需要解決。

  對于我個人來說,我非常佩服 Cerebras 的 CEO Andrew Feldman 這樣一位有魄力、有遠(yuǎn)見的成功的連續(xù)創(chuàng)業(yè)者:他曾經(jīng)做過四個公司,都以上市或者并購成功退出。我也非常佩服包括 Sean Lie 在內(nèi)的 Cerebras 的工程師,勇于挑戰(zhàn)最極致的技術(shù)路線。任何一條技術(shù)路線走通都非常不容易,希望 Cerebras 能夠一個一個解決路上的技術(shù)難題,這不僅僅是 Cerebras 一家公司的事情,也是所有有技術(shù)信仰的芯片行業(yè)工程師與研究者的共同心聲 —— 大家沒有機(jī)會和財力去做這樣一件激動人心的事情,希望你們能做好!

  No.2  AI 芯片從火熱到理性

  Cerebras 是本次報告最大的亮點(diǎn),也是被大家關(guān)注最多的 “AI 芯片” 的代表。然而,實(shí)際上本次大會,AI 芯片的設(shè)計本身,已經(jīng)不是被大家關(guān)注的重點(diǎn)了 —— 更進(jìn)一步說,實(shí)際上從 2017 年到現(xiàn)在的兩年間,純數(shù)字電路的 AI 芯片的發(fā)展已經(jīng)幾乎停滯了,除了 sparsity 和 low-bit(比如 1bit 網(wǎng)絡(luò),或者 tenary 網(wǎng)絡(luò)),在 AI 芯片,很少聽到新的題材了。

12.webp.jpg

11.jpg

  本次大會特斯拉的報告,也充分體現(xiàn)了這一點(diǎn):許多人最開始對于特斯拉的報告 “Compute and redundancy solution for Tesla’s Full Self driving computer” 充滿期待,因為這是少有的可能能介紹完整自動駕駛系統(tǒng)設(shè)計的報告,而結(jié)果卻令人失望:整個報告花了 80% 的時間,在介紹底層架構(gòu)怎樣設(shè)計,卷積計算的流程如何,指令集如何設(shè)計,pooling 單元如何設(shè)計,而在介紹這些設(shè)計的時候,許多抬頭聽報告的人,都將視線轉(zhuǎn)向了筆記本電腦或者手機(jī)。另一個更直觀的體現(xiàn)是,在報告結(jié)束后的 Q&A 環(huán)節(jié),提問者的問題都在關(guān)注在自動駕駛系統(tǒng)中,兩片特斯拉自動駕駛芯片是如何配合的,如果真的發(fā)生了錯誤,是如何進(jìn)行糾錯的,而沒有人再去拘泥于底層架構(gòu)設(shè)計。

  此次 Hot Chips 仍然有不少 “AI 芯片” 的報告,阿里,華為,Cerebras,Habana(一家以色列不錯的創(chuàng)業(yè)公司),Tesla,nVidia,Xilinx,Intel,Princeton,然而,每一項工作都是在底層架構(gòu)設(shè)計之外,還有更大的亮點(diǎn):

  阿里實(shí)現(xiàn)的應(yīng)用是少見的 text-to-speech,從文本到聲音合成,而不是傳統(tǒng)的 CNN 和 LSTM 加速;華為的達(dá)芬奇芯片做了 logic die 與 HBM 的直接堆疊,而不是傳統(tǒng)高帶寬芯片的 2.5D interposer 的模式,Cerebras 芯片是最極端的 wafer-scale 芯片,Tesla 是帶有冗余設(shè)計的自動駕駛系統(tǒng),nVidia 是 NoC+NoP 的可擴(kuò)展架構(gòu),Xilinx 是全新的 Versal 芯片與擁有更多可編程性的 AI engine 一起,Princeton 的研究工作是用 SRAM 做 in-memory computing。

  此次 Hot Chips 大會的情況也充分說明,AI 芯片的技術(shù)噱頭時代已經(jīng)過去,越來越多的人在考慮,怎樣去改變當(dāng)前的范式,用更新的底層技術(shù)去實(shí)現(xiàn)更好的性能;是否能夠真的做出可量產(chǎn)的芯片,之后怎樣去和應(yīng)用更好的融合,實(shí)現(xiàn)一個整體好用的系統(tǒng)。在單純數(shù)字芯片模式下,單純新的體系結(jié)構(gòu)的創(chuàng)新,已經(jīng)無法帶來任何新的機(jī)會了 —— 我們必須進(jìn)一步向前看。

  No.3  異構(gòu)計算:大勢所趨

  異構(gòu)計算,Heterogeneous Computing, 不是一個新鮮的話題,然而真正出現(xiàn)大量使用的異構(gòu)計算平臺,卻是從近幾年的事情了。異構(gòu)最重要的涵義,是系統(tǒng)由多種不同功能的部分組成,讓每個部分做它最擅長的事情,而不是用統(tǒng)一的平臺來做所有的事情。

10.webp.jpg

  異構(gòu)計算的興起,與 AI 芯片的興起,本質(zhì)上都有一個核心原因,摩爾定律的放緩甚至結(jié)束(摩爾定律的話題也是一個稍有爭議的話題,在 Philip Wong 教授的 Keynote 中,他認(rèn)為摩爾定律 “well live”,這一點(diǎn)我們在下個部分中再討論)。

  在過去幾十年,芯片性能的增長,過半是由于制造工藝的進(jìn)步帶來的。在上圖 AMD CEO Lisa Su 的報告中,也可以看到對于 GPU,過去十年性能進(jìn)步最重要的因素,也還是制造工藝的進(jìn)步,占到了 40%。而隨著摩爾定律的放緩,由制造工藝帶來的進(jìn)步越來越小,我們必須更多地依賴微架構(gòu)(也即圖中占比 17% 的 Microarchitecture 部分)和系統(tǒng)層面的進(jìn)步來實(shí)現(xiàn)整體的進(jìn)步。而這其中,最直接的方式,就是設(shè)計 Domain-specific architecture(DSA),放棄一部分通用性,來獲得更大的性能提升。通常而言,越專用,通用性越差,越容易取得更好的性能。

9.webp.jpg

  也正因為此,我們看到了 GPU 在圖像渲染上碾壓 CPU,我們看到了在不同通用性層次支持深度學(xué)習(xí)的各類 DPU/NPU/NNP/MLU/DLA/VPU。比如,我們可以選擇支持各類機(jī)器學(xué)習(xí)算法、而不僅僅是深度學(xué)習(xí)的 MLU,也可以選擇只支持深度學(xué)習(xí)推理的 DPU,而如今又出現(xiàn)了不少專注在深度學(xué)習(xí)訓(xùn)練的專用芯片。

8.webp.jpg

  (在 2017 年 3 月 GTIC 會議報告的 PPT 截圖)

  2018 年 3 月份在智東西組織的 GTIC 大會上,我曾經(jīng)講過一個和 nVidia VP of BD,Jeff Herbst 的小故事。在 2017 年 Hot Chips 期間,我約著去拜訪了 Jeff,也一起吃了個晚餐。在聊到對于 AI 芯片未來產(chǎn)品時候,我說 “I bet that you will sell a chip with no GPU in two years”,我打賭英偉達(dá)會在兩年內(nèi)賣一顆沒有 GPU 的芯片。但是沒想到其實(shí)英偉達(dá)的新產(chǎn)品來得如此之快:在 2018 年 2 月的 CES,英偉達(dá) CEO 黃仁勛就公布了面向自動駕駛的 Drive Xavier 芯片,號稱 30T 算力,30W 功耗。但是當(dāng)我們認(rèn)真的看 PPT 上的數(shù)字時候會發(fā)現(xiàn),這 30T 算力,有 10TOPS INT8 來自于 DLA,有 20TOPS 來自于 Tensor Core,都不是傳統(tǒng)的 GPU。GPU 部分只有 512 個 CUDA core,只有 1.3 CUDA TFLOPS。也就是說,這個 GPU 的算力幾乎可以忽略不計,可能只是用來做大屏幕顯示的。在我和 Jeff 見面僅僅半年之后,遠(yuǎn)沒有到兩年,nVidia 就已經(jīng)開始推出幾乎沒有 GPU 的芯片了,而似乎許多人沒有注意到 —— 這也充分說明了軟件接口的重要性,當(dāng) nVidia 把所有的都做成兼容 CUDA,再加上上層的 Library 和各類 Framework 進(jìn)行封裝,大家已經(jīng)關(guān)注不到底層的改變了。


  (Hot Chips 31 現(xiàn)場 nVidia 的報告)

  在這次 Hot Chips 大會上介紹的 Turing GPU,雖然還掛著 GPU 的名字,其實(shí)也已經(jīng)是一顆異構(gòu)計算芯片,不僅僅是傳統(tǒng)那些 SIMD 單元,總共由 Turing SM, RT Core,與 Tensor Core 三個部分組成。報告人 John Burgess 介紹,傳統(tǒng)做光線追蹤,對于每一條光線,要反復(fù)花費(fèi)數(shù)千個時鐘周期,才能正確計算和物體的交界點(diǎn)在哪里,而一次渲染會有非常多條光線要計算,因此他們才想要設(shè)計 RT Core 來專門解決光線追蹤的問題。這就是典型的異構(gòu)與 DSA 解決問題的方式:為一個計算復(fù)雜的任務(wù)設(shè)計專用加速器,用異構(gòu)的系統(tǒng)來做整體的計算。

7.webp.jpg

 ?。℉ot Chips 31 現(xiàn)場 Xilinx 的報告)

  而異構(gòu)計算一個特別極致的案例就是 Xilinx 本次介紹的 Versal,Xilinx 的第一款 ACAP 產(chǎn)品。Versal 上同時有兩個 arm A72 核,兩個 arm R5 核,可編程邏輯也即 FPGA,還有 AI Engine 與 DSP Engine!這樣一顆芯片,可以將應(yīng)用做非常細(xì)致的拆分,AI 部分在 AI Engine 上,信號處理部分在 DSP Engine 上,主控和通用計算部分在兩個不同的 CPU,其他需要加速但不能很好利用 AI Engine 與 DSP Engine 的部分在中間的可編程邏輯上。這種感覺就很 “分而治之”,又很像經(jīng)濟(jì)學(xué)上的 “價格歧視”—— 同樣的產(chǎn)品,為不同購買力的人群分別制訂他們能接受的最高價格,整體獲得的收益會更大。在這里,我們是,同樣一顆芯片,但是為不同應(yīng)用分別劃出專用的一塊區(qū)域,去實(shí)現(xiàn)最好的性能。

  毫無疑問,越來越異構(gòu)化的芯片會是大勢所趨。但是,實(shí)際上,背后依然有非常多的問題,比如,系統(tǒng)與應(yīng)用層面的考慮,比如,軟件編程的問題。當(dāng) DSA 越來越專用,必須去考慮整個芯片是否合適于使用的應(yīng)用,必須有更多和行業(yè)結(jié)合的軟件,而不僅僅只是像原來一樣提供一個通用的平臺而已。而復(fù)雜異構(gòu)系統(tǒng)的編程開發(fā),在業(yè)界依舊是一個沒有完全解決好的問題。對于這樣一顆異構(gòu)芯片,我怎么去找到每個部分是否適合某個任務(wù),是手動地劃分任務(wù)、為不同部分單獨(dú)編程再拼到一起,還是統(tǒng)一的軟件界面去編程、之后自動映射?還有很多問題需要去解決。

  No.4  安全,是一個越來越重要的話題

  在 2018 年初,CPU 行業(yè)曝出了兩個巨大的安全漏洞,“Spectre” 和 “Meltdown”,其核心原因是因為為了追求更好的性能,CPU 做了很多的優(yōu)化工作,比如分支跳轉(zhuǎn)預(yù)測,和亂序執(zhí)行,而不是順序的一條一條執(zhí)行指令,執(zhí)行到了再去內(nèi)存里讀取數(shù)據(jù)。而近幾年也有一個很大的趨勢,就是原來僅僅用在支付等場景的 https 協(xié)議,開始被越來越多的使用,大部分主流網(wǎng)站,比如常用的百度,微博,等等,已經(jīng)全站都是 https 化了。哪怕我不是一個安全方面的專家,但是我也能感受到,各方面的因素,讓 “安全” 這兩個詞變得越來越重要:我們希望在云計算上運(yùn)行的任務(wù)是安全的,我們希望存儲在云端的數(shù)據(jù)是安全,我們希望與服務(wù)器的通信是安全的。

6.webp.jpg

  (Hot Chips 31 Tutorial 來自微軟 Azure 團(tuán)隊的報告)

5.webp.jpg

 ?。℉ot Chips 31 Tutorial 來自 AWS 團(tuán)隊的報告)

  在本次 Hot Chips 大會,我們明顯也看出了各家互聯(lián)網(wǎng)公司與芯片公司對于安全的重視,并且把加密變成了產(chǎn)品流程中的重要一環(huán)。如上兩圖,在微軟的 tutorial 中,微軟介紹了自己正在開發(fā)了 Corsica 芯片,將文件的壓縮解壓縮與加解密做到了一起。AWS 的 Nitro 項目中,也開發(fā)了自己的安全芯片。而在 Intel 的 Optane 項目中,加解密也已經(jīng)融合到了存儲一體。

  可以想象,未來的存儲一定是和加解密融合到一體的。我們也可以猜想,平頭哥是不是也會做阿里自己的安全芯片?

  No.5  兩個彩蛋

  在 Hot Chips 會場拍攝的兩張照片,總計將四位大咖拍攝進(jìn)去了,大家都認(rèn)出來了嗎?

4.webp.jpg

3.webp.jpg

  No.6  黃漢森報告回顧:摩爾定律沒有終結(jié)

  “在互聯(lián)網(wǎng)領(lǐng)域,阿里、騰訊像兩座大山橫貫在路上,利用其強(qiáng)大的資金、技術(shù)與產(chǎn)品能力、渠道、用戶等等優(yōu)勢阻擋住了無數(shù)的創(chuàng)業(yè)公司。許多成長起來的后起之秀,都是找到自己的途徑去規(guī)避巨頭的最強(qiáng)點(diǎn):京東自建物流,拼多多充分發(fā)掘下沉市場,今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領(lǐng)域,我們終于也有了類似的感受,但許多企業(yè)還做著想正面直接挑戰(zhàn)巨頭的計劃。而先進(jìn)工藝下芯片的制造成本,也成了創(chuàng)業(yè)公司很難邁過去的一道坎?!?/p>

  在 Hot Chips 31 大會觀察與思考系列文章的最后部分,我想結(jié)合 Philip Wong 老師的 Keynote,一起討論一下集成電路制造工藝演進(jìn)的問題,也想談一下我自己關(guān)于制造工藝對于 AI 芯片創(chuàng)業(yè)企業(yè)的影響。

  在去年 8 月,斯坦福大學(xué)著名教授 Philip Wong(黃漢森,以下簡稱黃教授)確認(rèn)加入臺積電,擔(dān)任研究副總裁,在業(yè)界傳為佳話,讓大家覺得又是一例產(chǎn)學(xué)研結(jié)合的典型案例。黃教授多年來在存儲領(lǐng)域有非常深的建樹,也在碳納米管器件領(lǐng)域有著深入的研究,他的加盟毫無疑問說明 TSMC 會在存儲方面更下功夫。

2.webp.jpg

  黃教授一上來便拋出了他最重要的主題,他說:

  “Moore’s law is not dead, is not slowing, is even not ill. It’s well alive!”

 ?。柖蓻]有終結(jié),也沒有放緩,更沒有生病。摩爾定律活得好好的?。?/p>

  在之后,他介紹了臺積電在工藝節(jié)點(diǎn)演進(jìn)上的路線圖與展望,并且闡述了三條他認(rèn)為可以繼續(xù)延續(xù)摩爾定律的技術(shù)路徑:

  1. 系統(tǒng)集成的方式,如用 interposer 的方式將 SoC 與 DRAM 可以集成在一起,如 SiP,如 Chiplet;

  2. 更進(jìn)一步存儲與計算的集成,比如直接將存儲與計算部分在垂直方向上進(jìn)行堆疊,采用更細(xì)致和極致的堆疊方案 N3XT;

  3. 新的底層材料和技術(shù),比如碳納米管。

  特別地,他強(qiáng)調(diào)了半導(dǎo)體技術(shù)的演進(jìn),總是被不斷變化的應(yīng)用需求所引領(lǐng)的,如上個世紀(jì) 80 年代到 2000 年的 PC / 互聯(lián)網(wǎng),到 21 世紀(jì)至今的移動互聯(lián)網(wǎng),在新的時代我們也會更多的去關(guān)注 AI 與 5G 的底層需求。

  No.7  制造工藝之于 AI 芯片

  黃老師有理有據(jù)地闡述了他的觀點(diǎn):摩爾定律很健康!然而俗話說 “屁股決定腦袋” ,他這樣說,我們就無從知道,有多少比例的原因是他正在臺積電擔(dān)任集團(tuán)研究副總裁。

1.webp.jpg

  如在 AMD CEO Lisa Su 的報告中,就已經(jīng)畫出來了工藝演進(jìn)的曲線,可以看到 10nm 與 7nm 工藝的發(fā)展速度已經(jīng)很大程度上偏離了原來的 projection。雖然系統(tǒng)級封裝,利用 Interposer 方式將 HBM 與計算部分集成到一起,大大提升了存儲帶寬,但是這并不是集成密度的提升。

  而芯片制造工藝對于行業(yè)影響最大的,并不只是放緩,其制造成本也有非常大的影響:對于晶圓廠和 Fabless 設(shè)計公司均是這樣。

  對于晶圓廠來說,7nm 等先進(jìn)工藝生產(chǎn)線動輒數(shù)十億美金的投資是一筆巨大的負(fù)擔(dān)。于是我們看到,在 2018 年 8 月,第二梯隊的晶圓廠聯(lián)電、Global Foundries 先后宣布放棄 7nm 工藝。在整個市場上,擁有最先進(jìn)生產(chǎn)工藝的代工廠,只剩下了臺積電、Intel 和三星。

  對于 Fabless 的芯片設(shè)計公司,問題同樣巨大。對于臺積電 28nm、16nm、7nm 的芯片來說,要完成一顆芯片的量產(chǎn),其 IP 購買、MPW、量產(chǎn)的成本在數(shù)百萬美金,千萬美金,億美金以上 —— 如果考慮人員成本、設(shè)備成本等等的,這個數(shù)字還會高上不少。這就導(dǎo)致只有出貨量極大、收入極高的幾家大廠能夠負(fù)擔(dān)得起最先進(jìn)工藝。比如大家耳熟能詳?shù)穆?lián)發(fā)科,如今也只能先使用著臺積電的 12nm,而不能像高通和海思一樣使用 7nm 工藝。

  先進(jìn)制造工藝的成本問題,對于 AI 芯片創(chuàng)業(yè)公司也有很大影響。一般的 AI 芯片創(chuàng)業(yè)公司,可能只能負(fù)擔(dān)得起 28nm 工藝,或者說最開始只敢用 28nm 工藝進(jìn)行嘗試。融資足夠多的 AI 創(chuàng)業(yè)企業(yè)才能嘗試得起 16nm 工藝的生產(chǎn)費(fèi)用。在全球數(shù)十家 AI 芯片創(chuàng)業(yè)公司當(dāng)中,我只聽說過有一家敢于去使用 7nm。

  如地平線在周五發(fā)布的征程二代芯片,就是使用的臺積電 28nm 工藝(雖然 28nm HPC + 是多次改進(jìn)的版本,不展開詳細(xì)介紹),這也是大部分嵌入式 / 終端 AI 芯片目前選擇的制造工藝;在 Hot Chips 上吸引了眾多眼球的 Cerebras 與 Habana,均采用的 16nm 工藝 —— 而這也是迫不得已,因為他們的應(yīng)用場景在云端,必須追求極限的高性能,所以必須使用能負(fù)擔(dān)得起的最好的工藝,也必須選擇 HBM 或者更加極端的存儲方案(如 Cerebras 使用的 Wafer-scale engine,采用 18GB SRAM,單片成本據(jù)說在 100 萬美金左右)。

  這就導(dǎo)致一個巨大的問題:CPU 與 GPU 的競爭中,CPU 并不能憑借制造工藝的優(yōu)勢,來彌補(bǔ)通用性帶來的性能不足,因為二者并無制造工藝上的代差,對于特定應(yīng)用,性能差距本來也很大;而大公司與 AI 芯片創(chuàng)業(yè)公司之間財力的差距,導(dǎo)致大公司的芯片可以選擇更先進(jìn)的制造工藝,而 AI 芯片創(chuàng)業(yè)公司卻只能負(fù)擔(dān)得起相對成熟的工藝。這樣的話,即便在體系結(jié)構(gòu)設(shè)計上,AI 芯片創(chuàng)業(yè)公司的芯片在特定任務(wù)上有數(shù)倍的優(yōu)勢,也可能被制造工藝的差別給抹平。大公司可以通過制造工藝的碾壓,獲得更好的性能,再通過其通用性和原有的渠道、用戶生態(tài)的優(yōu)勢,賣出更多的芯片來收回成本。

  在互聯(lián)網(wǎng)領(lǐng)域,阿里、騰訊像兩座大山橫貫在路上,利用其強(qiáng)大的資金、技術(shù)與產(chǎn)品能力、渠道、用戶等等優(yōu)勢阻擋住了無數(shù)的創(chuàng)業(yè)公司。許多成長起來的后起之秀,都是找到自己的途徑去規(guī)避巨頭的最強(qiáng)點(diǎn):京東自建物流,拼多多充分發(fā)掘下沉市場,今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領(lǐng)域,我們終于也有了類似的感受,但許多企業(yè)還做著想正面直接挑戰(zhàn)巨頭的計劃。而先進(jìn)工藝下芯片的制造成本,也成了創(chuàng)業(yè)公司很難邁過去的一道坎。

  沒有機(jī)會了嗎?也不是。發(fā)掘巨頭沒有覆蓋到,但是有潛力的新市場,也許機(jī)會正在打開,如拼多多一般;用新的底層技術(shù),如存內(nèi)計算,去獲得數(shù)量級的提升,而不是在原來傳統(tǒng)數(shù)字芯片上硬拼,就好像抖音用短視頻取代了長視頻與圖片文字的社區(qū);在具體的領(lǐng)域,去做整個系統(tǒng)與產(chǎn)品層面的優(yōu)化,而不只是做芯片,提供更好的服務(wù),就如昨晚在朋友圈刷屏的 ZAO,從 DeepFake 單個算法出發(fā),做成了細(xì)節(jié)考慮充分的完整應(yīng)用;利用好不同地區(qū)之間的政策與文化的差異性,就好像滴滴在中國擊敗了 Uber。

  誰能夠跨過這道門檻,真正和巨頭們掰一掰呢?我個人看好華為與阿里平頭哥。前者有足夠多的資源,也可以排在世界前幾的的研發(fā)實(shí)力與工程能力,軟硬件都非常強(qiáng),有機(jī)會在市場終于被做大之后進(jìn)場收割;后者,在有足夠多的資源和很強(qiáng)的技術(shù)能力外,還有明確的應(yīng)用以及長期的集團(tuán)戰(zhàn)略,也能在其看重的領(lǐng)域掀起波浪。而對于創(chuàng)業(yè)企業(yè),找到與巨頭的差異性,無論是細(xì)分市場、系統(tǒng)集成度、地區(qū)政策差異、還是底層技術(shù)變革,強(qiáng)化優(yōu)勢,再拿到足夠多的資源,我相信也希望能夠跑出幾家在各自領(lǐng)域擁有相當(dāng)?shù)匚坏墓尽?/p>

  劉慈欣在《流浪地球》里寫過一個著名的謎語:“你在平原上走著走著,突然迎面遇到一堵墻,這墻向上無限高,向下無限深,向左無限遠(yuǎn),向右無限遠(yuǎn),這墻是什么?”

  對于 AI 芯片創(chuàng)業(yè)企業(yè)來說,眼前這墻真的很大,但也不是無限大。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。