123,123,123

姚颂万字长文：Hot Chips不容错过，史上最大芯片&摩尔定律

日期： 2019-09-02

關(guān)鍵詞： HotChips 芯片摩尔定律

　　2019 年 8 月 19 日到 21 日，第 31 屆 Hot Chips 大會在斯坦福大學(xué)成功舉辦。從 2016 年開始，這是我參加的第四屆 Hot Chips。在之前的三屆 Hot Chips，有兩次我作為演講者參與（2016 年與 2018 年），有一年作為展商參與（2017 年），這一次是第一次沒有任何任務(wù)來參加 Hot Chips，終于可以安心地聽取報(bào)告、進(jìn)行學(xué)習(xí)。

　　而在之前 Hot Chips TPC meeting 剛結(jié)束時，已經(jīng)從幾位技術(shù)委員會的成員那里聽說今年的競爭異常激烈，Xilinx 的同事 Ralph Wittig 更是評論，這一屆 Hot Chips 的論文質(zhì)量是他覺得過去十年中最好的，讓人不由得對本次 Hot Chips 充滿期待。

16.webp.jpg

　　本次大會確實(shí)是有非常多非常扎實(shí)的工作，也展現(xiàn)了整個處理器與高性能芯片領(lǐng)域行業(yè)的趨勢與變化。本系列文章將介紹我在 Hot Chips 大會上的幾點(diǎn)觀察與思考，涵蓋以下幾點(diǎn)內(nèi)容：

　　Cerebras 其實(shí)是在幫大家追求心中的夢想，祝福，但也存在挑戰(zhàn)；

　　AI 仍是主角，但 AI 芯片設(shè)計(jì)已經(jīng)不是主角，從一個新穎的話題變?yōu)榱顺墒斓墓こ蹋?/p>

　　異構(gòu)是大勢所趨，無論賽靈思還是英偉達(dá)，都在持續(xù)前進(jìn)；

　　安全是一個越來越重要的話題；

　　FPGA 在各種不同應(yīng)用中扮演著重要角色；

　　集成電路工藝演進(jìn)：未來越來越難，但一定會有突破。

　　文章也將介紹一些 Hot Chips 會議上發(fā)生的趣事。未經(jīng)特別說明，圖片均來自于本人在 Hot Chips 拍攝的照片。

15.webp.jpg

　　本文作者姚頌是賽靈思 AI 業(yè)務(wù)高級總監(jiān)、原深鑒科技聯(lián)合創(chuàng)始人

　　No.1 Cerebras: 會議最大熱點(diǎn)

　　本屆 Hot Chips 最大的亮點(diǎn)，毫無疑問是 Cerebras 的 wafer-scale engine (WSE)。我們通常的芯片，一片 wafer 可以切出幾十到上萬片不等的芯片，而為了追求極致的性能、最大的片上存儲，Cerebras 選擇了一條極端的路線，讓整片 wafer 就是一片芯片。當(dāng) Cerebras 的聯(lián)合創(chuàng)始人 Sean Lie 拿出樣品實(shí)物的時候，會場里響起了掌聲，這也是本次大會唯一一次不是在報(bào)告開始與結(jié)束時候禮節(jié)性的掌聲。

14.webp.jpg 13.webp.jpg

　　WSE 芯片，由 12x7=84 個 die 組成，共有 40 萬個為深度學(xué)習(xí)優(yōu)化的計(jì)算核，片上存儲達(dá)到了驚人的 18GB，超過了很多電腦的內(nèi)存大小。這樣一顆芯片，在我眼里是有特殊的美感的：如同看到長城和金字塔，這樣在技術(shù)水平極其低下時，似乎人類無法實(shí)現(xiàn)的杰作；也如同看到了蒸汽朋克電影中的龐然大物，復(fù)古而雄偉；又如同最為精密和復(fù)雜的機(jī)械表，無數(shù)精巧的結(jié)構(gòu)讓人感嘆。這是在大的范式?jīng)]有改變的情況，當(dāng)前工程技術(shù)可以做到的極限了。

　　Cerebras 的報(bào)告是極少數(shù)全篇沒有任何性能數(shù)字的報(bào)告，只有一句話 “It’s working”。這樣一篇論文能夠被 Hot Chips 錄用來進(jìn)行報(bào)告，足見其受到的關(guān)注和重視。而我個人有一個習(xí)慣，除了認(rèn)真聽別人說做了什么，更會去想他們沒說什么。而在這次，他們只說了 “It’s working”，而并沒有說 “It’s working well”，也許就是在暗示些什么。

　　Cerebras 的 WSE 芯片仍然是有非常多待解決的問題的：

　　(1) 這樣一片芯片，盡管做了很多的容錯設(shè)計(jì)，其良品率怎樣，仍然是一個疑問；

　　(2) 傳說中 15kw 甚至 50kw 的功耗，怎樣去實(shí)現(xiàn)良好的散熱；

　　(3) 整個芯片由 12x7 個 die 組成，die 之間的通信是與臺積電聯(lián)合研發(fā)的新型工藝，其效果如何；

　　這樣許許多多的問題，都值得追問下去，而在報(bào)告現(xiàn)場，盡管 PPT 上有相關(guān)的頁來闡述是用怎樣的思路來解決，但是 Sean 基本上是一帶而過，沒有介紹任何細(xì)節(jié)，這也不由得不讓人猜測，在這些地方，可能仍然存在著非常多的技術(shù)問題需要解決。

　　對于我個人來說，我非常佩服 Cerebras 的 CEO Andrew Feldman 這樣一位有魄力、有遠(yuǎn)見的成功的連續(xù)創(chuàng)業(yè)者：他曾經(jīng)做過四個公司，都以上市或者并購成功退出。我也非常佩服包括 Sean Lie 在內(nèi)的 Cerebras 的工程師，勇于挑戰(zhàn)最極致的技術(shù)路線。任何一條技術(shù)路線走通都非常不容易，希望 Cerebras 能夠一個一個解決路上的技術(shù)難題，這不僅僅是 Cerebras 一家公司的事情，也是所有有技術(shù)信仰的芯片行業(yè)工程師與研究者的共同心聲 —— 大家沒有機(jī)會和財(cái)力去做這樣一件激動人心的事情，希望你們能做好！

　　No.2 AI 芯片從火熱到理性

　　Cerebras 是本次報(bào)告最大的亮點(diǎn)，也是被大家關(guān)注最多的 “AI 芯片” 的代表。然而，實(shí)際上本次大會，AI 芯片的設(shè)計(jì)本身，已經(jīng)不是被大家關(guān)注的重點(diǎn)了 —— 更進(jìn)一步說，實(shí)際上從 2017 年到現(xiàn)在的兩年間，純數(shù)字電路的 AI 芯片的發(fā)展已經(jīng)幾乎停滯了，除了 sparsity 和 low-bit（比如 1bit 網(wǎng)絡(luò)，或者 tenary 網(wǎng)絡(luò)），在 AI 芯片，很少聽到新的題材了。

12.webp.jpg

　　本次大會特斯拉的報(bào)告，也充分體現(xiàn)了這一點(diǎn)：許多人最開始對于特斯拉的報(bào)告 “Compute and redundancy solution for Tesla’s Full Self driving computer” 充滿期待，因?yàn)檫@是少有的可能能介紹完整自動駕駛系統(tǒng)設(shè)計(jì)的報(bào)告，而結(jié)果卻令人失望：整個報(bào)告花了 80% 的時間，在介紹底層架構(gòu)怎樣設(shè)計(jì)，卷積計(jì)算的流程如何，指令集如何設(shè)計(jì)，pooling 單元如何設(shè)計(jì)，而在介紹這些設(shè)計(jì)的時候，許多抬頭聽報(bào)告的人，都將視線轉(zhuǎn)向了筆記本電腦或者手機(jī)。另一個更直觀的體現(xiàn)是，在報(bào)告結(jié)束后的 Q&A 環(huán)節(jié)，提問者的問題都在關(guān)注在自動駕駛系統(tǒng)中，兩片特斯拉自動駕駛芯片是如何配合的，如果真的發(fā)生了錯誤，是如何進(jìn)行糾錯的，而沒有人再去拘泥于底層架構(gòu)設(shè)計(jì)。

　　此次 Hot Chips 仍然有不少 “AI 芯片” 的報(bào)告，阿里，華為，Cerebras，Habana（一家以色列不錯的創(chuàng)業(yè)公司），Tesla，nVidia，Xilinx，Intel，Princeton，然而，每一項(xiàng)工作都是在底層架構(gòu)設(shè)計(jì)之外，還有更大的亮點(diǎn)：

　　阿里實(shí)現(xiàn)的應(yīng)用是少見的 text-to-speech，從文本到聲音合成，而不是傳統(tǒng)的 CNN 和 LSTM 加速；華為的達(dá)芬奇芯片做了 logic die 與 HBM 的直接堆疊，而不是傳統(tǒng)高帶寬芯片的 2.5D interposer 的模式，Cerebras 芯片是最極端的 wafer-scale 芯片，Tesla 是帶有冗余設(shè)計(jì)的自動駕駛系統(tǒng)，nVidia 是 NoC+NoP 的可擴(kuò)展架構(gòu)，Xilinx 是全新的 Versal 芯片與擁有更多可編程性的 AI engine 一起，Princeton 的研究工作是用 SRAM 做 in-memory computing。

　　此次 Hot Chips 大會的情況也充分說明，AI 芯片的技術(shù)噱頭時代已經(jīng)過去，越來越多的人在考慮，怎樣去改變當(dāng)前的范式，用更新的底層技術(shù)去實(shí)現(xiàn)更好的性能；是否能夠真的做出可量產(chǎn)的芯片，之后怎樣去和應(yīng)用更好的融合，實(shí)現(xiàn)一個整體好用的系統(tǒng)。在單純數(shù)字芯片模式下，單純新的體系結(jié)構(gòu)的創(chuàng)新，已經(jīng)無法帶來任何新的機(jī)會了 —— 我們必須進(jìn)一步向前看。

　　No.3 異構(gòu)計(jì)算：大勢所趨

　　異構(gòu)計(jì)算，Heterogeneous Computing, 不是一個新鮮的話題，然而真正出現(xiàn)大量使用的異構(gòu)計(jì)算平臺，卻是從近幾年的事情了。異構(gòu)最重要的涵義，是系統(tǒng)由多種不同功能的部分組成，讓每個部分做它最擅長的事情，而不是用統(tǒng)一的平臺來做所有的事情。

10.webp.jpg

　　異構(gòu)計(jì)算的興起，與 AI 芯片的興起，本質(zhì)上都有一個核心原因，摩爾定律的放緩甚至結(jié)束（摩爾定律的話題也是一個稍有爭議的話題，在 Philip Wong 教授的 Keynote 中，他認(rèn)為摩爾定律 “well live”，這一點(diǎn)我們在下個部分中再討論）。

　　在過去幾十年，芯片性能的增長，過半是由于制造工藝的進(jìn)步帶來的。在上圖 AMD CEO Lisa Su 的報(bào)告中，也可以看到對于 GPU，過去十年性能進(jìn)步最重要的因素，也還是制造工藝的進(jìn)步，占到了 40%。而隨著摩爾定律的放緩，由制造工藝帶來的進(jìn)步越來越小，我們必須更多地依賴微架構(gòu)（也即圖中占比 17% 的 Microarchitecture 部分）和系統(tǒng)層面的進(jìn)步來實(shí)現(xiàn)整體的進(jìn)步。而這其中，最直接的方式，就是設(shè)計(jì) Domain-specific architecture（DSA），放棄一部分通用性，來獲得更大的性能提升。通常而言，越專用，通用性越差，越容易取得更好的性能。

9.webp.jpg

　　也正因?yàn)榇?，我們看到?GPU 在圖像渲染上碾壓 CPU，我們看到了在不同通用性層次支持深度學(xué)習(xí)的各類 DPU/NPU/NNP/MLU/DLA/VPU。比如，我們可以選擇支持各類機(jī)器學(xué)習(xí)算法、而不僅僅是深度學(xué)習(xí)的 MLU，也可以選擇只支持深度學(xué)習(xí)推理的 DPU，而如今又出現(xiàn)了不少專注在深度學(xué)習(xí)訓(xùn)練的專用芯片。

8.webp.jpg

　?。ㄔ?2017 年 3 月 GTIC 會議報(bào)告的 PPT 截圖）

　　2018 年 3 月份在智東西組織的 GTIC 大會上，我曾經(jīng)講過一個和 nVidia VP of BD，Jeff Herbst 的小故事。在 2017 年 Hot Chips 期間，我約著去拜訪了 Jeff，也一起吃了個晚餐。在聊到對于 AI 芯片未來產(chǎn)品時候，我說 “I bet that you will sell a chip with no GPU in two years”，我打賭英偉達(dá)會在兩年內(nèi)賣一顆沒有 GPU 的芯片。但是沒想到其實(shí)英偉達(dá)的新產(chǎn)品來得如此之快：在 2018 年 2 月的 CES，英偉達(dá) CEO 黃仁勛就公布了面向自動駕駛的 Drive Xavier 芯片，號稱 30T 算力，30W 功耗。但是當(dāng)我們認(rèn)真的看 PPT 上的數(shù)字時候會發(fā)現(xiàn)，這 30T 算力，有 10TOPS INT8 來自于 DLA，有 20TOPS 來自于 Tensor Core，都不是傳統(tǒng)的 GPU。GPU 部分只有 512 個 CUDA core，只有 1.3 CUDA TFLOPS。也就是說，這個 GPU 的算力幾乎可以忽略不計(jì)，可能只是用來做大屏幕顯示的。在我和 Jeff 見面僅僅半年之后，遠(yuǎn)沒有到兩年，nVidia 就已經(jīng)開始推出幾乎沒有 GPU 的芯片了，而似乎許多人沒有注意到 —— 這也充分說明了軟件接口的重要性，當(dāng) nVidia 把所有的都做成兼容 CUDA，再加上上層的 Library 和各類 Framework 進(jìn)行封裝，大家已經(jīng)關(guān)注不到底層的改變了。

　?。℉ot Chips 31 現(xiàn)場 nVidia 的報(bào)告）

　　在這次 Hot Chips 大會上介紹的 Turing GPU，雖然還掛著 GPU 的名字，其實(shí)也已經(jīng)是一顆異構(gòu)計(jì)算芯片，不僅僅是傳統(tǒng)那些 SIMD 單元，總共由 Turing SM, RT Core，與 Tensor Core 三個部分組成。報(bào)告人 John Burgess 介紹，傳統(tǒng)做光線追蹤，對于每一條光線，要反復(fù)花費(fèi)數(shù)千個時鐘周期，才能正確計(jì)算和物體的交界點(diǎn)在哪里，而一次渲染會有非常多條光線要計(jì)算，因此他們才想要設(shè)計(jì) RT Core 來專門解決光線追蹤的問題。這就是典型的異構(gòu)與 DSA 解決問題的方式：為一個計(jì)算復(fù)雜的任務(wù)設(shè)計(jì)專用加速器，用異構(gòu)的系統(tǒng)來做整體的計(jì)算。

7.webp.jpg

　　（Hot Chips 31 現(xiàn)場 Xilinx 的報(bào)告）

　　而異構(gòu)計(jì)算一個特別極致的案例就是 Xilinx 本次介紹的 Versal，Xilinx 的第一款 ACAP 產(chǎn)品。Versal 上同時有兩個 arm A72 核，兩個 arm R5 核，可編程邏輯也即 FPGA，還有 AI Engine 與 DSP Engine！這樣一顆芯片，可以將應(yīng)用做非常細(xì)致的拆分，AI 部分在 AI Engine 上，信號處理部分在 DSP Engine 上，主控和通用計(jì)算部分在兩個不同的 CPU，其他需要加速但不能很好利用 AI Engine 與 DSP Engine 的部分在中間的可編程邏輯上。這種感覺就很 “分而治之”，又很像經(jīng)濟(jì)學(xué)上的 “價(jià)格歧視”—— 同樣的產(chǎn)品，為不同購買力的人群分別制訂他們能接受的最高價(jià)格，整體獲得的收益會更大。在這里，我們是，同樣一顆芯片，但是為不同應(yīng)用分別劃出專用的一塊區(qū)域，去實(shí)現(xiàn)最好的性能。

　　毫無疑問，越來越異構(gòu)化的芯片會是大勢所趨。但是，實(shí)際上，背后依然有非常多的問題，比如，系統(tǒng)與應(yīng)用層面的考慮，比如，軟件編程的問題。當(dāng) DSA 越來越專用，必須去考慮整個芯片是否合適于使用的應(yīng)用，必須有更多和行業(yè)結(jié)合的軟件，而不僅僅只是像原來一樣提供一個通用的平臺而已。而復(fù)雜異構(gòu)系統(tǒng)的編程開發(fā)，在業(yè)界依舊是一個沒有完全解決好的問題。對于這樣一顆異構(gòu)芯片，我怎么去找到每個部分是否適合某個任務(wù)，是手動地劃分任務(wù)、為不同部分單獨(dú)編程再拼到一起，還是統(tǒng)一的軟件界面去編程、之后自動映射？還有很多問題需要去解決。

　　No.4 安全，是一個越來越重要的話題

　　在 2018 年初，CPU 行業(yè)曝出了兩個巨大的安全漏洞，“Spectre” 和 “Meltdown”，其核心原因是因?yàn)闉榱俗非蟾玫男阅?，CPU 做了很多的優(yōu)化工作，比如分支跳轉(zhuǎn)預(yù)測，和亂序執(zhí)行，而不是順序的一條一條執(zhí)行指令，執(zhí)行到了再去內(nèi)存里讀取數(shù)據(jù)。而近幾年也有一個很大的趨勢，就是原來僅僅用在支付等場景的 https 協(xié)議，開始被越來越多的使用，大部分主流網(wǎng)站，比如常用的百度，微博，等等，已經(jīng)全站都是 https 化了。哪怕我不是一個安全方面的專家，但是我也能感受到，各方面的因素，讓 “安全” 這兩個詞變得越來越重要：我們希望在云計(jì)算上運(yùn)行的任務(wù)是安全的，我們希望存儲在云端的數(shù)據(jù)是安全，我們希望與服務(wù)器的通信是安全的。

6.webp.jpg

　?。℉ot Chips 31 Tutorial 來自微軟 Azure 團(tuán)隊(duì)的報(bào)告）

5.webp.jpg

　?。℉ot Chips 31 Tutorial 來自 AWS 團(tuán)隊(duì)的報(bào)告）

　　在本次 Hot Chips 大會，我們明顯也看出了各家互聯(lián)網(wǎng)公司與芯片公司對于安全的重視，并且把加密變成了產(chǎn)品流程中的重要一環(huán)。如上兩圖，在微軟的 tutorial 中，微軟介紹了自己正在開發(fā)了 Corsica 芯片，將文件的壓縮解壓縮與加解密做到了一起。AWS 的 Nitro 項(xiàng)目中，也開發(fā)了自己的安全芯片。而在 Intel 的 Optane 項(xiàng)目中，加解密也已經(jīng)融合到了存儲一體。

　　可以想象，未來的存儲一定是和加解密融合到一體的。我們也可以猜想，平頭哥是不是也會做阿里自己的安全芯片？

　　No.5 兩個彩蛋

　　在 Hot Chips 會場拍攝的兩張照片，總計(jì)將四位大咖拍攝進(jìn)去了，大家都認(rèn)出來了嗎？

4.webp.jpg

3.webp.jpg

　　No.6 黃漢森報(bào)告回顧：摩爾定律沒有終結(jié)

　　“在互聯(lián)網(wǎng)領(lǐng)域，阿里、騰訊像兩座大山橫貫在路上，利用其強(qiáng)大的資金、技術(shù)與產(chǎn)品能力、渠道、用戶等等優(yōu)勢阻擋住了無數(shù)的創(chuàng)業(yè)公司。許多成長起來的后起之秀，都是找到自己的途徑去規(guī)避巨頭的最強(qiáng)點(diǎn)：京東自建物流，拼多多充分發(fā)掘下沉市場，今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領(lǐng)域，我們終于也有了類似的感受，但許多企業(yè)還做著想正面直接挑戰(zhàn)巨頭的計(jì)劃。而先進(jìn)工藝下芯片的制造成本，也成了創(chuàng)業(yè)公司很難邁過去的一道坎?！?/p>

　　在 Hot Chips 31 大會觀察與思考系列文章的最后部分，我想結(jié)合 Philip Wong 老師的 Keynote，一起討論一下集成電路制造工藝演進(jìn)的問題，也想談一下我自己關(guān)于制造工藝對于 AI 芯片創(chuàng)業(yè)企業(yè)的影響。

　　在去年 8 月，斯坦福大學(xué)著名教授 Philip Wong（黃漢森，以下簡稱黃教授）確認(rèn)加入臺積電，擔(dān)任研究副總裁，在業(yè)界傳為佳話，讓大家覺得又是一例產(chǎn)學(xué)研結(jié)合的典型案例。黃教授多年來在存儲領(lǐng)域有非常深的建樹，也在碳納米管器件領(lǐng)域有著深入的研究，他的加盟毫無疑問說明 TSMC 會在存儲方面更下功夫。

2.webp.jpg

　　黃教授一上來便拋出了他最重要的主題，他說:

　　“Moore’s law is not dead, is not slowing, is even not ill. It’s well alive!”

　　（摩爾定律沒有終結(jié)，也沒有放緩，更沒有生病。摩爾定律活得好好的?。?/p>

　　在之后，他介紹了臺積電在工藝節(jié)點(diǎn)演進(jìn)上的路線圖與展望，并且闡述了三條他認(rèn)為可以繼續(xù)延續(xù)摩爾定律的技術(shù)路徑：

　　1. 系統(tǒng)集成的方式，如用 interposer 的方式將 SoC 與 DRAM 可以集成在一起，如 SiP，如 Chiplet;

　　2. 更進(jìn)一步存儲與計(jì)算的集成，比如直接將存儲與計(jì)算部分在垂直方向上進(jìn)行堆疊，采用更細(xì)致和極致的堆疊方案 N3XT；

　　3. 新的底層材料和技術(shù)，比如碳納米管。

　　特別地，他強(qiáng)調(diào)了半導(dǎo)體技術(shù)的演進(jìn)，總是被不斷變化的應(yīng)用需求所引領(lǐng)的，如上個世紀(jì) 80 年代到 2000 年的 PC / 互聯(lián)網(wǎng)，到 21 世紀(jì)至今的移動互聯(lián)網(wǎng)，在新的時代我們也會更多的去關(guān)注 AI 與 5G 的底層需求。

　　No.7 制造工藝之于 AI 芯片

　　黃老師有理有據(jù)地闡述了他的觀點(diǎn)：摩爾定律很健康！然而俗話說 “屁股決定腦袋” ，他這樣說，我們就無從知道，有多少比例的原因是他正在臺積電擔(dān)任集團(tuán)研究副總裁。

1.webp.jpg

　　如在 AMD CEO Lisa Su 的報(bào)告中，就已經(jīng)畫出來了工藝演進(jìn)的曲線，可以看到 10nm 與 7nm 工藝的發(fā)展速度已經(jīng)很大程度上偏離了原來的 projection。雖然系統(tǒng)級封裝，利用 Interposer 方式將 HBM 與計(jì)算部分集成到一起，大大提升了存儲帶寬，但是這并不是集成密度的提升。

　　而芯片制造工藝對于行業(yè)影響最大的，并不只是放緩，其制造成本也有非常大的影響：對于晶圓廠和 Fabless 設(shè)計(jì)公司均是這樣。

　　對于晶圓廠來說，7nm 等先進(jìn)工藝生產(chǎn)線動輒數(shù)十億美金的投資是一筆巨大的負(fù)擔(dān)。于是我們看到，在 2018 年 8 月，第二梯隊(duì)的晶圓廠聯(lián)電、Global Foundries 先后宣布放棄 7nm 工藝。在整個市場上，擁有最先進(jìn)生產(chǎn)工藝的代工廠，只剩下了臺積電、Intel 和三星。

　　對于 Fabless 的芯片設(shè)計(jì)公司，問題同樣巨大。對于臺積電 28nm、16nm、7nm 的芯片來說，要完成一顆芯片的量產(chǎn)，其 IP 購買、MPW、量產(chǎn)的成本在數(shù)百萬美金，千萬美金，億美金以上 —— 如果考慮人員成本、設(shè)備成本等等的，這個數(shù)字還會高上不少。這就導(dǎo)致只有出貨量極大、收入極高的幾家大廠能夠負(fù)擔(dān)得起最先進(jìn)工藝。比如大家耳熟能詳?shù)穆?lián)發(fā)科，如今也只能先使用著臺積電的 12nm，而不能像高通和海思一樣使用 7nm 工藝。

　　先進(jìn)制造工藝的成本問題，對于 AI 芯片創(chuàng)業(yè)公司也有很大影響。一般的 AI 芯片創(chuàng)業(yè)公司，可能只能負(fù)擔(dān)得起 28nm 工藝，或者說最開始只敢用 28nm 工藝進(jìn)行嘗試。融資足夠多的 AI 創(chuàng)業(yè)企業(yè)才能嘗試得起 16nm 工藝的生產(chǎn)費(fèi)用。在全球數(shù)十家 AI 芯片創(chuàng)業(yè)公司當(dāng)中，我只聽說過有一家敢于去使用 7nm。

　　如地平線在周五發(fā)布的征程二代芯片，就是使用的臺積電 28nm 工藝（雖然 28nm HPC + 是多次改進(jìn)的版本，不展開詳細(xì)介紹），這也是大部分嵌入式 / 終端 AI 芯片目前選擇的制造工藝；在 Hot Chips 上吸引了眾多眼球的 Cerebras 與 Habana，均采用的 16nm 工藝 —— 而這也是迫不得已，因?yàn)樗麄兊膽?yīng)用場景在云端，必須追求極限的高性能，所以必須使用能負(fù)擔(dān)得起的最好的工藝，也必須選擇 HBM 或者更加極端的存儲方案（如 Cerebras 使用的 Wafer-scale engine，采用 18GB SRAM，單片成本據(jù)說在 100 萬美金左右）。

　　這就導(dǎo)致一個巨大的問題：CPU 與 GPU 的競爭中，CPU 并不能憑借制造工藝的優(yōu)勢，來彌補(bǔ)通用性帶來的性能不足，因?yàn)槎卟o制造工藝上的代差，對于特定應(yīng)用，性能差距本來也很大；而大公司與 AI 芯片創(chuàng)業(yè)公司之間財(cái)力的差距，導(dǎo)致大公司的芯片可以選擇更先進(jìn)的制造工藝，而 AI 芯片創(chuàng)業(yè)公司卻只能負(fù)擔(dān)得起相對成熟的工藝。這樣的話，即便在體系結(jié)構(gòu)設(shè)計(jì)上，AI 芯片創(chuàng)業(yè)公司的芯片在特定任務(wù)上有數(shù)倍的優(yōu)勢，也可能被制造工藝的差別給抹平。大公司可以通過制造工藝的碾壓，獲得更好的性能，再通過其通用性和原有的渠道、用戶生態(tài)的優(yōu)勢，賣出更多的芯片來收回成本。

　　在互聯(lián)網(wǎng)領(lǐng)域，阿里、騰訊像兩座大山橫貫在路上，利用其強(qiáng)大的資金、技術(shù)與產(chǎn)品能力、渠道、用戶等等優(yōu)勢阻擋住了無數(shù)的創(chuàng)業(yè)公司。許多成長起來的后起之秀，都是找到自己的途徑去規(guī)避巨頭的最強(qiáng)點(diǎn)：京東自建物流，拼多多充分發(fā)掘下沉市場，今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領(lǐng)域，我們終于也有了類似的感受，但許多企業(yè)還做著想正面直接挑戰(zhàn)巨頭的計(jì)劃。而先進(jìn)工藝下芯片的制造成本，也成了創(chuàng)業(yè)公司很難邁過去的一道坎。

　　沒有機(jī)會了嗎？也不是。發(fā)掘巨頭沒有覆蓋到，但是有潛力的新市場，也許機(jī)會正在打開，如拼多多一般；用新的底層技術(shù)，如存內(nèi)計(jì)算，去獲得數(shù)量級的提升，而不是在原來傳統(tǒng)數(shù)字芯片上硬拼，就好像抖音用短視頻取代了長視頻與圖片文字的社區(qū)；在具體的領(lǐng)域，去做整個系統(tǒng)與產(chǎn)品層面的優(yōu)化，而不只是做芯片，提供更好的服務(wù)，就如昨晚在朋友圈刷屏的 ZAO，從 DeepFake 單個算法出發(fā)，做成了細(xì)節(jié)考慮充分的完整應(yīng)用；利用好不同地區(qū)之間的政策與文化的差異性，就好像滴滴在中國擊敗了 Uber。

　　誰能夠跨過這道門檻，真正和巨頭們掰一掰呢？我個人看好華為與阿里平頭哥。前者有足夠多的資源，也可以排在世界前幾的的研發(fā)實(shí)力與工程能力，軟硬件都非常強(qiáng)，有機(jī)會在市場終于被做大之后進(jìn)場收割；后者，在有足夠多的資源和很強(qiáng)的技術(shù)能力外，還有明確的應(yīng)用以及長期的集團(tuán)戰(zhàn)略，也能在其看重的領(lǐng)域掀起波浪。而對于創(chuàng)業(yè)企業(yè)，找到與巨頭的差異性，無論是細(xì)分市場、系統(tǒng)集成度、地區(qū)政策差異、還是底層技術(shù)變革，強(qiáng)化優(yōu)勢，再拿到足夠多的資源，我相信也希望能夠跑出幾家在各自領(lǐng)域擁有相當(dāng)?shù)匚坏墓尽?/p>

　　劉慈欣在《流浪地球》里寫過一個著名的謎語：“你在平原上走著走著，突然迎面遇到一堵墻，這墻向上無限高，向下無限深，向左無限遠(yuǎn)，向右無限遠(yuǎn)，這墻是什么？”

　　對于 AI 芯片創(chuàng)業(yè)企業(yè)來說，眼前這墻真的很大，但也不是無限大。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

姚颂万字长文：Hot Chips不容错过，史上最大芯片&摩尔定律

日期： 2019-09-02

相關(guān)內(nèi)容