Google的TPU芯片專門為云端AI應用設計,可謂是為云而生。而TPU的設計過程又越來越多的利用了云的優(yōu)勢,可謂是生于云中。TPU所帶來的創(chuàng)新,不僅僅是芯片架構,還反映在整個芯片研發(fā)的思路,方法,甚至是“文化”,而后者可能對整個產(chǎn)業(yè)都會帶來更為深遠的影響。
傳統(tǒng)的芯片公司做芯片,目標是規(guī)模量產(chǎn)和銷售,第一個風險就是芯片的規(guī)格不能滿足市場需求,做出來也沒用。有了規(guī)格之后,我們考慮的最多的就是成本(PPA和研發(fā)成本)和Time to Market,這讓我們在做trade-off的時候束手束腳。如果不用擔心難伺候的客戶,不用擔心規(guī)格不對,而成本和ToM也不是最重要的因素,我們是不是終于可以大展拳腳了呢?
我們在研發(fā)一款芯片的過程中,從架構設計到物理實現(xiàn),需要很多步驟,其中的很多工作,比如仿真驗證,需要大量的計算資源。而在現(xiàn)實中,計算資源總是有限的,我們要么Delay,要么放棄對驗證質量的追求。如果計算資源是“無限”的,我們還需要做這種無奈的取舍嗎?
當看到[1]中的如下文字,我一下就想到了上述兩個場景,進而非常理解Daniel Nenni所形容的在Google做芯片就像“小朋友進了糖果屋”的感覺。
“A friend of mine now works for Google designing chips. Can you imagine what it is like designing chips for a company that does not sell the chips (cost and delivery are not the driving factor) and has a massive cloud at their disposal? To put it bluntly my friend was like a kid in a candy store. He can now design a much better quality chip without having to worry about lengthy simulation and verification runs. To be clear, you can bet Google chip designers get silicon right the first time, absolutely.”
Google TPU我介紹的很多了,2017年Google公布了第一代TPU的架構,之后基本是每年更新一代,可以說迭代速度非常之快。大家看TPU的論文,都會感覺它的架構和設計似乎并不復雜,但我相信離開了Google,沒人能做到類似的成功。因為TPU的設計反映的是Google在Cloud/Data center軟硬件體系上的強大經(jīng)驗和實力,它放在Google Cloud上就是合適。我最近的文章討論了Tesla的FSD芯片,它的前提也是這個芯片就是自己用的,不用考慮別人的需求。在這種情況下,我們來對比評價它的架構設計就顯得沒什么意義了。Google不只做TPU,還有不少芯片項目。Apple早就把自研芯片作為最核心的研發(fā)了。其它能數(shù)得上的科技巨頭也無一例外的都在自研芯片,很多現(xiàn)在還不是巨頭的系統(tǒng)公司和應用公司也開始自研芯片。這個趨勢會給整個半導體行業(yè)帶來很多變化,商業(yè)模式,生態(tài)和產(chǎn)業(yè)鏈,技術趨勢,研發(fā)模式,設計方法,甚至是”文化“。
而芯片研發(fā)模式的變革就引出了本文的第二個問題:云上的芯片設計。還記得在17年我參加阿里云棲大會的一個討論,被問就是關于在云上用EDA工具做芯片的問題。應該說,當時這種模式不論是在技術上還是商業(yè)模式上都還在探索階段。到現(xiàn)在再回看,這個探索到實用的過程似乎并不太長。在今年的DAC(Design Automation Conference,EDA界的盛會)上,Google和eSilicion有個聯(lián)合talk,”Doing EDA in the Cloud ? Yes, it’s possible !“[2]?!盬e often hear that the EDA industry is not yet ready for the cloud, usually due to objections about the nature of cloud-native technologies. However, the cloud seems like the ideal place to run chip designs: flexible compute resources available on demand, nearly infinite storage, and a pricing structure that avoids costs for idle resources. “可惜我沒有看到具體的材料。
實際上,Google在去年DAC上就做了名為”Google: Moving EDA to the Cloud - a Google-on-Google story“報告(這個可以在網(wǎng)上找到)。當時就提到,在做TPU的過程中很自然的想到了利用云資源的優(yōu)勢。其實也不難理解,芯片設計中大量的時間是花在仿真驗證上的,而這些仿真驗證又很容易并行執(zhí)行。如果能在一段時間內提供大量運算資源,就可能大大減少總的驗證時間,或者在有限時間內做更充分的驗證。由于這種需求是突發(fā)性的,一般的芯片設計公司不可能自己建立這樣的能力來滿足短暫的峰值需求。但對Cloud來說,這就不算問題了。所以才說Google可以在需要的時候把”無限“的資源投到芯片設計,實現(xiàn)快速迭代(他們的原話是”敏捷開發(fā)“),同時更容易實現(xiàn)高質量驗證并保證一次投片成功。下圖是Google Could支持芯片驗證的架構,其中就明確提到了”Unlimited Simulations Running in Parallel“。
當然,Google這么做可以說非常自然,但對第三方芯片公司來說,要利用這樣的平臺,還需要考慮很多因素的,比如數(shù)據(jù)安全的問題。上述talk中也提到了這個話題,認為安全性本身就是云廠商重點關注的問題,它們在安全性上的投入比一般公司大得多,因此在云上的安全性比本地的安全性更高。芯片項目的數(shù)據(jù)和IP是芯片公司的最核心資產(chǎn),大家對安全性的關注當然很高。不過隨著這種模式越來越完善,相信這些障礙都是可以解決的,剩下的可能真是”文化“的問題了?!痹粕献鲂酒翱梢运闶切酒邪l(fā)模式的重要創(chuàng)新,沿著這個思路,也可以引出很多有趣的話題,有機會我們進一步討論吧。
最后,在Daniel的文章中,他提出了一個很有意思的問題,大家可以也思考一下。
“For new chip design companies the cloud is an easy decision. For the older fabless companies that have years and years of non-cloud culture and non-cloud infrastructure it is a very difficult change. The question I have is how are they going to compete with the natural born cloud chip designers?”