123,123,123

科技巨头加速入场算力战局，究竟是什么在推动「外行」自研芯片

日期： 2021-03-26

來(lái)源：机器之心

關(guān)鍵詞： 自研芯片字节跳动

　　上周，字節(jié)跳動(dòng)開(kāi)始自研云端 AI 芯片和 Arm 服務(wù)器芯片的消息引人關(guān)注。新興科技巨頭，是否已經(jīng)到了全面自研芯片的時(shí)代？背后最主要的原因又是什么？

　　據(jù)外國(guó)媒體報(bào)道，互聯(lián)網(wǎng)科技巨頭亞馬遜正開(kāi)始探索 RISC-V，以考慮替代 Arm 處理器的方案，因?yàn)楹笳哒诒挥ミ_(dá)收購(gòu)。

　　此前，亞馬遜已經(jīng)擁有了自己專屬的 AWS 數(shù)據(jù)中心芯片、人工智能芯片以及各類移動(dòng)智能設(shè)備上的 Arm 芯片。

　　像亞馬遜一樣，國(guó)內(nèi)外很多此前只涉及軟件和互聯(lián)網(wǎng)的科技巨頭都擁有了自主研發(fā)的芯片，并且取得了經(jīng)市場(chǎng)驗(yàn)證的良好效果。

　　谷歌的 TPU 和自身的 TensorFlow、算力平臺(tái)共同組成了全世界最好的人工智能技術(shù)生態(tài)；亞馬遜的 Inferentia 集群比英偉達(dá) T4 降低了 25% 延遲和 30% 成本。

　　其他互聯(lián)網(wǎng)巨頭也正在加速入場(chǎng)，微軟去年12月份表示正在研發(fā)Arm芯片；字節(jié)跳動(dòng)近期也開(kāi)始芯片人才的招聘，探索Arm芯片。字節(jié)跳動(dòng)的相關(guān)負(fù)責(zé)人回應(yīng)媒體詢問(wèn)時(shí)證實(shí)，「是在組建相關(guān)團(tuán)隊(duì)，在AI芯片領(lǐng)域做一些探索?！?/p>

微信圖片_20210326171004.jpg

　　字節(jié)跳動(dòng)官網(wǎng)上芯片工程師的招聘信息。

　　在外界看來(lái)，互聯(lián)網(wǎng)巨頭自研芯片已經(jīng)成為必然，這勢(shì)必會(huì)對(duì)原本以芯片為主業(yè)的半導(dǎo)體巨頭和芯片創(chuàng)業(yè)公司產(chǎn)生較大影響。

　　在這個(gè)過(guò)程中，需要搞明白一個(gè)最核心的問(wèn)題——互聯(lián)網(wǎng)巨頭為什么要自己造芯片，以及在何種情況下才會(huì)選擇自研芯片。

　　業(yè)務(wù)邊界的持續(xù)擴(kuò)展，數(shù)據(jù)量的激增，人工智能技術(shù)的發(fā)展，讓互聯(lián)網(wǎng)巨頭對(duì)芯片的需求持續(xù)增加。

　　同時(shí)，外部的芯片設(shè)計(jì)工具和 IP 服務(wù)也逐漸變強(qiáng)，芯片產(chǎn)業(yè)鏈的完善為巨頭自主做芯片提供了成熟的產(chǎn)業(yè)基礎(chǔ)。博通每年都會(huì)給客戶提供大量定制芯片；蘋(píng)果引人關(guān)注的 M1 背后，其實(shí)也有很多其他公司的身影。這種產(chǎn)業(yè)鏈協(xié)同和合作幫助互聯(lián)網(wǎng)巨頭降低了研發(fā)芯片的門(mén)檻。

　　對(duì)計(jì)算需求的增加和制造門(mén)檻的降低只是提供了一個(gè)必要背景，在應(yīng)用層面上，同一個(gè)任務(wù)會(huì)有無(wú)數(shù)種硬件解決方案，互聯(lián)網(wǎng)巨頭們的工作就是選擇哪種硬件方案以及是否需要自己做，自研芯片只是眾多選擇中的一項(xiàng)。他們真正關(guān)心的是最具性價(jià)比的解決計(jì)算任務(wù)，而非必須要有自己的芯片。

　　而決策的唯一依據(jù)就是不同方案的成本與收益對(duì)比，也就是找到 ROI 最大的方案。

　　自主研發(fā)芯片有著非常高的整體研發(fā)成本，包括購(gòu)買(mǎi) IP、人員成本、實(shí)驗(yàn)和流片等。互聯(lián)網(wǎng)巨頭們大部分的成功經(jīng)驗(yàn)都集中在軟件和互聯(lián)網(wǎng)領(lǐng)域，他們進(jìn)入芯片領(lǐng)域也是從零開(kāi)始，沒(méi)有太多可以節(jié)省的成本。

　　灣區(qū)一位芯片專家介紹說(shuō)，谷歌開(kāi)始做芯片時(shí)，從博通挖了很多 ASCI 業(yè)務(wù)的人，從上到下組建一個(gè)全新領(lǐng)域的專業(yè)團(tuán)隊(duì)和運(yùn)營(yíng)體系，而這種體系與公司此前所擅長(zhǎng)的是完全不同的，這又帶來(lái)在企業(yè)文化和管理上的額外成本和風(fēng)險(xiǎn)。

　　自主研發(fā)芯片的高投入決定了它只適用于可以帶來(lái)更高收益的應(yīng)用場(chǎng)景——芯片能和公司自身業(yè)務(wù)系統(tǒng)、網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練框架等緊密結(jié)合，實(shí)現(xiàn)計(jì)算成本的顯著下降，產(chǎn)品性能和和用戶體驗(yàn)的顯著增長(zhǎng)。

　　只有這樣，自研芯片才能獲得最高的 ROI，企業(yè)選擇自研方案才有意義。下面以 Arm 芯片、訓(xùn)練芯片、Codec 和 Smart NIC 等四種芯片為例。

　　眾所周知，摩爾定律的速度已經(jīng)開(kāi)始變緩，數(shù)據(jù)中心同構(gòu)體系下基于 x86 的硬件成本沒(méi)辦法繼續(xù)下降。想要實(shí)現(xiàn)計(jì)算成本的下降，只能將負(fù)載拆分，然后用不同架構(gòu)和處理器來(lái)分別處理，很多負(fù)載又是和企業(yè)自身網(wǎng)絡(luò)結(jié)構(gòu)強(qiáng)相關(guān)的，那企業(yè)就需要針對(duì)這些任務(wù)去定制芯片，在這種情況下，企業(yè)自主研發(fā) Arm 芯片就是有助于節(jié)省成本的。

　　除了與網(wǎng)絡(luò)結(jié)構(gòu)強(qiáng)相關(guān)，與訓(xùn)練框架強(qiáng)相關(guān)也會(huì)促使公司自主研發(fā)芯片。比如有 TensorFlow 的谷歌就一定要去做 TPU，因?yàn)楣雀枋峭ㄟ^(guò)公有云為用戶提供算力租賃和模型訓(xùn)練服務(wù)，而一個(gè)模型在其平臺(tái)訓(xùn)練完成所需要的時(shí)間和費(fèi)用是用戶決定是否使用該平臺(tái)的最主要因素。谷歌 TPU 與 TensorFlow、云計(jì)算的強(qiáng)協(xié)同，會(huì)帶來(lái)遠(yuǎn)超通用訓(xùn)練工具的效果，以及更低的成本。

　　在去年的 MLPerf 基準(zhǔn)測(cè)試結(jié)果中，谷歌的 TPU 集群打破了 8 項(xiàng)測(cè)試紀(jì)錄中的 6 項(xiàng)。在 4096 塊 TPU 的加持下，谷歌的超級(jí)計(jì)算機(jī)可以在 33 秒內(nèi)訓(xùn)練 ResNet-50、BERT、Transformer、SSD 等模型。在使用 TensorFlow 框架時(shí)，BERT 的訓(xùn)練時(shí)間縮短到 23 秒。

微信圖片_20210326171236.jpg

　　在一個(gè)圖像分類任務(wù)中，用 ImageNet 數(shù)據(jù)集訓(xùn)練 ResNet-50 v1.5 達(dá)到 75.90% 的準(zhǔn)確率，256 個(gè)第四代 TPUs 可以在 1.82 分鐘內(nèi)完成，這幾乎相當(dāng)于 768 個(gè)英偉達(dá) A100 顯卡和 192 個(gè) AMD Epyc 7742 CPU 內(nèi)核（1.06 分鐘）的速度。

　　單從芯片架構(gòu)上來(lái)說(shuō)，TPU 和 GPU 不會(huì)產(chǎn)生如此大差異。谷歌 TPU 集群比 A100 快這么多的原因是，用于訓(xùn)練的芯片與公司自身的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練框架強(qiáng)相關(guān)，TPU 不僅支持自身的網(wǎng)絡(luò)結(jié)構(gòu)，還向上支持自己的訓(xùn)練框架，谷歌知道 TensorFlow 如何去做加速，所以效果肯定會(huì)優(yōu)于通用的 GPU。那最后帶來(lái)的結(jié)果就是，用戶在谷歌的平臺(tái)上獲得了更高性價(jià)比的服務(wù)，谷歌更好的建立人工智能技術(shù)生態(tài)。所以，谷歌自主研發(fā) TPU 就是有意義的。

　　華為也是此類情況，他們擁有升騰 910、MindSpore 和云計(jì)算，因此，華為的人工智能技術(shù)平臺(tái)就擁有了競(jìng)爭(zhēng)力。徐直軍曾表示，昇騰 910、MindSpore 的推出，標(biāo)志著華為已完成全棧全場(chǎng)景AI解決方案（Portfolio）的構(gòu)建，也標(biāo)志著華為 AI 戰(zhàn)略的執(zhí)行進(jìn)入了新的階段。

　　對(duì)于其他類型的定制芯片也是如此，比如 Facebook 做自己的 Codec，這是因?yàn)樵?Facebook 自身的業(yè)務(wù)和軟件體系下，上行下行的編解碼處理非常重要。比起使用通用 CPU ，F(xiàn)acebook 選擇自己開(kāi)發(fā) Codec 就更劃算。

　　還有智能網(wǎng)卡 Smart NIC，幾乎所有的互聯(lián)網(wǎng)巨頭都會(huì)自主研發(fā)，尤其是提供公有云服務(wù)的企業(yè)。因?yàn)楣性粕婕褒嫶蟮木W(wǎng)絡(luò)結(jié)構(gòu)，企業(yè)需要去匹配負(fù)載和網(wǎng)卡，所以每家企業(yè)對(duì) Smart NIC 的需求都是個(gè)性化的，不具有通用性，需要定制化，這也是英偉達(dá)的 DPU 在市場(chǎng)中表現(xiàn)并不好的原因。

　　還有一個(gè)重要因素是互聯(lián)網(wǎng)巨頭都具有規(guī)模效應(yīng)，他們擁有最龐大的機(jī)房，為數(shù)以千萬(wàn)計(jì)的用戶提供服務(wù)，只要性能有微小提升，或者價(jià)格有微小下降，就會(huì)為用戶帶來(lái)巨大價(jià)值。

　　總結(jié)來(lái)說(shuō)，對(duì)于互聯(lián)網(wǎng)巨頭，如果芯片的應(yīng)用場(chǎng)景和自身業(yè)務(wù)及軟件強(qiáng)相關(guān)，自身對(duì)此有個(gè)性化需求，最終能通過(guò)規(guī)模效應(yīng)最大化收益，那他們就會(huì)選擇自主研發(fā)。

　　在其他場(chǎng)景下，當(dāng)巨頭的芯片需求不是個(gè)性化的，所需芯片和自身業(yè)務(wù)、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和軟件體系沒(méi)有強(qiáng)相關(guān)性，或者說(shuō)他們需要的是通用芯片時(shí)，那巨頭們就無(wú)法通過(guò)定制來(lái)降低成本，也就沒(méi)有必要為了一個(gè)非定制需求去承擔(dān)通用芯片的全部研發(fā)成本。

　　更加合理的方式應(yīng)該是向其他半導(dǎo)體公司購(gòu)買(mǎi)，或者戰(zhàn)略投資芯片創(chuàng)業(yè)公司進(jìn)行布局，以與其他客戶或投資機(jī)構(gòu)共同分?jǐn)傃邪l(fā)成本。x86 CPU 和推理芯片就是屬于這個(gè)范疇。

　　很多公司是沒(méi)辦法通過(guò)優(yōu)化自身的拓?fù)浣Y(jié)構(gòu)和軟件體系來(lái)實(shí)現(xiàn) x86 CPU 性價(jià)比的大幅提升的，所以最佳選擇就是直接向英特爾購(gòu)買(mǎi)。

　　推理芯片也是如此，它在人工智能領(lǐng)域的通用性很強(qiáng)，需要根據(jù)算法來(lái)進(jìn)行調(diào)整和演進(jìn)，需要較好的可編程性，那這類芯片就和巨頭自身的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和訓(xùn)練框架并沒(méi)有那么直接的關(guān)系，大企業(yè)也就無(wú)法通過(guò)深度定制和自主研發(fā)大幅降低成本或提升性能，最好的選擇也是購(gòu)買(mǎi)及投資。

　　亞馬遜在自主研發(fā)與業(yè)務(wù)相關(guān)芯片的同時(shí)，也投資了通用人工智能芯片初創(chuàng)公司 Syntiant。字節(jié)跳動(dòng)一方面探索自主研發(fā) Arm 芯片，另一方面，他們投資的一家芯片公司的主要產(chǎn)品也是云端推理芯片。

　　微信圖片_20210326171349.jpg

　　Syntiant 的深度學(xué)習(xí)處理器

　　互聯(lián)網(wǎng)巨頭不同的芯片策略和行動(dòng)為他們實(shí)現(xiàn)了最大化收益，同時(shí)也使得他們?cè)诎雽?dǎo)體領(lǐng)域的角色開(kāi)始變得多樣。

　　他們是最大的芯片客戶，有著最豐富的計(jì)算場(chǎng)景和異常龐大的業(yè)務(wù)負(fù)載，每年為幾家大型半導(dǎo)體公司和新興芯片創(chuàng)業(yè)公司帶來(lái)海量訂單；同時(shí)，他們已經(jīng)開(kāi)始定制芯片或自主研發(fā)芯片，在某種程度上成為這些半導(dǎo)體大公司和創(chuàng)業(yè)公司的潛在競(jìng)爭(zhēng)對(duì)手，或者給他們帶來(lái)產(chǎn)品替代風(fēng)險(xiǎn)；最后，他們還是資本巨頭，可以借助資本杠桿，通過(guò)投資和并購(gòu)來(lái)完善自己的技術(shù)生態(tài)。

　　這些讓互聯(lián)網(wǎng)巨頭、半導(dǎo)體巨頭和芯片創(chuàng)業(yè)公司之間的關(guān)系微妙且復(fù)雜，從而也讓市場(chǎng)格局和產(chǎn)業(yè)發(fā)展趨勢(shì)也更加不明確。

　　但如果我們對(duì)以上互聯(lián)網(wǎng)巨頭已有策略、行為和結(jié)果進(jìn)行分析，那就很容易發(fā)現(xiàn)他們自己在市場(chǎng)中的定位，在一定程度上就可以避免和他們直接競(jìng)爭(zhēng)，同時(shí)還可以圍繞著他們的需求發(fā)現(xiàn)更多機(jī)會(huì)。

　　比如，根據(jù)谷歌的行動(dòng)，我們就可以判斷訓(xùn)練芯片可能就更加適合已經(jīng)有成熟訓(xùn)練框架和算力的巨頭去做，谷歌已經(jīng)證明了，通過(guò)芯片、訓(xùn)練框架和算力的強(qiáng)綁定可以獲得比 GPU 更好的效果。

　　如果創(chuàng)業(yè)公司只做一個(gè)訓(xùn)練芯片，沒(méi)有自己的訓(xùn)練框架，也無(wú)法與不同客戶的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和軟件系統(tǒng)產(chǎn)生強(qiáng)耦合關(guān)系，那是很難與英偉達(dá)去競(jìng)爭(zhēng)的，同時(shí)也面臨谷歌的競(jìng)爭(zhēng)。

　　而以推理芯片為代表的人工智能通用芯片就會(huì)存在更大機(jī)會(huì)，它是獨(dú)立的，考慮的是可編程性和靈活性，與客戶的網(wǎng)絡(luò)及軟件沒(méi)有強(qiáng)相關(guān)性。

　　互聯(lián)網(wǎng)巨頭對(duì)此沒(méi)有定制化開(kāi)發(fā)的需求，反而因?yàn)樽陨淼男枨蠹俺杀臼找娴目紤]，會(huì)更傾向于戰(zhàn)略投資這個(gè)方向的創(chuàng)業(yè)公司，或直接購(gòu)買(mǎi)這類芯片。

　　同時(shí)，一個(gè)領(lǐng)域?qū)Ｓ玫耐评硇酒彩强梢栽谛詢r(jià)比方面超過(guò) GPU 的。GPU 的應(yīng)用領(lǐng)域較廣，包括 Graph、人工智能和高性能計(jì)算等，人工智能又包含推理和訓(xùn)練。GPU 巨頭很難去選一個(gè)細(xì)分領(lǐng)域，為一個(gè)小市場(chǎng)去重新設(shè)計(jì)一套架構(gòu)，他們依然是以一個(gè)市場(chǎng)領(lǐng)導(dǎo)者的角色去關(guān)注最通用、最廣泛的市場(chǎng)。

　　而創(chuàng)業(yè)公司完全可以選擇一個(gè)最細(xì)分的方向，比如說(shuō)云端推理芯片，然后專注于架構(gòu)和性能提升上，且花費(fèi)更低的成本，從而在這個(gè)細(xì)分市場(chǎng)上取得成功。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

科技巨头加速入场算力战局，究竟是什么在推动「外行」自研芯片

日期： 2021-03-26

來(lái)源：机器之心

相關(guān)內(nèi)容