引言:
臨淵羨魚, 不如退而結(jié)網(wǎng)。
—— 《淮南子 · 說林訓(xùn)》
在前面的芯片設(shè)計(jì)上云系列文章中,我們?cè)?jīng)詳細(xì)闡述了芯片上云的動(dòng)力和趨勢(shì)(《芯片上“云”的動(dòng)力》)。從今年下半年起,我們就切實(shí)地感受到這一波芯片設(shè)計(jì)上云大潮正撲面而來,國(guó)內(nèi)也漸漸出現(xiàn)了一批上云的芯片設(shè)計(jì)公司。
在上云初期階段,這些公司主要分布在行業(yè)的兩端:一部分是頂端的大公司,他們上云的動(dòng)力偏向于彈性算力和敏捷運(yùn)維;另一部分是尾部的初創(chuàng)小型企業(yè),他們上云的動(dòng)力則偏向于快速獲取標(biāo)準(zhǔn)完整的芯片設(shè)計(jì)環(huán)境從而靈活高效地開始進(jìn)行芯片開發(fā)工作??梢灶A(yù)見,2022年將會(huì)是國(guó)內(nèi)芯片設(shè)計(jì)上云的第一個(gè)小高潮,“數(shù)字化轉(zhuǎn)型”已經(jīng)在芯片設(shè)計(jì)行業(yè)悄然拉開了序幕。
如上所述,不同類型的芯片設(shè)計(jì)公司對(duì)芯片上云的原動(dòng)力決定了他們將會(huì)采用不同的EDA云計(jì)算方案。因此采用什么云計(jì)算方案以及如何上云是很多芯片設(shè)計(jì)公司現(xiàn)在面臨的最直接問題,我們通過這幾年的研究,建議大家參照下圖的上云路徑來進(jìn)行:
芯片設(shè)計(jì)上云的方法論和傳統(tǒng)的芯片設(shè)計(jì)平臺(tái)建設(shè)方法論類似,都是“調(diào)研&規(guī)劃-->建設(shè)&執(zhí)行-->運(yùn)營(yíng)&優(yōu)化”的這樣一個(gè)可持續(xù)發(fā)展和優(yōu)化的流程,不同之處在于“芯片設(shè)計(jì)上云”在前期的“調(diào)研&規(guī)劃”中對(duì)各種需求評(píng)估和方案制定會(huì)涉及到更多的“云計(jì)算”技術(shù)和“公有云”商務(wù)條款,因此,芯片設(shè)計(jì)公司或者芯片設(shè)計(jì)上云服務(wù)商需要具備這些技術(shù)和商務(wù)知識(shí),我們此文也著重講述如何“調(diào)研&規(guī)劃”。
無論是行業(yè)頂端的大公司還是start-up的小型設(shè)計(jì)公司,都希望借著“芯片設(shè)計(jì)上云”的東風(fēng)在云端獲得成本優(yōu)化的高效安全設(shè)計(jì)環(huán)境,但是正如之前《芯片設(shè)計(jì)上云-挑戰(zhàn)篇》所述,“安全”、“效率”和“成本”這三個(gè)要素不可兼得,在“調(diào)研&規(guī)劃”階段必須深入了解設(shè)計(jì)上云原因給出適合的EDA云計(jì)算方案,使得上述三個(gè)因素達(dá)到最佳平衡。
EDA上云的用戶視角
芯片設(shè)計(jì)環(huán)境是個(gè)復(fù)雜的軟硬結(jié)合+資源管理的系統(tǒng),其技術(shù)方案必須從各個(gè)角度出發(fā),滿足不同用戶和管理的要求。
EDA云計(jì)算方案決定因素
從用戶視角來看,設(shè)計(jì)公司內(nèi)部不同的用戶對(duì)上云的關(guān)注點(diǎn)有所不同:
芯片設(shè)計(jì)團(tuán)隊(duì)對(duì)這五大因素的訴求直接決定了最終的EDA云計(jì)算方案。
總體來說,目前主流EDA云計(jì)算方案分為:混合云方案和全云方案,分別適用于中大型設(shè)計(jì)公司和start-up小型設(shè)計(jì)企業(yè)。
中大型設(shè)計(jì)公司的最優(yōu)選擇 - 混合云方案
大部分中大型設(shè)計(jì)公司都已經(jīng)建好了本地?cái)?shù)據(jù)中心,本地資源滿足了設(shè)計(jì)項(xiàng)目大部分時(shí)間的算力和存儲(chǔ)要求,但是當(dāng)設(shè)計(jì)資源需求高峰來臨的時(shí)候(例如:后端驗(yàn)證高峰時(shí)),本地?cái)?shù)據(jù)中心資源不足往往成為項(xiàng)目推進(jìn)的瓶頸,公司的設(shè)計(jì)部門和ITCAD部門在這個(gè)時(shí)候大部分時(shí)間都用在資源協(xié)調(diào)和擴(kuò)容上,因此在最大化利用本地?cái)?shù)據(jù)中心資源的前提下,“芯片設(shè)計(jì)上云”混合云方案的彈性算力和快速交付成為解決這個(gè)痛點(diǎn)的最優(yōu)選擇。
對(duì)于中大型設(shè)計(jì)公司來說,一個(gè)完整芯片設(shè)計(jì)環(huán)境上云項(xiàng)目,需要IT部門、CAD部門和研發(fā)部門密切配合,通過調(diào)研規(guī)劃、建設(shè)執(zhí)行、運(yùn)營(yíng)優(yōu)化三個(gè)階段來實(shí)現(xiàn)。所謂“謀定而后動(dòng)”,在做出芯片設(shè)計(jì)環(huán)境上云的決策前,最為核心的問題是:該如何選擇最適合上云的場(chǎng)景?
我們?cè)c很多設(shè)計(jì)團(tuán)隊(duì)進(jìn)行了廣泛的交流和深入調(diào)研,下面就針對(duì)這個(gè)問題展開分析。
EDA設(shè)計(jì)環(huán)境上云的場(chǎng)景分析
圖片
以一個(gè)典型的數(shù)字IC設(shè)計(jì)項(xiàng)目為例(14nm通信芯片設(shè)計(jì)),我們將會(huì)從上述的上云五大因素進(jìn)行展開闡述。
1- 高彈性
芯片設(shè)計(jì)上云的主要?jiǎng)恿χ痪褪歉邚椥?,通過計(jì)算集群的彈性伸縮來滿足芯片開發(fā)過程中的短周期的大計(jì)算需求,并能迅速在需求滿足后釋放算力資源,以控制成本。
此案例中,設(shè)計(jì)流程中各個(gè)階段的設(shè)計(jì)作業(yè)和設(shè)計(jì)數(shù)據(jù)特征如下:
由此可見SOC設(shè)計(jì)后端工作環(huán)節(jié)(PR、STA、后端仿真、功耗分析,PV等)的數(shù)據(jù)量大,運(yùn)行時(shí)間長(zhǎng),需要大量的仿真計(jì)算和存儲(chǔ)資源。根據(jù)已有經(jīng)驗(yàn),上述環(huán)節(jié)的資源需求占據(jù)了整體資源需求的50%-60% 。其中,在STA和PV等環(huán)節(jié),還需使用專用的大內(nèi)存服務(wù)器(1.5TB以上)?!靶酒O(shè)計(jì)上云”方案必須提供彈性算力技術(shù)滿足設(shè)計(jì)高峰需求。
關(guān)于彈性計(jì)算的詳細(xì)介紹,請(qǐng)參考前文:芯片設(shè)計(jì)上云 ---彈性計(jì)算篇
2- 低敏感
實(shí)際上我們經(jīng)常與IC設(shè)計(jì)工程師探討上云話題的時(shí)候,他們的第一反應(yīng)往往是:“上云安全嗎?” 安全這個(gè)問題需要從IT和用戶視角分開來看:從IT安全角度來看,無論是在技術(shù)的領(lǐng)先性和投入的資源來看,公有云無疑是比企業(yè)自建環(huán)境更加安全的。
公有云平臺(tái)上運(yùn)行著大量企業(yè)的系統(tǒng),每天會(huì)面臨全球數(shù)以百萬計(jì)的網(wǎng)絡(luò)攻擊,公有云提供商雇傭大量信息安全工程師和利用各種監(jiān)控、防病毒、防攻擊系統(tǒng)來保證公有云平臺(tái)的數(shù)據(jù)安全;而企業(yè)的自建IT環(huán)境的安全感是因?yàn)榇谁h(huán)境沒有受到全球網(wǎng)絡(luò)愛好者的“關(guān)注”,不會(huì)時(shí)常面臨這種安全的“考驗(yàn)”,但是一旦自建IT環(huán)境遇到這種網(wǎng)絡(luò)攻擊,往往不堪一擊,從目前報(bào)道的勒索病毒案例就可見一斑。
從IC用戶的角度,他們關(guān)心的并不是IT意義上的安全--網(wǎng)絡(luò)安全,而是設(shè)計(jì)數(shù)據(jù)的安全,設(shè)計(jì)數(shù)據(jù)的“敏感性”決定了安全級(jí)別,例如將RTL數(shù)據(jù)放到云上,用戶就會(huì)有心理上的不確定性,用戶需要絕對(duì)安全的“保險(xiǎn)箱”來確保此類高敏感性的數(shù)據(jù)安全;而Netlist數(shù)據(jù),則相對(duì)來說敏感性低了很多,存放位置可以相對(duì)更靈活。
以RTL數(shù)據(jù)為主的前端數(shù)據(jù)敏感性最高,其次為IP和工藝文件數(shù)據(jù),以Session、過程波形、歸檔數(shù)據(jù)和Report為主的過程數(shù)據(jù)安全性最低。
顯然,選擇數(shù)據(jù)敏感性較低的設(shè)計(jì)節(jié)點(diǎn)上云可以作為設(shè)計(jì)上云的第一步。
3- 低交互
公有云平臺(tái)需要企業(yè)用戶從網(wǎng)絡(luò)遠(yuǎn)端進(jìn)行接入,從企業(yè)到公有云數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬是重要的考慮因素。在EDA計(jì)算場(chǎng)景中,會(huì)有大量的實(shí)時(shí)海量小文件讀取同步發(fā)生,因此跨數(shù)據(jù)中心的實(shí)時(shí)計(jì)算數(shù)據(jù)傳遞幾乎是不可行的。
另外,從目前公有云對(duì)數(shù)據(jù)傳輸?shù)氖召M(fèi)策略來看,雖然數(shù)據(jù)“上傳”基本免費(fèi),但是數(shù)據(jù)“下載”需要按照下載數(shù)據(jù)大小支付數(shù)據(jù)流量費(fèi),因此,如何減少云上和云下數(shù)據(jù)“交互”,也是實(shí)現(xiàn)成本優(yōu)化的最重要的手段。
從這點(diǎn)來說,“芯片設(shè)計(jì)上云”混合云方案的基本原則是要找到“零交互”的設(shè)計(jì)節(jié)點(diǎn)并優(yōu)先上云。
表1和表2中也體現(xiàn)了此例中數(shù)字IC設(shè)計(jì)流程中各個(gè)節(jié)點(diǎn)的數(shù)據(jù)交互類型以及數(shù)據(jù)交互量,從而可以分析每個(gè)場(chǎng)景下需要通過遠(yuǎn)程網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)交互的情況。一般來說,后端流程中的STA場(chǎng)景是比較典型的低交互場(chǎng)景,大量計(jì)算生成的過程波形文件,是不需要下載到本地的。
4- 易協(xié)同
大規(guī)模芯片開發(fā)往往需要多地團(tuán)隊(duì)的協(xié)同作業(yè),分散的數(shù)據(jù)中心和集中的數(shù)據(jù)中心一直是一個(gè)值得探討的問題。相對(duì)來說,集中的數(shù)據(jù)中心對(duì)于數(shù)據(jù)版本同步的要求要少很多,也更容易進(jìn)行平臺(tái)維護(hù)和項(xiàng)目進(jìn)程控制,更容易實(shí)現(xiàn)項(xiàng)目多地協(xié)同的需求。
但是對(duì)于中大型設(shè)計(jì)公司來說,一個(gè)集中數(shù)據(jù)中心容量有限,當(dāng)碰到項(xiàng)目資源需求高峰和利用先進(jìn)制程進(jìn)行產(chǎn)品升級(jí)設(shè)計(jì)時(shí),將設(shè)計(jì)流程中的部分設(shè)計(jì)節(jié)點(diǎn)遷移到云上,利用公有云資源和“芯片設(shè)計(jì)上云”混合云方案的彈性算力實(shí)現(xiàn)集中數(shù)據(jù)中心的無縫擴(kuò)展依然能很好的滿足項(xiàng)目組協(xié)同的需求。
目前比較有趣的一個(gè)現(xiàn)象是半導(dǎo)體行業(yè)非?;馃?,很多公司的后端都利用外部資源來完成,這種情況下,“芯片設(shè)計(jì)上云”混合云方案可以為這種設(shè)計(jì)公司的協(xié)作方快速提供一個(gè)可連通、相對(duì)數(shù)據(jù)隔離、并可控的設(shè)計(jì)環(huán)境,在保證協(xié)同效率的情況下還兼顧了數(shù)據(jù)安全。
5- 用戶使用習(xí)慣
半導(dǎo)體行業(yè)是一個(gè)IT技術(shù)相對(duì)保守的行業(yè),這個(gè)行業(yè)采用了20多年的LSF來管理計(jì)算集群的方式,早已是行業(yè)主流,大部分可并行的EDA工具也原生集成了LSF,對(duì)大都數(shù)有經(jīng)驗(yàn)的IC工程師來說,通過LSF的方式下提交作業(yè)也是最習(xí)慣的工作方式。行業(yè)內(nèi)絕大多數(shù)的本地計(jì)算集群,都優(yōu)選采用的LSF進(jìn)行作業(yè)調(diào)度和集群管理。
前文中(《芯片設(shè)計(jì)上云-彈性計(jì)算篇》)我們闡述過LSF如何與公有云構(gòu)成一個(gè)自動(dòng)化的彈性算力池的方法,尤其是CAD環(huán)境的6個(gè)方面,都與LSF有著深度的集成。
“CAD管理內(nèi)容的其他幾個(gè)方面,往往也都是基于這樣的底層架構(gòu)來進(jìn)行定制化管理,包括設(shè)計(jì)流程自動(dòng)化、EDA工具與調(diào)度工具的集成、設(shè)計(jì)環(huán)境標(biāo)準(zhǔn)化、設(shè)計(jì)數(shù)據(jù)管理的標(biāo)準(zhǔn)化、License管理和調(diào)度等?!?/p>
保持透明的用戶習(xí)慣,對(duì)于初次上云的用戶來說,非常重要,否則會(huì)增加額外的成本和阻力。
1- STA上云
2018年起,我們接觸到了行業(yè)內(nèi)的一個(gè)大型企業(yè)的上云案例,針對(duì)這個(gè)案例進(jìn)行了深入的調(diào)研,尤其是對(duì)STA上云場(chǎng)景進(jìn)行了深入分析。在整個(gè)SOC設(shè)計(jì)流程中,STA的應(yīng)用場(chǎng)景,能最好地滿足以上五個(gè)關(guān)鍵因素。
高彈性:STA屬于可高并發(fā)的并行作業(yè)場(chǎng)景,例如,在STA中需要通過大量計(jì)算任務(wù)去校驗(yàn)設(shè)計(jì)的各種結(jié)果,根據(jù)芯片規(guī)模大小,往往會(huì)達(dá)到上萬次的并行計(jì)算,而在本地計(jì)算環(huán)境內(nèi),受到物理容量的限制,是無法無限擴(kuò)展瞬間算力的,因此傳統(tǒng)的項(xiàng)目管理模式下,往往需要通過在有限的本地計(jì)算集群中排隊(duì)處理。假如跑一次STA需要1小時(shí),一萬個(gè)STA job在10臺(tái)服務(wù)器上需要排隊(duì)跑1000個(gè)小時(shí)。而在云上,可以充分利用彈性方法,開出更多臺(tái)機(jī)器,在最短的時(shí)間內(nèi)并發(fā)跑完所有的job。
低敏感:如表2中設(shè)計(jì)流程的輸入輸出文件的分析,STA在整個(gè)IC設(shè)計(jì)流程里面來說,數(shù)據(jù)敏感性偏低,把STA的相關(guān)數(shù)據(jù)放在云端對(duì)于傳統(tǒng)的研發(fā)用戶來說,是更容易接受的。
低交互:STA是比較滿足低交互的特征的,STA的輸入文件和輸出文件,可以單節(jié)點(diǎn)在云端進(jìn)行獨(dú)立的計(jì)算,而不需要大量的以及實(shí)時(shí)的線上線下數(shù)據(jù)交換,從而使得網(wǎng)絡(luò)帶寬的壓力幾乎沒有。而且STA的計(jì)算結(jié)果是波形文件,絕大多數(shù)情況下是不需要下載到本地的。
易協(xié)同:如前所述,集中的設(shè)計(jì)平臺(tái)對(duì)于多團(tuán)隊(duì)的協(xié)同研發(fā)場(chǎng)景是最為簡(jiǎn)便的基礎(chǔ)架構(gòu)方法,云端的超大算力池空間為集中的設(shè)計(jì)平臺(tái)提供了更為簡(jiǎn)便的選擇。
使用習(xí)慣:如前面發(fā)布的彈性算力文章,在云端的芯片設(shè)計(jì)平臺(tái),跟本地的設(shè)計(jì)環(huán)境可以做到完全相同架構(gòu),對(duì)計(jì)算集群的管理統(tǒng)一通過LSF作業(yè)調(diào)度來進(jìn)行。對(duì)于研發(fā)用戶來說,在云上和本地,是完全無感透明的用戶體驗(yàn),通過bsub去統(tǒng)一提交作業(yè),LSF可以自行來進(jìn)行Multi-Cluster的調(diào)度管理。
從這5大因素分析來看,此次這個(gè)大廠選擇STA這個(gè)設(shè)計(jì)節(jié)點(diǎn)上云正是一個(gè)最為穩(wěn)妥安全的選擇。
2- Start-up設(shè)計(jì)公司的最優(yōu)選擇 - 全云方案
如本文開始所說,大量start-up的設(shè)計(jì)公司也會(huì)選擇“芯片設(shè)計(jì)上云”,其動(dòng)力主要來自于成本和效率兩個(gè)方面。現(xiàn)在很多的start-up小型公司呈現(xiàn)出這樣一些特征:
人員規(guī)模不大,但是站點(diǎn)較多,有些可能還有國(guó)外的設(shè)計(jì)人員
啟動(dòng)資金有限,自建機(jī)房負(fù)擔(dān)較重
需要馬上開始芯片設(shè)計(jì),芯片設(shè)計(jì)平臺(tái)交付周期緊
沒有專職的IT/CAD人員,對(duì)設(shè)計(jì)平臺(tái)如何搭建缺乏專業(yè)知識(shí)
公司初期辦公地點(diǎn)不定,可能會(huì)經(jīng)常搬家
“芯片設(shè)計(jì)上云”全云方案就能非常好的滿足以上需求。以下是一個(gè)初創(chuàng)公司的全云方案:
此全云方案提供了完整的行業(yè)三層網(wǎng)絡(luò)安全架構(gòu),并包含可擴(kuò)展的彈性算力集群+存儲(chǔ)以及成熟的數(shù)據(jù)傳輸方案,對(duì)于終端用戶來說使用習(xí)慣和之前完全保持了一致,用戶可以從各個(gè)地方通過internet連接進(jìn)入“云端”的設(shè)計(jì)平臺(tái)進(jìn)行設(shè)計(jì)工作。
此方案使得用戶可以在每年十幾萬基礎(chǔ)設(shè)施投資的情況下,并在不到一周的時(shí)間拿到設(shè)計(jì)環(huán)境,這對(duì)于很多start-up設(shè)計(jì)公司來講是非常有幫助的,此方案也將“云計(jì)算”的精髓-- “萬物皆服務(wù)”發(fā)揮得淋漓盡致。
當(dāng)然,EDA云計(jì)算方案和上云場(chǎng)景的對(duì)應(yīng)關(guān)系也不是絕對(duì)的,還是要根據(jù)企業(yè)的整體芯片項(xiàng)目規(guī)劃來綜合進(jìn)行決策,因此大量而細(xì)致的調(diào)研工作和詳細(xì)的上云規(guī)劃是“芯片設(shè)計(jì)上云”是否能夠成功的關(guān)鍵,對(duì)于每個(gè)芯片設(shè)計(jì)公司來說,其上云路徑和方案都是需要量身定做的,比如:在計(jì)算節(jié)點(diǎn)的選型上,方案需要根據(jù)芯片類型和作業(yè)特征來選擇云上最合適的機(jī)型。在這里,摩爾精英IT/CAD設(shè)計(jì)平臺(tái)事業(yè)部總結(jié)了這幾年提供的“芯片設(shè)計(jì)上云”服務(wù)的經(jīng)驗(yàn)并進(jìn)行分享,希望給行業(yè)上云提供一些有用的參考。