《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > EDA與制造 > 業(yè)界動(dòng)態(tài) > 芯片設(shè)計(jì)上云——路徑篇

芯片設(shè)計(jì)上云——路徑篇

2021-11-12
來源:半導(dǎo)體行業(yè)觀察
關(guān)鍵詞: 芯片 路徑

  引言:

  臨淵羨魚, 不如退而結(jié)網(wǎng)。

  —— 《淮南子 · 說林訓(xùn)》

  在前面的芯片設(shè)計(jì)上云系列文章中,我們曾經(jīng)詳細(xì)闡述了芯片上云的動(dòng)力和趨勢(《芯片上“云”的動(dòng)力》)。從今年下半年起,我們就切實(shí)地感受到這一波芯片設(shè)計(jì)上云大潮正撲面而來,國內(nèi)也漸漸出現(xiàn)了一批上云的芯片設(shè)計(jì)公司。

  在上云初期階段,這些公司主要分布在行業(yè)的兩端:一部分是頂端的大公司,他們上云的動(dòng)力偏向于彈性算力和敏捷運(yùn)維;另一部分是尾部的初創(chuàng)小型企業(yè),他們上云的動(dòng)力則偏向于快速獲取標(biāo)準(zhǔn)完整的芯片設(shè)計(jì)環(huán)境從而靈活高效地開始進(jìn)行芯片開發(fā)工作。可以預(yù)見,2022年將會(huì)是國內(nèi)芯片設(shè)計(jì)上云的第一個(gè)小高潮,“數(shù)字化轉(zhuǎn)型”已經(jīng)在芯片設(shè)計(jì)行業(yè)悄然拉開了序幕。

  如上所述,不同類型的芯片設(shè)計(jì)公司對(duì)芯片上云的原動(dòng)力決定了他們將會(huì)采用不同的EDA云計(jì)算方案。因此采用什么云計(jì)算方案以及如何上云是很多芯片設(shè)計(jì)公司現(xiàn)在面臨的最直接問題,我們通過這幾年的研究,建議大家參照下圖的上云路徑來進(jìn)行:

  芯片設(shè)計(jì)上云的方法論和傳統(tǒng)的芯片設(shè)計(jì)平臺(tái)建設(shè)方法論類似,都是“調(diào)研&規(guī)劃-->建設(shè)&執(zhí)行-->運(yùn)營&優(yōu)化”的這樣一個(gè)可持續(xù)發(fā)展和優(yōu)化的流程,不同之處在于“芯片設(shè)計(jì)上云”在前期的“調(diào)研&規(guī)劃”中對(duì)各種需求評(píng)估和方案制定會(huì)涉及到更多的“云計(jì)算”技術(shù)和“公有云”商務(wù)條款,因此,芯片設(shè)計(jì)公司或者芯片設(shè)計(jì)上云服務(wù)商需要具備這些技術(shù)和商務(wù)知識(shí),我們此文也著重講述如何“調(diào)研&規(guī)劃”。

  無論是行業(yè)頂端的大公司還是start-up的小型設(shè)計(jì)公司,都希望借著“芯片設(shè)計(jì)上云”的東風(fēng)在云端獲得成本優(yōu)化的高效安全設(shè)計(jì)環(huán)境,但是正如之前《芯片設(shè)計(jì)上云-挑戰(zhàn)篇》所述,“安全”、“效率”和“成本”這三個(gè)要素不可兼得,在“調(diào)研&規(guī)劃”階段必須深入了解設(shè)計(jì)上云原因給出適合的EDA云計(jì)算方案,使得上述三個(gè)因素達(dá)到最佳平衡。

  EDA上云的用戶視角

  芯片設(shè)計(jì)環(huán)境是個(gè)復(fù)雜的軟硬結(jié)合+資源管理的系統(tǒng),其技術(shù)方案必須從各個(gè)角度出發(fā),滿足不同用戶和管理的要求。

  EDA云計(jì)算方案決定因素

  從用戶視角來看,設(shè)計(jì)公司內(nèi)部不同的用戶對(duì)上云的關(guān)注點(diǎn)有所不同:

  芯片設(shè)計(jì)團(tuán)隊(duì)對(duì)這五大因素的訴求直接決定了最終的EDA云計(jì)算方案。

  總體來說,目前主流EDA云計(jì)算方案分為:混合云方案和全云方案,分別適用于中大型設(shè)計(jì)公司和start-up小型設(shè)計(jì)企業(yè)。

  中大型設(shè)計(jì)公司的最優(yōu)選擇 - 混合云方案

  大部分中大型設(shè)計(jì)公司都已經(jīng)建好了本地?cái)?shù)據(jù)中心,本地資源滿足了設(shè)計(jì)項(xiàng)目大部分時(shí)間的算力和存儲(chǔ)要求,但是當(dāng)設(shè)計(jì)資源需求高峰來臨的時(shí)候(例如:后端驗(yàn)證高峰時(shí)),本地?cái)?shù)據(jù)中心資源不足往往成為項(xiàng)目推進(jìn)的瓶頸,公司的設(shè)計(jì)部門和ITCAD部門在這個(gè)時(shí)候大部分時(shí)間都用在資源協(xié)調(diào)和擴(kuò)容上,因此在最大化利用本地?cái)?shù)據(jù)中心資源的前提下,“芯片設(shè)計(jì)上云”混合云方案的彈性算力和快速交付成為解決這個(gè)痛點(diǎn)的最優(yōu)選擇。

  對(duì)于中大型設(shè)計(jì)公司來說,一個(gè)完整芯片設(shè)計(jì)環(huán)境上云項(xiàng)目,需要IT部門、CAD部門和研發(fā)部門密切配合,通過調(diào)研規(guī)劃、建設(shè)執(zhí)行、運(yùn)營優(yōu)化三個(gè)階段來實(shí)現(xiàn)。所謂“謀定而后動(dòng)”,在做出芯片設(shè)計(jì)環(huán)境上云的決策前,最為核心的問題是:該如何選擇最適合上云的場景?

  我們曾與很多設(shè)計(jì)團(tuán)隊(duì)進(jìn)行了廣泛的交流和深入調(diào)研,下面就針對(duì)這個(gè)問題展開分析。

  EDA設(shè)計(jì)環(huán)境上云的場景分析

  圖片

  以一個(gè)典型的數(shù)字IC設(shè)計(jì)項(xiàng)目為例(14nm通信芯片設(shè)計(jì)),我們將會(huì)從上述的上云五大因素進(jìn)行展開闡述。

  1- 高彈性

  芯片設(shè)計(jì)上云的主要?jiǎng)恿χ痪褪歉邚椥裕ㄟ^計(jì)算集群的彈性伸縮來滿足芯片開發(fā)過程中的短周期的大計(jì)算需求,并能迅速在需求滿足后釋放算力資源,以控制成本。

  此案例中,設(shè)計(jì)流程中各個(gè)階段的設(shè)計(jì)作業(yè)和設(shè)計(jì)數(shù)據(jù)特征如下:

  由此可見SOC設(shè)計(jì)后端工作環(huán)節(jié)(PR、STA、后端仿真、功耗分析,PV等)的數(shù)據(jù)量大,運(yùn)行時(shí)間長,需要大量的仿真計(jì)算和存儲(chǔ)資源。根據(jù)已有經(jīng)驗(yàn),上述環(huán)節(jié)的資源需求占據(jù)了整體資源需求的50%-60% 。其中,在STA和PV等環(huán)節(jié),還需使用專用的大內(nèi)存服務(wù)器(1.5TB以上)?!靶酒O(shè)計(jì)上云”方案必須提供彈性算力技術(shù)滿足設(shè)計(jì)高峰需求。

  關(guān)于彈性計(jì)算的詳細(xì)介紹,請(qǐng)參考前文:芯片設(shè)計(jì)上云 ---彈性計(jì)算篇

  2- 低敏感

  實(shí)際上我們經(jīng)常與IC設(shè)計(jì)工程師探討上云話題的時(shí)候,他們的第一反應(yīng)往往是:“上云安全嗎?” 安全這個(gè)問題需要從IT和用戶視角分開來看:從IT安全角度來看,無論是在技術(shù)的領(lǐng)先性和投入的資源來看,公有云無疑是比企業(yè)自建環(huán)境更加安全的。

  公有云平臺(tái)上運(yùn)行著大量企業(yè)的系統(tǒng),每天會(huì)面臨全球數(shù)以百萬計(jì)的網(wǎng)絡(luò)攻擊,公有云提供商雇傭大量信息安全工程師和利用各種監(jiān)控、防病毒、防攻擊系統(tǒng)來保證公有云平臺(tái)的數(shù)據(jù)安全;而企業(yè)的自建IT環(huán)境的安全感是因?yàn)榇谁h(huán)境沒有受到全球網(wǎng)絡(luò)愛好者的“關(guān)注”,不會(huì)時(shí)常面臨這種安全的“考驗(yàn)”,但是一旦自建IT環(huán)境遇到這種網(wǎng)絡(luò)攻擊,往往不堪一擊,從目前報(bào)道的勒索病毒案例就可見一斑。

  從IC用戶的角度,他們關(guān)心的并不是IT意義上的安全--網(wǎng)絡(luò)安全,而是設(shè)計(jì)數(shù)據(jù)的安全,設(shè)計(jì)數(shù)據(jù)的“敏感性”決定了安全級(jí)別,例如將RTL數(shù)據(jù)放到云上,用戶就會(huì)有心理上的不確定性,用戶需要絕對(duì)安全的“保險(xiǎn)箱”來確保此類高敏感性的數(shù)據(jù)安全;而Netlist數(shù)據(jù),則相對(duì)來說敏感性低了很多,存放位置可以相對(duì)更靈活。

  以RTL數(shù)據(jù)為主的前端數(shù)據(jù)敏感性最高,其次為IP和工藝文件數(shù)據(jù),以Session、過程波形、歸檔數(shù)據(jù)和Report為主的過程數(shù)據(jù)安全性最低。

  顯然,選擇數(shù)據(jù)敏感性較低的設(shè)計(jì)節(jié)點(diǎn)上云可以作為設(shè)計(jì)上云的第一步。

  3-  低交互

  公有云平臺(tái)需要企業(yè)用戶從網(wǎng)絡(luò)遠(yuǎn)端進(jìn)行接入,從企業(yè)到公有云數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬是重要的考慮因素。在EDA計(jì)算場景中,會(huì)有大量的實(shí)時(shí)海量小文件讀取同步發(fā)生,因此跨數(shù)據(jù)中心的實(shí)時(shí)計(jì)算數(shù)據(jù)傳遞幾乎是不可行的。

  另外,從目前公有云對(duì)數(shù)據(jù)傳輸?shù)氖召M(fèi)策略來看,雖然數(shù)據(jù)“上傳”基本免費(fèi),但是數(shù)據(jù)“下載”需要按照下載數(shù)據(jù)大小支付數(shù)據(jù)流量費(fèi),因此,如何減少云上和云下數(shù)據(jù)“交互”,也是實(shí)現(xiàn)成本優(yōu)化的最重要的手段。

  從這點(diǎn)來說,“芯片設(shè)計(jì)上云”混合云方案的基本原則是要找到“零交互”的設(shè)計(jì)節(jié)點(diǎn)并優(yōu)先上云。

  表1和表2中也體現(xiàn)了此例中數(shù)字IC設(shè)計(jì)流程中各個(gè)節(jié)點(diǎn)的數(shù)據(jù)交互類型以及數(shù)據(jù)交互量,從而可以分析每個(gè)場景下需要通過遠(yuǎn)程網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)交互的情況。一般來說,后端流程中的STA場景是比較典型的低交互場景,大量計(jì)算生成的過程波形文件,是不需要下載到本地的。

  4- 易協(xié)同

  大規(guī)模芯片開發(fā)往往需要多地團(tuán)隊(duì)的協(xié)同作業(yè),分散的數(shù)據(jù)中心和集中的數(shù)據(jù)中心一直是一個(gè)值得探討的問題。相對(duì)來說,集中的數(shù)據(jù)中心對(duì)于數(shù)據(jù)版本同步的要求要少很多,也更容易進(jìn)行平臺(tái)維護(hù)和項(xiàng)目進(jìn)程控制,更容易實(shí)現(xiàn)項(xiàng)目多地協(xié)同的需求。

  但是對(duì)于中大型設(shè)計(jì)公司來說,一個(gè)集中數(shù)據(jù)中心容量有限,當(dāng)碰到項(xiàng)目資源需求高峰和利用先進(jìn)制程進(jìn)行產(chǎn)品升級(jí)設(shè)計(jì)時(shí),將設(shè)計(jì)流程中的部分設(shè)計(jì)節(jié)點(diǎn)遷移到云上,利用公有云資源和“芯片設(shè)計(jì)上云”混合云方案的彈性算力實(shí)現(xiàn)集中數(shù)據(jù)中心的無縫擴(kuò)展依然能很好的滿足項(xiàng)目組協(xié)同的需求。

  目前比較有趣的一個(gè)現(xiàn)象是半導(dǎo)體行業(yè)非?;馃?,很多公司的后端都利用外部資源來完成,這種情況下,“芯片設(shè)計(jì)上云”混合云方案可以為這種設(shè)計(jì)公司的協(xié)作方快速提供一個(gè)可連通、相對(duì)數(shù)據(jù)隔離、并可控的設(shè)計(jì)環(huán)境,在保證協(xié)同效率的情況下還兼顧了數(shù)據(jù)安全。

  5- 用戶使用習(xí)慣

  半導(dǎo)體行業(yè)是一個(gè)IT技術(shù)相對(duì)保守的行業(yè),這個(gè)行業(yè)采用了20多年的LSF來管理計(jì)算集群的方式,早已是行業(yè)主流,大部分可并行的EDA工具也原生集成了LSF,對(duì)大都數(shù)有經(jīng)驗(yàn)的IC工程師來說,通過LSF的方式下提交作業(yè)也是最習(xí)慣的工作方式。行業(yè)內(nèi)絕大多數(shù)的本地計(jì)算集群,都優(yōu)選采用的LSF進(jìn)行作業(yè)調(diào)度和集群管理。

  前文中(《芯片設(shè)計(jì)上云-彈性計(jì)算篇》)我們闡述過LSF如何與公有云構(gòu)成一個(gè)自動(dòng)化的彈性算力池的方法,尤其是CAD環(huán)境的6個(gè)方面,都與LSF有著深度的集成。

  “CAD管理內(nèi)容的其他幾個(gè)方面,往往也都是基于這樣的底層架構(gòu)來進(jìn)行定制化管理,包括設(shè)計(jì)流程自動(dòng)化、EDA工具與調(diào)度工具的集成、設(shè)計(jì)環(huán)境標(biāo)準(zhǔn)化、設(shè)計(jì)數(shù)據(jù)管理的標(biāo)準(zhǔn)化、License管理和調(diào)度等?!?/p>

  保持透明的用戶習(xí)慣,對(duì)于初次上云的用戶來說,非常重要,否則會(huì)增加額外的成本和阻力。

  1- STA上云

  2018年起,我們接觸到了行業(yè)內(nèi)的一個(gè)大型企業(yè)的上云案例,針對(duì)這個(gè)案例進(jìn)行了深入的調(diào)研,尤其是對(duì)STA上云場景進(jìn)行了深入分析。在整個(gè)SOC設(shè)計(jì)流程中,STA的應(yīng)用場景,能最好地滿足以上五個(gè)關(guān)鍵因素。

  高彈性:STA屬于可高并發(fā)的并行作業(yè)場景,例如,在STA中需要通過大量計(jì)算任務(wù)去校驗(yàn)設(shè)計(jì)的各種結(jié)果,根據(jù)芯片規(guī)模大小,往往會(huì)達(dá)到上萬次的并行計(jì)算,而在本地計(jì)算環(huán)境內(nèi),受到物理容量的限制,是無法無限擴(kuò)展瞬間算力的,因此傳統(tǒng)的項(xiàng)目管理模式下,往往需要通過在有限的本地計(jì)算集群中排隊(duì)處理。假如跑一次STA需要1小時(shí),一萬個(gè)STA job在10臺(tái)服務(wù)器上需要排隊(duì)跑1000個(gè)小時(shí)。而在云上,可以充分利用彈性方法,開出更多臺(tái)機(jī)器,在最短的時(shí)間內(nèi)并發(fā)跑完所有的job。

  低敏感:如表2中設(shè)計(jì)流程的輸入輸出文件的分析,STA在整個(gè)IC設(shè)計(jì)流程里面來說,數(shù)據(jù)敏感性偏低,把STA的相關(guān)數(shù)據(jù)放在云端對(duì)于傳統(tǒng)的研發(fā)用戶來說,是更容易接受的。

  低交互:STA是比較滿足低交互的特征的,STA的輸入文件和輸出文件,可以單節(jié)點(diǎn)在云端進(jìn)行獨(dú)立的計(jì)算,而不需要大量的以及實(shí)時(shí)的線上線下數(shù)據(jù)交換,從而使得網(wǎng)絡(luò)帶寬的壓力幾乎沒有。而且STA的計(jì)算結(jié)果是波形文件,絕大多數(shù)情況下是不需要下載到本地的。

  易協(xié)同:如前所述,集中的設(shè)計(jì)平臺(tái)對(duì)于多團(tuán)隊(duì)的協(xié)同研發(fā)場景是最為簡便的基礎(chǔ)架構(gòu)方法,云端的超大算力池空間為集中的設(shè)計(jì)平臺(tái)提供了更為簡便的選擇。

  使用習(xí)慣:如前面發(fā)布的彈性算力文章,在云端的芯片設(shè)計(jì)平臺(tái),跟本地的設(shè)計(jì)環(huán)境可以做到完全相同架構(gòu),對(duì)計(jì)算集群的管理統(tǒng)一通過LSF作業(yè)調(diào)度來進(jìn)行。對(duì)于研發(fā)用戶來說,在云上和本地,是完全無感透明的用戶體驗(yàn),通過bsub去統(tǒng)一提交作業(yè),LSF可以自行來進(jìn)行Multi-Cluster的調(diào)度管理。

  從這5大因素分析來看,此次這個(gè)大廠選擇STA這個(gè)設(shè)計(jì)節(jié)點(diǎn)上云正是一個(gè)最為穩(wěn)妥安全的選擇。

  2- Start-up設(shè)計(jì)公司的最優(yōu)選擇 - 全云方案

  如本文開始所說,大量start-up的設(shè)計(jì)公司也會(huì)選擇“芯片設(shè)計(jì)上云”,其動(dòng)力主要來自于成本和效率兩個(gè)方面。現(xiàn)在很多的start-up小型公司呈現(xiàn)出這樣一些特征:

  人員規(guī)模不大,但是站點(diǎn)較多,有些可能還有國外的設(shè)計(jì)人員

  啟動(dòng)資金有限,自建機(jī)房負(fù)擔(dān)較重

  需要馬上開始芯片設(shè)計(jì),芯片設(shè)計(jì)平臺(tái)交付周期緊

  沒有專職的IT/CAD人員,對(duì)設(shè)計(jì)平臺(tái)如何搭建缺乏專業(yè)知識(shí)

  公司初期辦公地點(diǎn)不定,可能會(huì)經(jīng)常搬家

  “芯片設(shè)計(jì)上云”全云方案就能非常好的滿足以上需求。以下是一個(gè)初創(chuàng)公司的全云方案:

  此全云方案提供了完整的行業(yè)三層網(wǎng)絡(luò)安全架構(gòu),并包含可擴(kuò)展的彈性算力集群+存儲(chǔ)以及成熟的數(shù)據(jù)傳輸方案,對(duì)于終端用戶來說使用習(xí)慣和之前完全保持了一致,用戶可以從各個(gè)地方通過internet連接進(jìn)入“云端”的設(shè)計(jì)平臺(tái)進(jìn)行設(shè)計(jì)工作。

  此方案使得用戶可以在每年十幾萬基礎(chǔ)設(shè)施投資的情況下,并在不到一周的時(shí)間拿到設(shè)計(jì)環(huán)境,這對(duì)于很多start-up設(shè)計(jì)公司來講是非常有幫助的,此方案也將“云計(jì)算”的精髓-- “萬物皆服務(wù)”發(fā)揮得淋漓盡致。

  當(dāng)然,EDA云計(jì)算方案和上云場景的對(duì)應(yīng)關(guān)系也不是絕對(duì)的,還是要根據(jù)企業(yè)的整體芯片項(xiàng)目規(guī)劃來綜合進(jìn)行決策,因此大量而細(xì)致的調(diào)研工作和詳細(xì)的上云規(guī)劃是“芯片設(shè)計(jì)上云”是否能夠成功的關(guān)鍵,對(duì)于每個(gè)芯片設(shè)計(jì)公司來說,其上云路徑和方案都是需要量身定做的,比如:在計(jì)算節(jié)點(diǎn)的選型上,方案需要根據(jù)芯片類型和作業(yè)特征來選擇云上最合適的機(jī)型。在這里,摩爾精英IT/CAD設(shè)計(jì)平臺(tái)事業(yè)部總結(jié)了這幾年提供的“芯片設(shè)計(jì)上云”服務(wù)的經(jīng)驗(yàn)并進(jìn)行分享,希望給行業(yè)上云提供一些有用的參考。




電子技術(shù)圖片.png

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。