在Google做芯片,是一種什么體驗?
一位Google芯片設(shè)計師回答:就像小朋友走進了一家糖果店。
IT資源~~得不到的永遠在騷動~~
要么花更長時間,要么降低對質(zhì)量的追求,這種無奈的取舍是半導(dǎo)體行業(yè)一直以來的痛。
如果說EDA工具的出現(xiàn)是半導(dǎo)體行業(yè)的第一次革命,幫助芯片設(shè)計人員用更簡單的方法從事設(shè)計工作,以縮短研發(fā)周期,降低設(shè)計成本。
那么,云計算可能是第二次產(chǎn)業(yè)革命的開端。雖然云計算本身已經(jīng)出現(xiàn)十年之久,但直到現(xiàn)在,也許才能看出一些端倪。
我們看一下現(xiàn)在的全球半導(dǎo)體行業(yè)上云格局一覽圖(基于最新公開資料整理):
1、 整個半導(dǎo)體產(chǎn)業(yè)鏈核心角色:EDA供應(yīng)商/ Foundry/Fabless無一缺席,都已經(jīng)開始上云的步伐。
2、 全球各大云廠商不僅積極擁抱半導(dǎo)體產(chǎn)業(yè),甚至自己主導(dǎo)設(shè)計開發(fā)云端AI芯片,在產(chǎn)業(yè)鏈中扮演雙重角色。
3、 圖上只是根據(jù)公開資料整理出來的半導(dǎo)體云玩家,更多公司還在冰山之下。這意味著,不光是上云企業(yè)與本地企業(yè)之間,云上企業(yè)之間的競爭也已經(jīng)暗流涌動。
如果下面這張圖代表整個半導(dǎo)體行業(yè)對云的接受度,也許我們已經(jīng)站在跨越鴻溝的邊緣:
云有一個奇妙的特性:花同樣的錢,你可以讓100臺機器跑1個小時,也可以讓1臺機器跑100個小時,但是不同時間消耗帶來的結(jié)果完全不一樣,可能事關(guān)生死。
半導(dǎo)體企業(yè)上云并不是直接把本地數(shù)據(jù)中心生態(tài)系統(tǒng)搬到另一個地方,是一個涉及資產(chǎn)與成本,當(dāng)下與未來的綜合決策。
而在這場生死之戰(zhàn)中,在半導(dǎo)體企業(yè)到一朵云或者多云服務(wù)之間,速石的角色是什么?
我們辛總給我打了個樸實的比方:假如你要打掃家里,以前你買的是N把掃把,現(xiàn)在你買的是一個智能掃地機器人。地是云服務(wù)商掃的,我們主要是智能機器那部分。
嗯,話說得有點糙,而且簡化得有點過分,大家意會~~
拒絕意會的,歡迎文末掃碼聯(lián)系小F,我們用五個詳細(xì)案例告訴你我們是怎么解決半導(dǎo)體行業(yè)三種模式(純云SaaS/混合云+多區(qū)域/EDA云平臺)下不同企業(yè)用云需求的。
十個上云實踐問題的解答
DAC是集成電路設(shè)計界的大聚會,是全球EDA、Foundry、IP提供商的盛會,今年是第35屆了。
從去年開始,DAC有了專門的“design on cloud” 部分。如果說去年是云廠商(AWS/Azure/Googlecloud,包括阿里云)和眾多IT服務(wù)商張開懷抱對芯片公司說:我可以。
過去一年,有了明顯變化。
今年6月,我們看到了不少芯片設(shè)計公司的身影,他們作為過來人出來現(xiàn)身說法,講自己上云的那點事兒。
?。奔褾oundry,1家EDA,4家Fabless。
上云的模式是什么?
最開始,為什么選擇上云?
上云的挑戰(zhàn)主要有哪些?
你覺得EDA供應(yīng)商準(zhǔn)備好上云了嗎?
上云的缺點是什么?
對于芯片設(shè)計,云廠商已經(jīng)準(zhǔn)備好了嗎?
在云上,一切都需要付錢。怎么控制云上的成本?
你覺得在云上設(shè)計安全嗎?
目前為止,上云的成果是什么?
對后來的上云實踐者有什么建議?
上云的模式是什么?
QST:純公有云模式+AWS為主
AFRL:純公有云模式+AWS為主
TSMC:OIP VDE虛擬設(shè)計環(huán)境+ AWS+ Google Cloud+Azure
Cadence:Cadence Cloud Portfolio+AWS+ Google Cloud+Azure
eSilicon:混合云模式逐漸過渡到純公有云模式+Google Cloud
Astera Labs:純公有云模式+AWS
最開始,為什么選擇上云?
QST:
我們公司是2018年8月成立的,主要做基于MEMS傳感器的解決方案。
剛成立的時候接到一個客戶需求,只有6個月的時間就要Tapeout,根本沒有給我們時間搭本地基礎(chǔ)架構(gòu),所以直接選擇了上云。當(dāng)然,結(jié)果非常好,我們成功在規(guī)定期限前完成了任務(wù)。
AFRL:
不要覺得AFRL是一個大公司,其實我們就是一個獨立的小組,更像一個小公司。
我在做的這個項目其實是個DOD(國防部)的項目,我們空軍這塊只是整個芯片項目的PoC。
我們選擇云的原因主要原因是完全搭一套本地設(shè)計環(huán)境周期太長,流程又長又復(fù)雜;另一個原因是我們的人員包括了海軍、軍隊、空軍研究員和小組,分散各地,搭建一套本地的IT合作環(huán)境讓所有外部人員遠程登錄非常麻煩,最好可以有一套無視大家地理位置的解決方案,讓所有人盡管分散在各地也能在一起順利完成任務(wù)。
TSMC:
我們2018年宣布OIP云端聯(lián)盟成立。一方面是受AI/5G等大環(huán)境驅(qū)動,另一方面,我們不可能永遠有足夠的本地計算資源,內(nèi)部我們開始用云端方案來協(xié)助芯片設(shè)計,既然我們用了,我們就覺得也應(yīng)該開放給我們的用戶用,讓他們能受益,不用受資源所限,能更快完成他們的設(shè)計。
歡迎文末掃碼聯(lián)系小F
獲取某Foundry EDA設(shè)計云平臺模式解決方案
Cadence:
2018年發(fā)布Cadence Cloud Portfolio,臺積電、亞馬遜、微軟和谷歌都是合作伙伴。2019年4月,我們發(fā)布了CloudBurst平臺,6月又發(fā)布了Cloud Passport合作伙伴項目。
以前跟我的用戶們聊云,基本上一聊到安全就聊不下去了。但現(xiàn)在這個行業(yè)的新公司大量涌現(xiàn),都在認(rèn)真考慮云這件事,因為的確幫他們省了一大堆麻煩和注意力,不用考慮搭建一套工作流,也不用考慮搭建設(shè)計環(huán)境等等。
所以現(xiàn)在我感覺趨勢是:小公司正在考慮把整個基本架構(gòu)都換成云,而大一些的公司,正在評估接下來到底怎么走。是做一個單獨項目,還是把某項功能放在云上運行,平衡本地和云的資源,這是一個謹(jǐn)慎的決策。
我聊的每一個人都表示對云感興趣,所以我覺得現(xiàn)在的問題在于什么時候上云,而不在于上不上云這件事。
eSilicon:
2000年成立,在用傳統(tǒng)方法做了20年ASIC芯片后,eSilicon決定放棄本地,把整個芯片設(shè)計都搬到云上。
我們的轉(zhuǎn)變開始于2014年,當(dāng)CEO Jack Harding問了一個問題:計算硬件設(shè)施到底給我們帶來了什么?那時候我們是租的數(shù)據(jù)中心的機器,設(shè)計一枚芯片的過程中,我們至少需要把租用的機器數(shù)量翻一倍,這我們實在有點沒法接受。那時候,我們的團隊才真正開始研究到底要怎樣才可以有效使用云資源。
我們現(xiàn)在的目標(biāo)是:到2020年前,全面上云,我們將成為一個Serverless的公司,不擁有任何硬件。
Astera Labs:
我們公司2017年成立的。關(guān)于上不上云,做決定前,我們有三個決策原則:
?。薄⑽覀兿氚阉械馁Y源放在創(chuàng)造價值上;
?。病⒈镜貨]有專門的IT團隊,這也不是我們的強項;
?。场㈦S著公司的成長,我們需要快速迭代。
所以對我們來說,其實選擇很簡單:
本地+云混合模式:第一時間否決,既要管本地,還要管云,雙重頭疼
完全本地模式:專業(yè)的IT團隊,大量的前期投入,只能不斷擴張(不能減少),同樣否決
Synopsys/Cadence平臺:EDA供應(yīng)商限制了我的工具使用范圍,有限的計算架構(gòu)
純公有云模式:同時具備規(guī)模擴張性和彈性,外包支持服務(wù)
最后,我們選了AWS,外包IT團隊,免去所有頭疼的事情。
歡迎文末掃碼聯(lián)系小F
獲取芯片設(shè)計公司混合云+SaaS模式上云解決方案
上云的挑戰(zhàn)主要有哪些?
QST:
6個月的時間就要Tapeout,時間非常緊。
AFRL:
希望可以有一套不用考慮大家地理位置的解決方案,讓分散在各地的小組成員能在一個環(huán)境下共同順利完成工作。
TSMC:
安全是一切的基礎(chǔ)。我們花了兩年多時間專心于安全問題,和我們公司的IT部門一起研究怎么和云廠商合作,檢測所有細(xì)節(jié)。現(xiàn)在我們有了云安全資質(zhì)計劃,還有一些安全方面的合作伙伴在我們的云聯(lián)盟里。
Cadence:
云一種全新的架構(gòu)。我們在努力朝這個方向前進。
eSilicon:
1、對本地芯片設(shè)計工作流最小影響,最好不影響
2、降低IP開發(fā)工作負(fù)載的成本
3、運行更多的IP仿真
4、云上的集成和運維問題
5、IP安全:公有云上的IP存儲
Astera Labs:
1、本地沒有IT團隊,不想把重心放在核心業(yè)務(wù)之外的工作任務(wù)上
2、最頭疼的是在云上管理排隊任務(wù)。
3、大量并行工作任務(wù)意味著大量數(shù)據(jù)管理,技術(shù)資源成為最大的瓶頸
歡迎文末掃碼聯(lián)系小F
了解我們怎么幫你智能調(diào)度本地及云上資源
你覺得EDA供應(yīng)商準(zhǔn)備好上云了嗎?
TSMC:
我們既和各大云廠商合作,也跟EDA供應(yīng)商合作.當(dāng)我們嘗試在云上做一些互動式的任務(wù),因為我們在臺灣,最近的數(shù)據(jù)中心可能在新加坡,距離有3000公里,不管你怎么優(yōu)化路由,都會有50-60分鐘延遲,這會給EDA工具帶來一些壓力。但積極的一面在于在過去的9個月時間,EDA合作伙伴都非常配合,找出問題在哪,怎么優(yōu)化。
我覺得,以前并沒有所謂的云使用范式或者標(biāo)準(zhǔn),所以EDA廠商現(xiàn)在沒必要針對云端使用做全面優(yōu)化。直到有一天大家都在用了,自然就會做了。整體來說,現(xiàn)在使用上沒什么問題。這將是我們接下來幾年的共同未來目標(biāo)。
Astera Labs:
EDA工具在云上使用很順利,當(dāng)然,也有一些改進的空間。比如,基于云上架構(gòu)做優(yōu)化,能夠更好地利用云上的各種計算資源,存儲服務(wù)等。
重點提醒:出錯容忍度低的應(yīng)用可以使用云端可被搶占實例。
上云的缺點是什么?
QST:
因為安全的原因,所有的東西必須經(jīng)過cadence,一切問題都必須提交一個工單,不能直接打個電話或者走到辦公室的另一頭找IT部門,這會增加一些時間成本。但另一方面這又非常有用,因為一切事情都可以量化,雖然花了一點時間,但問題總是會及時得到解決。這花了我們團隊幾個月時間來適應(yīng),但現(xiàn)在一切都很好。
第二個問題在于,如果你試圖評估到底在云上需要多少資源,多少用戶,怎么彈性擴張的,這是一個嘗試和學(xué)習(xí)的過程。
你需要增加你的運維團隊,你需要在不同的國家做擴張。我們有團隊在臺灣,有團隊在上海,還有外包團隊在印度,硅谷也有員工,一直在加人。怎么讓這些人在線,你有多少個接口登陸,開了多少個服務(wù)器,這中間有很多要權(quán)衡的東西。
當(dāng)你有一大堆驗證要做,你能用多少個license,你能有多少計算資源,你是全部都本地?fù)碛校€是考慮成本的原因,減少本地資源,在云上做彈性擴張。這些都需要花時間。
哪怕你有一個好的IT部門和通過VPN連接的彈性計算資源,也會遇到同樣的問題。
AFRL:
整體來說,上云是一個積極的體驗。
如果你的IT部門不熟悉云架構(gòu),不了解云的運行方式,這個跨越可能會有點痛苦。它跟在本地完全不一樣。云的運行方式不一樣,計費模式不一樣,存儲模式不一樣。所以你可能可以在云上運行起來,但如果你只是在云上復(fù)制在本地的一切,你可能沒辦法最大化利用云的價值。
我建議你最好確保有一個不錯的懂云的團隊。
歡迎文末掃碼聯(lián)系小F
了解為什么我們能幫你最大化利用云的價值
對于芯片設(shè)計,云廠商已經(jīng)準(zhǔn)備好了嗎?
TSMC:
所有的云廠商都針對EDA工作任務(wù)推出了新的VM類型,我們不說CPU有多快,我們還要考慮內(nèi)存有多大,存儲IO有多快多有效,我們看的是整個服務(wù)包。
我們已經(jīng)對外公布了要在云上做5nm芯片,這給我們云合作伙伴帶來了很大的壓力,包括EDA合作伙伴。我們和產(chǎn)業(yè)內(nèi)其他伙伴都在一個生態(tài)系統(tǒng)里,大家明白我們都需要對方,所以我們的合作從理解各自的需求,在哪里可以增加價值開始。
現(xiàn)在我們半導(dǎo)體行業(yè)已經(jīng)吸引了云廠商的關(guān)注,我們開始試圖與對方合作,提供一些解決方案讓芯片設(shè)計從業(yè)者能夠從中受益。
在云上,一切都需要付錢。怎么控制成本?
Cadence:
我們內(nèi)部也有這樣的經(jīng)歷,因為我們也在云上做一些開發(fā)工作。我曾經(jīng)和IT部門的同事討論過,他們通常低估了跟蹤誰在什么時候用了什么服務(wù)這件事,而當(dāng)賬單來臨的時候,一個工程師可能跑了上千個任務(wù),他們可能也記不清自己用了些什么。這是個值得注意的問題。
關(guān)于這個問題,如果只從成本支出的角度來考慮這個問題,很可能會得出這個結(jié)論,最具性價比的方式是在本地?fù)碛心愕姆?wù)器并且100%地使用他們。而我們應(yīng)該要考慮的是成本和收益的平衡問題。
通常,我們都從云上獲得了一些商業(yè)好處,更快占領(lǐng)市場,獲取更多客戶等等。這不是一個完全的替換關(guān)系,你看看靜態(tài)的歷史數(shù)據(jù),就能比較出結(jié)果。
eSilicon:
在ASIC芯片的商業(yè)世界里,成本就是一切。
過去,當(dāng)你的工程師要用大量的資源,都是按照過去預(yù)計未來用量?,F(xiàn)在用了云,很簡單,我們就直接規(guī)定某個人這次只能用一定量的資源。
歡迎文末掃碼聯(lián)系小F
了解我們怎么幫你優(yōu)化及控制云上成本
你覺得在云上設(shè)計安全嗎?
QST:
作為一家創(chuàng)業(yè)公司,我對安全的定義有些不一樣。
我們大部分時間是和AWS合作。作為一家做創(chuàng)意設(shè)計和IP的公司,你希望保障自己的全部。但現(xiàn)實情況是,你不可能確保擁有最優(yōu)秀的IT和最好的安全人員。如果你在本地搭建你的整個設(shè)計系統(tǒng)和環(huán)境,服務(wù)器都在本地,我可以跟你保證你的安全措施肯定是很差的,很容易被外部破解。
如果你的IP在云上開發(fā)和存儲,比如AWS,比如cadence,你知道AWS在云上遵循的安全準(zhǔn)則,肯定比在本地要安全多了。目前階段,我們完全不擔(dān)心安全這個問題,但這不意味著如果有一天我們成長壯大之后我們不會改變。
AFRL:
盡管我們是云懷疑論者。但大的云廠商在云安全上的控制是對外公開的,每個人都知道你能得到什么,你能夠?qū)徲嬕磺邪踩募?/p>
像我們這個項目,不同的研究人員分散在不同的地方,還有外包商等等,鬼知道他們的IT情況怎么樣,我們把大家拉到一起,能確保大家在同一個系統(tǒng)里,遵守了同一套準(zhǔn)則。而不是制定一套準(zhǔn)則,寄希望于他們能按這個標(biāo)準(zhǔn)實施。誰知道結(jié)果會怎么樣?
目前為止,上云的成果是什么?
TSMC:
臺積電的OIP 云端聯(lián)盟現(xiàn)在已經(jīng)跟三大EDA供應(yīng)商:Synopsys/Cadence/Mentor,以及云廠商AWS/Azure/GoogleCloud正式合作,運用云端技術(shù)輔助芯片開發(fā)。
已經(jīng)擁有臺積電云端平臺使用經(jīng)驗的SiFive位于美國硅谷與印度Bangalore的團隊,通過云端進行設(shè)計,在不到三個月時間就完成了整套前后端設(shè)計,創(chuàng)下速度上的新高記錄。
eSilicon:
?。?、經(jīng)過測試,云上的資源比原來本地硬件設(shè)備表現(xiàn)提升了15%,同時能跑的任務(wù)比原來多了一倍。
?。?、云運維成本跟原來相比大大降低,我們估計了一下如果有一個類似的本地解決方案達到現(xiàn)在的效果,大概要花公司幾百萬美元。
?。?、沒有閑置資源,可以使用更多彈性資源,無限檔案存儲
?。?、加速芯片設(shè)計完成周期,能完成更多客戶需求
?。怠⒉皇鼙镜刭Y源限制,避免硬件投資
?。丁⒖s短推出市場的時間,提升設(shè)計結(jié)果質(zhì)量
?。?、云上有天然自帶監(jiān)控系統(tǒng)的架構(gòu),更容易追蹤記錄,進行用戶管理和監(jiān)控
?。浮⑽磥戆l(fā)展機器學(xué)習(xí)的可能性
Astera Labs:
?。薄⑦^去存儲怎么使用都不夠,現(xiàn)在可以無限擴展
?。?、工作安排可以排得比以前更多
?。?、我們充分利用了云資源的可擴展性和最新型的實例類型
4、可以根據(jù)不同任務(wù)使用獨立的云資源
?。怠⑽覀兛梢宰龀龈哔|(zhì)量的芯片
歡迎文末掃碼聯(lián)系小F
了解我們用戶案例的上云表現(xiàn)
對后來的上云實踐者有什么建議?
eSilicon:
1、把PDK、EDA工具和管理服務(wù)在云端做備份,減少本地和云端數(shù)據(jù)傳輸
2、只選取數(shù)據(jù)結(jié)果的一小部分在云端和本地同步
3、為了安全,云上的數(shù)據(jù)暫存區(qū)需要更高頻的清理
4、多云/多區(qū)域的資源整合和調(diào)度,對使用云上的可被搶占實例很重要,能降低成本
5、在云上必須使用SSD和高速存儲,提供足夠的擴展性和性能
6、不同的任務(wù)有獨占的分布式文件系統(tǒng),提供必要的性能和服務(wù)質(zhì)量
7、擁抱云上的彈性資源,不要用原來使用本地數(shù)據(jù)中心的方式來用云
8、根據(jù)不同的任務(wù)類型選擇更優(yōu)化的云上資源
9、如果本地就有l(wèi)icense不夠,任務(wù)排隊的問題,這會在云上花更多的錢(排隊也花錢)
10、善于使用可被搶占實例等折扣
11、對數(shù)據(jù)分層,選擇不同存儲方式:SSD、HD和云上存儲
12、注意:不同賬戶在云上使用資源是有限額的
Astera Labs:
1、一定要用可被搶占實例
2、使用成本是一定會被低估的,所以在快/好/便宜三個標(biāo)準(zhǔn)之間,按自己的情況,選擇兩個就夠了
《六家云廠商價格比較:AWS、阿里云、Azure、Google Cloud、華為云、騰訊云》的下篇就講六大云廠商的可被搶占實例,建議關(guān)注一下我們,大約下期發(fā)~~
Cadence:
1、花足夠的時間理清楚,公司用云的優(yōu)先級是什么,這些討論/分析/研究接下來會節(jié)約你很多時間。因為不同人對云的期待可能不一樣,如果沒有達成一致,會浪費很多時間。
2、確定你的使用模式是什么,是一個完整的項目,還是一個功能,還是為了合作。明確這一點,你能用正確的架構(gòu)來解決你的問題。
3、不只是在你的公司內(nèi)部,包括Foundry,包括工具提供商,第三方IP供應(yīng)商,會涉及到大量協(xié)作。