除了芯片設(shè)計產(chǎn)業(yè),騰訊也將重點布局云渲染、生命科學等多個高性能計算賽道。
隨著上云和用云的需求逐漸深化,云廠商在積極往行業(yè)滲透,打造最佳客戶實踐。
不久前,騰訊云聯(lián)合速石科技為芯片設(shè)計企業(yè)燧原科技,打造了一個面向HPC(高性能計算)場景的行業(yè)解決方案。該方案基于騰訊和速石科技共建的一站式芯片設(shè)計研發(fā)云平臺,快速自動地調(diào)用騰訊云IaaS資源構(gòu)建仿真環(huán)境,滿足了燧原科技的業(yè)務(wù)彈性需求,提升了整體的項目研發(fā)效率。
“它是一個可見的有巨大潛力的藍?!?,騰訊云高性能計算行業(yè)高級經(jīng)理Kevin說,騰訊云會在這方面加大投入。據(jù)數(shù)智前線獲悉,除了芯片設(shè)計產(chǎn)業(yè),騰訊也將重點布局云渲染、生命科學等多個高性能計算賽道。
01
芯片設(shè)計產(chǎn)業(yè)上云正在成為趨勢
燧原科技作為國內(nèi)領(lǐng)先的AI芯片設(shè)計企業(yè),當初創(chuàng)造過僅用18個月就將技術(shù)門檻很高的AI訓練芯片一次性流片成功的紀錄。
但隨著工藝制程越來越先進,燧原也面臨著IT資源和效率無法滿足業(yè)務(wù)需要的矛盾。
芯片的研發(fā)周期通常都比較緊張,尤其是大芯片,中后期經(jīng)常是按天來做任務(wù)排期。而行業(yè)內(nèi)普遍采用的是自建IDC(數(shù)據(jù)中心),Kevin告訴數(shù)智前線,這么做主要是當時的芯片工藝沒那么先進,對算力的需求也沒那么大。
而且,燧原科技IT負責人Vincent透露,芯片項目在前期會做大量論證和規(guī)劃,包括需要多少算力和存儲。但問題在于,在項目推進過程中經(jīng)常會有變更,包括制程的改進、功能變化及性能指標調(diào)整。這種變更會造成大量突發(fā)的算力需求。如果要通過采買服務(wù)器或者是租借服務(wù)器的方式來滿足需求,從部署、上線測試,需要相當長的一段時間業(yè)務(wù)團隊才能用上這些算力,影響研發(fā)進度。
這樣的效率顯然是無法接受的。尤其是這幾年的疫情導(dǎo)致采買硬件的周期不可控,但芯片項目周期是明確的,這就意味著,芯片設(shè)計企業(yè)要面臨一個不確定的IT資產(chǎn)的風險。比如一天之內(nèi)要準備一兩百臺服務(wù)器,只有上云才能夠做到,如果是原有的IT流程,從確認服務(wù)器型號到采購,從安裝服務(wù)器上機柜到機房運維,最快要8到12周,而且IT資金占用成本太高。
“這是我們上云的一個契機吧。”Vincent提到。
大芯片設(shè)計周期超過12個月,包括產(chǎn)品定義、前端設(shè)計、IP驗證、SOC驗證、綜合、布局布線等多個階段,不同階段對算力的需求不相同。驗證環(huán)節(jié)是算力使用的高峰期。所以,燧原也選擇將部分仿真驗證搬到云上,“前端IP驗證的過程基本都上云了,后續(xù)我們肯定是希望把整個彈性的部分盡量都上云。”燧原科技項目負責人Eli說。
燧原有大量彈性作業(yè)的需求,比如需要在同一個時間配置數(shù)百臺的服務(wù)器,對穩(wěn)定性和實時響應(yīng)的要求非常高。目前,騰訊云聯(lián)合速石可以做到讓客戶在1小時內(nèi)快速把仿真作業(yè)跑起來,讓客戶在有限時間更頻繁地去跑仿真和驗證任務(wù),提高流片前的成功率。同時基于速石對業(yè)務(wù)場景優(yōu)化和CAD方面的能力,幫助燧原整體Job運行時間降低了50%,加快了整個項目的研發(fā)進度。
而且,芯片設(shè)計行業(yè)如今已經(jīng)進入到7nm甚至3nm時代,一顆芯片上會有幾百億級的晶體管,它對算力的需求會大大增加。這就意味著,芯片企業(yè)在高峰期的算力需求非常明顯,燧原等芯片設(shè)計企業(yè)開始向云廠商尋求彈性的算力解決方案。
“上云是一個行業(yè)趨勢。”Vincent說,“都在嘗試,但全部都上云還需要一些時間。”
02
安全、效率和成本的鐵三角
芯片設(shè)計企業(yè)最核心的是各種芯片代碼和知識產(chǎn)權(quán),相比于很多行業(yè),這個賽道對數(shù)據(jù)安全有著更高的要求。
燧原科技在上云的態(tài)度是,所有的數(shù)據(jù)要放在本地,只有彈性的部分在云上,中間不做數(shù)據(jù)存儲。所以,騰訊云和速石在燧原的建議和啟發(fā)下,大家探索出了“存算分離”的混合云計算架構(gòu),并且花了五六個月時間去驗證。
它能夠在保障核心數(shù)據(jù)、代碼存儲在本地的前提下,通過速石的調(diào)度平臺與本地計算集群打通,使得計算任務(wù)能夠靈活選取本地或云端算力隊列。
速石科技技術(shù)總監(jiān)陳琳濤透露,此次采用的存算分離方案本質(zhì)上是一個混合云方案,在燧原的項目中,該方案面臨進一步的技術(shù)挑戰(zhàn),例如在整個混合云建設(shè)架構(gòu)上,對網(wǎng)絡(luò)的時延、帶寬的吞吐率和效率的要求都非常高,這就要求三方共同在這個項目里尋求最優(yōu)的架構(gòu)布置方式。
Vincent坦言,因為做了存算分離的架構(gòu),數(shù)據(jù)在本地,所以企業(yè)對安全的擔憂會有降低。
以前的存算分離,是在同一自治域內(nèi),比如都在騰訊云上實現(xiàn)。但現(xiàn)在燧原的方案是在兩個自治域內(nèi),混合云部署,這增加了物理距離,而且各種接口的調(diào)度變得更加復(fù)雜,更加考驗云廠商和合作伙伴的能力。而速石平臺不改變用戶的使用習慣,讓使用者無感地調(diào)用云資源,對資源的調(diào)用更加便捷,減少上云的學習成本。
這也是云廠商在深入行業(yè)時經(jīng)常遇到的難題。騰訊云和速石之前考慮的是直接把客戶的數(shù)據(jù)上云,方便高效。但溝通之后發(fā)現(xiàn),芯片客戶對數(shù)據(jù)安全的要求,還是采用混合云存算分離的架構(gòu)最為合適。騰訊云目前僅做算力的支撐,速石平臺提供自動化高效的環(huán)境構(gòu)建,燧原的知識代碼等企業(yè)核心數(shù)據(jù)都是放在線下。不過,在Kevin看來,有些不敏感的數(shù)據(jù)理論上可以上云,通過緩存技術(shù)來提高仿真效率。
Kevin告訴數(shù)智前線,早期初創(chuàng)企業(yè),存量數(shù)據(jù)和存量資產(chǎn)少,對安全沒那么大顧慮,使用全云方案是首選,但規(guī)模大了之后,很多企業(yè)則傾向采用混合云架構(gòu)。
而且,很多芯片設(shè)計企業(yè)以前就有很多IDC資產(chǎn),如何把原有的資源利用起來,也是企業(yè)的訴求,可以比較好的平衡既有資產(chǎn)的投資投入,同時又兼顧云的彈性、靈活、快捷、便捷。“所以從這個角度上來說,混合云是目前來看一個比較好的選擇?!?/p>
像燧原并沒有將全部業(yè)務(wù)搬到云上,其中一部分依然用到了本地的算力,比如項目前期運行還是更適合本地已有的算力。事實上,很多芯片設(shè)計企業(yè)還是以本地為主,云上做彈性的部分。
混合云的部署方式,對IT成本的節(jié)約也在逐漸成為共識。
燧原算過一筆賬,如果自己采買服務(wù)器、自建機房,按照三五年的周期財務(wù)進行對比,每個月均攤的成本會比每個月上云均攤的成本更低。但如果從節(jié)省時間和人力、提升效率以及整體的綜合成本考慮,上云的優(yōu)勢還是非常明顯。因為云不需要水電,也不需要自己運維,這部分都是省下來的,而且快速部署和彈性擴容的能力,能讓昂貴的研發(fā)人員提高效率,縮短研發(fā)周期。
除了采用存算分離的架構(gòu),騰訊云聯(lián)合速石也為燧原等芯片設(shè)計客戶打造了從終端到云端的完整安全方案:在終端,騰訊云的零信任安全的iOA方案,可以保障燧原全國各地的研發(fā)人員,能無縫體驗一致的仿真環(huán)境,同時確保終端安全、信息保護以及一些漏洞的保護。
在云端,使用了騰訊的主機安全,保障整個計算環(huán)境是安全授信的,通過這個部分確保整個計算過程不會有入侵、數(shù)據(jù)泄露、勒索病毒等等的問題。甚至是傳輸層面,騰訊云與燧原之間有一條超大帶寬的網(wǎng)絡(luò)保障,確保了整個傳輸?shù)耐ǖ腊踩尚拧?/p>
不難發(fā)現(xiàn),通過存算分離的架構(gòu)和混合云的部署方案,既滿足了對彈性算力和效率的需要,又能滿足節(jié)約成本和數(shù)據(jù)安全的需要。而這些都是企業(yè)在上云和用云過程中最在意的東西,也是云廠商需要重視和解決的方面。
目前,“存算分離”的混合云架構(gòu)已經(jīng)幫助燧原節(jié)省了可觀的IT投入,任務(wù)并發(fā)量可以通過云端彈性同步提高,同時部分仿真周期縮短30%-50%。
當然,Eli也提到,現(xiàn)階段使用這一套三方共創(chuàng)的存算分離方案滿足了部分業(yè)務(wù)在彈性算力使用量上的需求去做的各種定義。而下一步我們還要進一步優(yōu)化,提升使用效率,“如何更高效的利用云上機器,如何契合業(yè)務(wù)使用進行高效優(yōu)化,并遷移更多的業(yè)務(wù),這個是我們接下來要做的事情?!?/p>
不難發(fā)現(xiàn),通過存算分離的架構(gòu)和混合云的部署方案,既滿足了對彈性算力和效率的需要,又能滿足節(jié)約成本和數(shù)據(jù)安全的需要。
未來,GPU加速芯片仿真及提供智能芯片設(shè)計優(yōu)化是行業(yè)的新方向,騰訊云也將與國內(nèi)外EDA軟件合作共建加速仿真生態(tài),為芯片仿真作業(yè)帶來數(shù)倍的加速并提供AI智能PPA優(yōu)化能力。同時騰訊云也在嘗試探討云端開發(fā),把芯片設(shè)計前流程部署云上,基于全云構(gòu)建芯片設(shè)計流程,進一步提升大芯片研發(fā)設(shè)計效率。在高并發(fā)場景下,騰訊云通過遨馳云原生操作系統(tǒng)的海量大規(guī)模調(diào)度能力,及豐富多元的裸金屬實例、 GPU 實例,在芯片的仿真驗證和性能對比測試環(huán)節(jié),可一站式完成多代次,多卡型的驗證工作,節(jié)省自建購買費用,極大提升部署效率和測試效率。
更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<