今年的5月10日,首屆《中國生物計(jì)算大會暨數(shù)字醫(yī)學(xué)創(chuàng)新峰會》圍繞“如何定義生物計(jì)算”這一主題展開,來自百度、百圖生科、生命醫(yī)療大公司以及產(chǎn)業(yè)鏈上的合作伙伴都進(jìn)行了分享。此次大會表明,生物計(jì)算作為跨界融合和與人類命運(yùn)息息相關(guān)的技術(shù)產(chǎn)業(yè),正在成為科技業(yè)的一個(gè)新熱點(diǎn),“生物計(jì)算 = 新數(shù)據(jù) *新算法”成為大會公認(rèn)的觀點(diǎn)。
生物計(jì)算賽道下的數(shù)據(jù)中心正在面臨怎樣的挑戰(zhàn)?
圖 | 面向數(shù)據(jù)中心的靈活應(yīng)變加速器
由于數(shù)據(jù)大爆炸,特別是大量的非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生,應(yīng)用場景的不同,工作負(fù)載的不同,帶來了對加速需求也各不相同,數(shù)據(jù)中心正在經(jīng)歷一次技術(shù)轉(zhuǎn)型,從以CPU為中心轉(zhuǎn)向定制的分布式計(jì)算,同時(shí)多種不同的應(yīng)用、不同的工作負(fù)載及相應(yīng)的算法更新迭代很快,遠(yuǎn)遠(yuǎn)超出芯片的發(fā)展速度,現(xiàn)有芯片架構(gòu)無法滿足上述更新迭代的速度與需求。
什么樣的芯片架構(gòu)才能解決硬件拖后腿的現(xiàn)狀呢?
賽靈思大中華區(qū)數(shù)據(jù)中心業(yè)務(wù)銷售總監(jiān)鐘屹表示,“當(dāng)一種加速卡可以適配從云到端各種不同的工作負(fù)載,比如數(shù)據(jù)庫、視頻和金融,集成存儲和網(wǎng)絡(luò)的控制器,擁有強(qiáng)大的集成度,同時(shí)性能和能耗比在運(yùn)營和成本上,能給客戶帶來前所未有的價(jià)值的時(shí)候,這款產(chǎn)品就能滿足當(dāng)下市場的需求?!?/p>
“以賽靈思為例,我們的自適應(yīng)加速平臺——Alveo卡,就可以在三個(gè)方面很好的滿足數(shù)據(jù)中心不同應(yīng)用的要求。第一個(gè),得益于DSA ( Domain Specific Architecture)專用架構(gòu)的使用,Alveo具有高性能、高吞吐量和超低延時(shí)的特性。第二個(gè),自適應(yīng)能力,可以滿足不斷變化的工作負(fù)載。第三個(gè),Alveo卡集成存儲和網(wǎng)絡(luò)控制器,在加速方面,不僅僅能夠加速計(jì)算,同時(shí)還能加速存儲、網(wǎng)絡(luò),通過單卡滿足客戶多樣化要求。”
圖 | AI加速器橫評
“上圖展示了賽靈思自適應(yīng)加速平臺給客戶帶來的性能在不同應(yīng)用上的一個(gè)對比,以illumina為例,這是美國的一家做基因測序的公司,我們可以看到,用CPU做基因測序要30個(gè)小時(shí),而基于FPGA的解決方案則只要20分鐘,有90倍的性能提升?!?鐘屹補(bǔ)充道。
Alveo適用于“生物計(jì)算”中的哪些應(yīng)用領(lǐng)域?
根據(jù)賽靈思數(shù)據(jù)中心加速系統(tǒng)架構(gòu)師傅垚的介紹,賽靈思FPGA及自適應(yīng)計(jì)算加速平臺Alveo適合用于基因組學(xué)分析、圖形數(shù)據(jù)庫、醫(yī)療影像的處理分析,以及基于視頻影像監(jiān)控類型的應(yīng)用。
傅垚強(qiáng)調(diào),“賽靈思的Alveo加速平臺,最大的一個(gè)特點(diǎn)就是它能夠加速的計(jì)算類型理論上是不受限制的,不像GPU對于浮點(diǎn)的高密度的矩陣或者是矢量運(yùn)算比較強(qiáng),但其他的就會有限制,或者CPU基本上能做的事情比較多,但是他的性能也是有限的。”
圖 | 第二代基因測序流程
他舉例道,“以第二代基因測序?yàn)槔玖鞒叹褪腔蚨绦蛄袦y序、序列對比拼接、預(yù)處理、變體識別以及解碼/注釋。在序列對比拼接過程中,主要是一些字符串模式的比對,像GPU就很難做很高效的處理,但FPGA針對這種字符串模式的加速效果很好。此外,在變體識別過程中,會引用到很多統(tǒng)計(jì)算法之類的技術(shù),Alveo搭載了高性能的DSP,可以滿足高密度的計(jì)算需求。最后,在做生物醫(yī)學(xué)分析時(shí),會有很大的數(shù)據(jù)庫的處理或者是自然語言處理的一些工作量,Alveo的加速能力也不錯(cuò)?!?/p>
“應(yīng)用落地方面,以人和未來的基因測序分析項(xiàng)目為例,如果是用CPU來做的話,基本上24小時(shí)沒有辦法完成一個(gè)樣本的處理;用GPU來做,用8張英偉達(dá)的V100加速卡,可以完成32個(gè)樣本的處理;但是同樣的樣本處理,我們用Alvoe加速卡在基本標(biāo)準(zhǔn)的服務(wù)器上,單張Alveo加速卡就可以實(shí)現(xiàn)超過46個(gè)樣本的處理?!?/p>
“生物計(jì)算”落地者有話說
圖 | 人和未來基因順序分析框圖
針對傅垚的描述,來自人和未來的首席醫(yī)學(xué)官王益民表示,“圍繞加速這一需求我們一直在尋找一些可能的解決方案,經(jīng)過很長時(shí)間的對比,我們最終選定了賽靈思高性能的FPGA作為我們硬件。因?yàn)檫@樣的平臺有很多非常現(xiàn)實(shí)的優(yōu)勢,除了性能,還有其特有的軟硬件全部可重新編程的優(yōu)勢等?;谶@個(gè)平臺我們開發(fā)了圍繞大數(shù)據(jù)基因組這樣的存儲傳輸計(jì)算,以及后續(xù)的解讀大數(shù)據(jù)基因組相關(guān)的分析方案和平臺,從而使得我們快速推出了基因組分析平臺,并已經(jīng)在科研和臨床等各個(gè)領(lǐng)域開始部署和應(yīng)用?!?/p>
“在加速效果方面,經(jīng)過FPGA的加速,我們把原先大概需要30-40小時(shí)的分析時(shí)間,壓縮到了短短的20分鐘以內(nèi)。” 王益民如是說。
除了基因測序,來自雪湖科技的生命科學(xué)計(jì)算首席科學(xué)家盛楠表示,“藥物研發(fā)最重要的兩點(diǎn)就是藥效和安全性,從整個(gè)藥物發(fā)現(xiàn)和新藥研發(fā)流程中,計(jì)算占的比重還是比較大的。特別是在中間:靶點(diǎn)發(fā)現(xiàn),化合物發(fā)現(xiàn),以及先導(dǎo)化合物優(yōu)化方面。”
“以常見的抗流感病毒藥物——奧司他韋為例,從研發(fā)到上市只用了7年時(shí)間,這款藥物就是通過計(jì)算機(jī)輔助藥物設(shè)計(jì)算出來的。首先獲取靶點(diǎn)蛋白的三維結(jié)構(gòu),并數(shù)字建模,然后通過計(jì)算機(jī)計(jì)算與靶點(diǎn)結(jié)構(gòu)匹配的藥物分子。類似給鎖建立數(shù)字模型,配鑰匙。這樣做的好處是能夠大幅提高研發(fā)成功率,但數(shù)據(jù)量增加了數(shù)百萬倍?!?/p>
圖 | 新冠病毒表面刺突蛋白的動態(tài)結(jié)構(gòu)變化模擬耗時(shí)
“此外,分子動力學(xué)計(jì)算消耗算力也是非常巨大,例如對新冠病毒表面一個(gè)刺突蛋白的動態(tài)結(jié)構(gòu)變化,需要對100萬個(gè)原子之間的相互作用計(jì)算10億次。要完成這一模擬,一臺傳統(tǒng)CPU服務(wù)器需耗時(shí)8年。因此,往往需要大型超級計(jì)算機(jī)才能承擔(dān)。美國DEShaw研制了分子動力學(xué)專用超算ANTON2,搭載了分子動力學(xué)專用計(jì)算架構(gòu)的ASIC,對于剛才提到的百萬原子體系,每天能夠計(jì)算9.5微秒的運(yùn)動軌跡。這臺機(jī)器服務(wù)于Relay醫(yī)藥,為Relay醫(yī)藥提供算力支持,基于蛋白動態(tài)行為研發(fā)抗癌新藥。在新冠疫情爆發(fā)之后,這臺機(jī)器快速反應(yīng),公開了大量新冠病毒的分子動力學(xué)計(jì)算數(shù)據(jù)。”
據(jù)悉,雪湖科技基于賽靈思 Alveo 加速卡的分子動力學(xué)專用計(jì)算的性能優(yōu)異,對于百萬原子體系100納秒的模擬,只需要8小時(shí)就可以完成。
結(jié)語
目前人類與疾病的斗爭已經(jīng)進(jìn)入到算力的時(shí)代,需要更強(qiáng)算力與這些病毒,比如說新冠病毒進(jìn)行抗?fàn)帯?/p>