NVIDIA Clara Discovery 旨在為研究人員提供所需工具,以加速藥物發(fā)現(xiàn)
NVIDIA 攜手生物制藥公司阿斯利康( AstraZeneca )和佛羅里達(dá)大學(xué)的學(xué)術(shù)健康中心和佛羅里達(dá)大學(xué)健康學(xué)院,利用突破性的Transformer神經(jīng)網(wǎng)絡(luò)開(kāi)展新的 AI 研究項(xiàng)目。
近些年來(lái)新提出的基于Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu),讓研究人員可以利用自監(jiān)督訓(xùn)練方法使用批量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,無(wú)需手動(dòng)標(biāo)注數(shù)據(jù)。這些模型可以像學(xué)習(xí)語(yǔ)言語(yǔ)法一樣,學(xué)習(xí)句法規(guī)則來(lái)描述化學(xué),并應(yīng)用于跨研究領(lǐng)域和模式。
NVIDIA 正與阿斯利康合作開(kāi)發(fā)一種基于Transformer的生成式 AI 模型,用于藥物研發(fā)的化學(xué)結(jié)構(gòu)生成,這將是首個(gè)在 Cambridge-1上運(yùn)行的項(xiàng)目,并且Cambridge-1將會(huì)成為英國(guó)最強(qiáng)大的超級(jí)計(jì)算機(jī)。這種模型會(huì)開(kāi)源,在 NVIDIA NGC 軟件目錄中供研究人員和開(kāi)發(fā)者使用,并且可部署在 NVIDIA Clara Discovery 計(jì)算藥物研發(fā)平臺(tái)上。
另外,佛羅里達(dá)大學(xué)健康學(xué)院正在利用NVIDIA最新的Megatron框架和NGC上的BioMegatron預(yù)訓(xùn)練模型來(lái)開(kāi)發(fā)GatorTron,這是迄今為止最大的臨床語(yǔ)言模型。
新 NGC 應(yīng)用程序包括 AtacWorks,一種深度學(xué)習(xí)模型,用于識(shí)別可獲取的 DNA 區(qū)域;以及 MELD,一種從稀疏、模糊或噪聲數(shù)據(jù)中推斷生物分子結(jié)構(gòu)的工具。
用于分子分析的 Megatron 模型
由 NVIDIA 和阿斯利康開(kāi)發(fā)的藥物研發(fā)模型 MegaMolBART 計(jì)劃用于反應(yīng)預(yù)測(cè)、分子優(yōu)化和分子生成。此模型基于阿斯利康的 MolBART Transformer 模型,并在 ZINC 化合物數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練 —— 利用 NVIDIA 的 Megatron 框架在超算基礎(chǔ)設(shè)施上進(jìn)行大規(guī)模擴(kuò)展訓(xùn)練。
大型 ZINC 數(shù)據(jù)庫(kù)允許研究人員預(yù)訓(xùn)練模型來(lái)理解化學(xué)結(jié)構(gòu),無(wú)需手動(dòng)標(biāo)記數(shù)據(jù)。憑借對(duì)化學(xué)的統(tǒng)計(jì)理解,該模型將用于完成一系列下游任務(wù),包括預(yù)測(cè)化學(xué)物質(zhì)之間的相互作用,以及生成新的分子結(jié)構(gòu)。
阿斯利康分子 AI、發(fā)現(xiàn)科學(xué)和研發(fā)部門主管 Ola Engkvist 表示:“正如 AI 語(yǔ)言模型可以學(xué)習(xí)句子中詞語(yǔ)之間的關(guān)系一樣,我們的目標(biāo)是通過(guò)分子結(jié)構(gòu)數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)將能夠?qū)W習(xí)現(xiàn)實(shí)世界分子中原子之間的關(guān)系。開(kāi)發(fā)完成后,NLP 模型將成為開(kāi)源模型,為科學(xué)界提供一個(gè)加速藥物研發(fā)的強(qiáng)大工具?!?/p>
該模型使用 NVIDIA DGX SuperPOD訓(xùn)練,幫研究人員發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不存在但可能是潛在候選藥物的分子。稱為 in-silico 技術(shù)的計(jì)算方法,讓藥物開(kāi)發(fā)人員在進(jìn)行昂貴且耗時(shí)的實(shí)驗(yàn)室測(cè)試前,可以在廣闊的化學(xué)空間中搜索更多內(nèi)容并優(yōu)化藥理特性。
此次合作將使用由 NVIDIA DGX A100 賦能的 Cambridge-1 和 Selene 超級(jí)計(jì)算機(jī)大規(guī)模地運(yùn)行大型工作負(fù)載。Cambridge-1 是英國(guó)最大的超級(jí)計(jì)算機(jī),在 Green500 位列第三,在全球性能最強(qiáng)大的系統(tǒng) TOP500 榜單中排名第 29 位。NVIDIA 的 Selene 超級(jí)計(jì)算機(jī)排在最新的 Green500 榜首,位列 TOP500 第五。
語(yǔ)言模型加速醫(yī)療創(chuàng)新
佛羅里達(dá)大學(xué)健康學(xué)院的 GatorTron 模型使用 200 萬(wàn)名患者的超過(guò) 5,000 萬(wàn)次互動(dòng)記錄進(jìn)行訓(xùn)練,這是一個(gè)突破,可以幫助確定需要進(jìn)行臨床試驗(yàn)的患者,預(yù)測(cè)并向健康團(tuán)隊(duì)提醒危及生命的情況,并為醫(yī)生提供臨床決策支持。
佛羅里達(dá)大學(xué)教務(wù)長(zhǎng) Joseph Glover 表示:“GatorTron 利用十多年的電子病歷來(lái)開(kāi)發(fā)最先進(jìn)的模型。該校最近使用 NVIDIA DGX SuperPOD 提升了超級(jí)計(jì)算設(shè)施。這種規(guī)模的工具能幫助醫(yī)療健康研究人員獲取見(jiàn)解,并根據(jù)臨床筆記記錄判斷先前無(wú)法獲取的醫(yī)療趨勢(shì)。”
除臨床醫(yī)學(xué)外,該模型還可以快速創(chuàng)建患者群組進(jìn)行臨床試驗(yàn),以及研究特定藥物、治療或疫苗的效果,來(lái)加速藥物研發(fā)。
該模型利用 BioMegatron(有史以來(lái)訓(xùn)練規(guī)模最大的生物醫(yī)學(xué) Transformer 模型)構(gòu)建,BioMegatron是 NVIDIA 應(yīng)用深度學(xué)習(xí)研究團(tuán)隊(duì)使用 PubMed 語(yǔ)料庫(kù)數(shù)據(jù)開(kāi)發(fā)的。BioMegatron 可以從NGC上的 Clara NLP獲?。–lara NLP是用生物醫(yī)學(xué)和臨床文本進(jìn)行預(yù)訓(xùn)練的 NVIDIA Clara Discovery 模型集合)。
佛羅里達(dá)大學(xué)健康事務(wù)部副主席兼佛羅里達(dá)健康學(xué)院主席 David R.Nelson 博士表示:“GatorTron 項(xiàng)目是一個(gè)學(xué)術(shù)界和業(yè)界專家使用前沿人工智能和世界一流計(jì)算資源進(jìn)行協(xié)作的杰出范例。我們與 NVIDIA 的合作,對(duì)于佛羅里達(dá)大學(xué)成為人工智能專業(yè)知識(shí)和開(kāi)發(fā)中心至關(guān)重要?!?/p>
為藥物研發(fā)平臺(tái)賦能
計(jì)算藥物研發(fā)平臺(tái)也采用了 NVIDIA Clara Discovery 庫(kù)和 NVIDIA DGX 系統(tǒng),從而推動(dòng)藥物研究。
Schr?dinger 化學(xué)模擬軟件開(kāi)發(fā)領(lǐng)導(dǎo)者,今天宣布與 NVIDIA 建立戰(zhàn)略合作伙伴關(guān)系,包括科學(xué)計(jì)算和機(jī)器學(xué)習(xí)研究、NVIDIA 平臺(tái)上的 Schr?dinger 應(yīng)用程序優(yōu)化,以及圍繞 NVIDIA DGX SuperPOD 的聯(lián)合解決方案,在數(shù)分鐘內(nèi)評(píng)估數(shù)十億種潛在藥物化合物。
生物技術(shù)公司 Recursion 已安裝了 BioHive-1,這是一款基于 NVIDIA DGX SuperPOD 參考架構(gòu)的超級(jí)計(jì)算機(jī),截至 1 月,該超級(jí)計(jì)算機(jī)在全球頂尖計(jì)算機(jī)系統(tǒng) TOP500 榜單中排名第 58 位。BioHive-1 讓 Recursion 能夠在一天內(nèi)運(yùn)行深度學(xué)習(xí)項(xiàng)目,而之前使用他們已有的集群完成該項(xiàng)目需要一周時(shí)間。
Insilico Medicine是 NVIDIA Inception 初創(chuàng)加速計(jì)劃的合作伙伴,近日宣布發(fā)現(xiàn)了一種用于治療特發(fā)性肺纖維化的新臨床前候選藥物——這是首個(gè)針對(duì)新疾病靶標(biāo)進(jìn)行AI 分子設(shè)計(jì),并用于臨床試驗(yàn)的示例。由 NVIDIA Tensor Core GPU 驅(qū)動(dòng)的系統(tǒng)生成化合物,從目標(biāo)假設(shè)到臨床前候選人選擇,僅用時(shí)不足 18 個(gè)月,花費(fèi)不到 200 萬(wàn)美元。
作為 NVIDIA Inception初創(chuàng)加速計(jì)劃的一員,Vyasa Analytics使用 Clara NLP 和 NVIDIA DGX 系統(tǒng),讓用戶獲得用于生物醫(yī)學(xué)研究的預(yù)訓(xùn)練模型。該公司 GPU 加速的 Vyasa Layar Data Fabric 為多機(jī)構(gòu)癌癥研究、臨床試驗(yàn)分析和生物醫(yī)學(xué)數(shù)據(jù)協(xié)調(diào)解決方案提供動(dòng)力支持。
歡迎免費(fèi)注冊(cè)觀看NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛的主題演講。參加本周的 GTC詳細(xì)了解 NVIDIA 在醫(yī)療健康行業(yè)方面的進(jìn)展,醫(yī)療健康分論壇包括 16 場(chǎng)在線研討會(huì)、18 場(chǎng)特別活動(dòng)以及 100 多場(chǎng)演講。