《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > NVIDIA攜手阿斯利康和佛羅里達(dá)大學(xué)健康學(xué)院實現(xiàn)AI藥物探索突破

NVIDIA攜手阿斯利康和佛羅里達(dá)大學(xué)健康學(xué)院實現(xiàn)AI藥物探索突破

2021-04-17
來源:互聯(lián)網(wǎng)
關(guān)鍵詞: NVIDIA AI DNA

  NVIDIA Clara Discovery 旨在為研究人員提供所需工具,以加速藥物發(fā)現(xiàn)

  NVIDIA 攜手生物制藥公司阿斯利康( AstraZeneca )和佛羅里達(dá)大學(xué)的學(xué)術(shù)健康中心和佛羅里達(dá)大學(xué)健康學(xué)院,利用突破性的Transformer神經(jīng)網(wǎng)絡(luò)開展新的 AI 研究項目。

6076b30c5798a-thumb.jpg

  近些年來新提出的基于Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu),讓研究人員可以利用自監(jiān)督訓(xùn)練方法使用批量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,無需手動標(biāo)注數(shù)據(jù)。這些模型可以像學(xué)習(xí)語言語法一樣,學(xué)習(xí)句法規(guī)則來描述化學(xué),并應(yīng)用于跨研究領(lǐng)域和模式。

  NVIDIA 正與阿斯利康合作開發(fā)一種基于Transformer的生成式 AI 模型,用于藥物研發(fā)的化學(xué)結(jié)構(gòu)生成,這將是首個在 Cambridge-1上運(yùn)行的項目,并且Cambridge-1將會成為英國最強(qiáng)大的超級計算機(jī)。這種模型會開源,在 NVIDIA NGC 軟件目錄中供研究人員和開發(fā)者使用,并且可部署在 NVIDIA Clara Discovery 計算藥物研發(fā)平臺上。

  另外,佛羅里達(dá)大學(xué)健康學(xué)院正在利用NVIDIA最新的Megatron框架和NGC上的BioMegatron預(yù)訓(xùn)練模型來開發(fā)GatorTron,這是迄今為止最大的臨床語言模型。

  新 NGC 應(yīng)用程序包括 AtacWorks,一種深度學(xué)習(xí)模型,用于識別可獲取的 DNA 區(qū)域;以及 MELD,一種從稀疏、模糊或噪聲數(shù)據(jù)中推斷生物分子結(jié)構(gòu)的工具。

  用于分子分析的 Megatron 模型

  由 NVIDIA 和阿斯利康開發(fā)的藥物研發(fā)模型 MegaMolBART 計劃用于反應(yīng)預(yù)測、分子優(yōu)化和分子生成。此模型基于阿斯利康的 MolBART Transformer 模型,并在 ZINC 化合物數(shù)據(jù)庫上進(jìn)行訓(xùn)練 —— 利用 NVIDIA 的 Megatron 框架在超算基礎(chǔ)設(shè)施上進(jìn)行大規(guī)模擴(kuò)展訓(xùn)練。

  大型 ZINC 數(shù)據(jù)庫允許研究人員預(yù)訓(xùn)練模型來理解化學(xué)結(jié)構(gòu),無需手動標(biāo)記數(shù)據(jù)。憑借對化學(xué)的統(tǒng)計理解,該模型將用于完成一系列下游任務(wù),包括預(yù)測化學(xué)物質(zhì)之間的相互作用,以及生成新的分子結(jié)構(gòu)。

  阿斯利康分子 AI、發(fā)現(xiàn)科學(xué)和研發(fā)部門主管 Ola Engkvist 表示:“正如 AI 語言模型可以學(xué)習(xí)句子中詞語之間的關(guān)系一樣,我們的目標(biāo)是通過分子結(jié)構(gòu)數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)將能夠?qū)W習(xí)現(xiàn)實世界分子中原子之間的關(guān)系。開發(fā)完成后,NLP 模型將成為開源模型,為科學(xué)界提供一個加速藥物研發(fā)的強(qiáng)大工具?!?/p>

  該模型使用 NVIDIA DGX SuperPOD訓(xùn)練,幫研究人員發(fā)現(xiàn)數(shù)據(jù)庫中不存在但可能是潛在候選藥物的分子。稱為 in-silico 技術(shù)的計算方法,讓藥物開發(fā)人員在進(jìn)行昂貴且耗時的實驗室測試前,可以在廣闊的化學(xué)空間中搜索更多內(nèi)容并優(yōu)化藥理特性。

  此次合作將使用由 NVIDIA DGX A100 賦能的 Cambridge-1 和 Selene 超級計算機(jī)大規(guī)模地運(yùn)行大型工作負(fù)載。Cambridge-1 是英國最大的超級計算機(jī),在 Green500 位列第三,在全球性能最強(qiáng)大的系統(tǒng) TOP500 榜單中排名第 29 位。NVIDIA 的 Selene 超級計算機(jī)排在最新的 Green500 榜首,位列 TOP500 第五。

  語言模型加速醫(yī)療創(chuàng)新

  佛羅里達(dá)大學(xué)健康學(xué)院的 GatorTron 模型使用 200 萬名患者的超過 5,000 萬次互動記錄進(jìn)行訓(xùn)練,這是一個突破,可以幫助確定需要進(jìn)行臨床試驗的患者,預(yù)測并向健康團(tuán)隊提醒危及生命的情況,并為醫(yī)生提供臨床決策支持。

  佛羅里達(dá)大學(xué)教務(wù)長 Joseph Glover 表示:“GatorTron 利用十多年的電子病歷來開發(fā)最先進(jìn)的模型。該校最近使用 NVIDIA DGX SuperPOD 提升了超級計算設(shè)施。這種規(guī)模的工具能幫助醫(yī)療健康研究人員獲取見解,并根據(jù)臨床筆記記錄判斷先前無法獲取的醫(yī)療趨勢。”

  除臨床醫(yī)學(xué)外,該模型還可以快速創(chuàng)建患者群組進(jìn)行臨床試驗,以及研究特定藥物、治療或疫苗的效果,來加速藥物研發(fā)。

  該模型利用 BioMegatron(有史以來訓(xùn)練規(guī)模最大的生物醫(yī)學(xué) Transformer 模型)構(gòu)建,BioMegatron是 NVIDIA 應(yīng)用深度學(xué)習(xí)研究團(tuán)隊使用 PubMed 語料庫數(shù)據(jù)開發(fā)的。BioMegatron 可以從NGC上的 Clara NLP獲取(Clara NLP是用生物醫(yī)學(xué)和臨床文本進(jìn)行預(yù)訓(xùn)練的 NVIDIA Clara Discovery 模型集合)。

  佛羅里達(dá)大學(xué)健康事務(wù)部副主席兼佛羅里達(dá)健康學(xué)院主席 David R.Nelson 博士表示:“GatorTron 項目是一個學(xué)術(shù)界和業(yè)界專家使用前沿人工智能和世界一流計算資源進(jìn)行協(xié)作的杰出范例。我們與 NVIDIA 的合作,對于佛羅里達(dá)大學(xué)成為人工智能專業(yè)知識和開發(fā)中心至關(guān)重要?!?/p>

  為藥物研發(fā)平臺賦能

  計算藥物研發(fā)平臺也采用了 NVIDIA Clara Discovery 庫和 NVIDIA DGX 系統(tǒng),從而推動藥物研究。

  Schr?dinger 化學(xué)模擬軟件開發(fā)領(lǐng)導(dǎo)者,今天宣布與 NVIDIA 建立戰(zhàn)略合作伙伴關(guān)系,包括科學(xué)計算和機(jī)器學(xué)習(xí)研究、NVIDIA 平臺上的 Schr?dinger 應(yīng)用程序優(yōu)化,以及圍繞 NVIDIA DGX SuperPOD 的聯(lián)合解決方案,在數(shù)分鐘內(nèi)評估數(shù)十億種潛在藥物化合物。

  生物技術(shù)公司 Recursion 已安裝了 BioHive-1,這是一款基于 NVIDIA DGX SuperPOD 參考架構(gòu)的超級計算機(jī),截至 1 月,該超級計算機(jī)在全球頂尖計算機(jī)系統(tǒng) TOP500 榜單中排名第 58 位。BioHive-1 讓 Recursion 能夠在一天內(nèi)運(yùn)行深度學(xué)習(xí)項目,而之前使用他們已有的集群完成該項目需要一周時間。

  Insilico Medicine是 NVIDIA Inception 初創(chuàng)加速計劃的合作伙伴,近日宣布發(fā)現(xiàn)了一種用于治療特發(fā)性肺纖維化的新臨床前候選藥物——這是首個針對新疾病靶標(biāo)進(jìn)行AI 分子設(shè)計,并用于臨床試驗的示例。由 NVIDIA Tensor Core GPU 驅(qū)動的系統(tǒng)生成化合物,從目標(biāo)假設(shè)到臨床前候選人選擇,僅用時不足 18 個月,花費(fèi)不到 200 萬美元。

  作為 NVIDIA Inception初創(chuàng)加速計劃的一員,Vyasa Analytics使用 Clara NLP 和 NVIDIA DGX 系統(tǒng),讓用戶獲得用于生物醫(yī)學(xué)研究的預(yù)訓(xùn)練模型。該公司 GPU 加速的 Vyasa Layar Data Fabric 為多機(jī)構(gòu)癌癥研究、臨床試驗分析和生物醫(yī)學(xué)數(shù)據(jù)協(xié)調(diào)解決方案提供動力支持。

  歡迎免費(fèi)注冊觀看NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛的主題演講。參加本周的 GTC詳細(xì)了解 NVIDIA 在醫(yī)療健康行業(yè)方面的進(jìn)展,醫(yī)療健康分論壇包括 16 場在線研討會、18 場特別活動以及 100 多場演講。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。