《電子技術(shù)應用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 前沿 | GAN用于材料設計:哈佛大學新研究登上Science

前沿 | GAN用于材料設計:哈佛大學新研究登上Science

2018-08-09

在材料領域,機器學習技術(shù)經(jīng)常被用于特性預測,學到一個函數(shù)能繪制出符合選擇特性的分子材料。而近日哈佛大學與多倫多大學的研究者在Science上發(fā)表了一篇關于新材料設計的論文,該論文將深度生成模型引入反演設計,從而合成有機物甚至設計新型藥物。


論文:Inverse molecular design using machine learning: Generative models for matter engineering

微信圖片_20180809213620.jpg


論文地址:http://science.sciencemag.org/content/361/6400/360


摘要:新材料的發(fā)現(xiàn)能為社會與科技發(fā)展帶來巨大進步。當今環(huán)境下,全面探索潛在材料空間在計算方面非常困難。在這篇文章中,我們回顧了反演設計方法(inverse design)——一種以特定預期功能為起點發(fā)現(xiàn)專門材料的方法。近期人工智能領域的快速發(fā)展,特別是機器學習的子領域深度學習的發(fā)展,帶來了思維轉(zhuǎn)變,提出了反演分子設計的方法且快速得以利用。其中,深度生成模型被應用到了大量材料類別上:新型藥物的合理設計、有機化合物合成、太陽光電與液流電池優(yōu)化以及多種固態(tài)材料等。


介紹


個性化醫(yī)療到能源生產(chǎn)與存儲,21 世紀的許多挑戰(zhàn)都存在一個共同主題:材料永遠是解決方案的一部分。有時,這些問題的解決方案都受限于材料的物化特性,例如材料帶隙(materials bandgap)關系對太陽能發(fā)電的限制。


先前,重大材料的發(fā)現(xiàn)都是科學家偶然間或者多次試驗得到的。例如,人們觀察到用硫等添加劑加熱可以提高橡膠的耐用性,于是在 19 世紀從其混合物中制造了硫化橡膠。在分子層面,單個高分子鏈交叉結(jié)合,形成的新鏈在宏觀力學特性上得到增強。其他值得一提的例子像聚四氟乙烯、麻醉劑、凡士林、苯胺紫、盤尼西林也都是通過這種形式得到的。此外,這些材料來自于天然的化學成分。其他潛在藥物要么是在化學實驗室中合成的,要么是從植物、土壤細菌或者真菌中提取出來的。例如,直到 2014 年,49% 的小分子抗癌藥物都是天然化合物或者是天然化合物的衍生物。


未來,物質(zhì)發(fā)現(xiàn)的爆炸性進展來自于所有可能的分子和固態(tài)化合物集合中未開發(fā)的區(qū)域,即化學空間。其中最大的一個分子集合——化學空間計劃——已經(jīng)繪制了 1664 億個分子,至多包含 17 個重原子。其中與藥理學相關的小分子,結(jié)構(gòu)數(shù)量據(jù)估計約為 1060 個??紤]到從亞納米到微觀到介觀(mesoscopic)的尺度層級,對化學空間的探索整體上變得復雜。因此,任何想要覆蓋這一空間的全局策略看起來都無法實現(xiàn)。模擬為在不做實驗的情況下探索這一空間提供了可能。這些分子的物化特性都由量子力學掌控,也就是可通過薛定諤方程式求解來達到精確。但在實際中,常通過損失部分準確率的近似法來減少計算時間。


盡管理論上有了巨大進步,但如今以常規(guī)方法建模分子、群集以及含缺陷的周期性固體,化學空間依然龐大無比,且需要智能導航。有鑒于此,機器學習、深度學習以及人工智能非常有潛力,因為它們的計算策略是通過經(jīng)驗自動改進的。在材料領域,機器學習技術(shù)經(jīng)常被用于特性預測,學到一個函數(shù)能繪制出符合選擇特性的分子材料。深度生成模型是深度學習方法的一種,能以非線性的方式建模結(jié)構(gòu)與特征以及與它們相關的潛在可能性分布。通過利用大量數(shù)據(jù)中的模式,這些模型能提取表現(xiàn)分子特性的平均的、顯著的特征。


反演設計是發(fā)現(xiàn)復雜材料過程的一部分。從在實驗室發(fā)現(xiàn)到形成商業(yè)產(chǎn)品,新技術(shù)的部署周期一般是 15-20 年。依照慣例,這一過程(下圖 1)涉及到以下步驟:(i) 生成全新的或者改進材料概念并模擬其潛在適用性;(ii) 合成材料;(iii) 把材料組合成設備或者系統(tǒng); (iv) 表現(xiàn)并測量其預期特性。這一周期生成反饋,不斷重復、改進、精煉。每個步驟都可能花費數(shù)年。

微信圖片_20180809213647.jpg

圖 1:材料發(fā)現(xiàn)范式的對比圖解。當前范式如左圖所示,用有機液流電池作為示例。閉環(huán)范式如右圖所示。完成這一閉環(huán)需要融合反演設計、智能軟件、AI/ML、嵌入式系統(tǒng)和機器人,組成一個融合的生態(tài)系統(tǒng)。圖:K. HOLOSKI 編輯。


在物質(zhì)工程的時代,科學家們試圖加速這一閉環(huán),減少每一步所需要的時間。最終目標是兼顧提出、創(chuàng)造、特征化新材料,每部分構(gòu)成都能同時傳送、接收數(shù)據(jù)。這一過程被稱為「閉環(huán)」(closing the loop),且反演設計是重要的組成。


反演設計

微信圖片_20180809213720.jpg

圖 2:不同分子設計方法圖解。反演設計始于期望分子特性,終于化學空間,這不同于從化學空間到分子特性的直接方法。圖:K. HOLOSKI 編輯。


分子表征

微信圖片_20180809213742.jpg

圖 3:應用于 AQDS 分子的不同類型分子表征,這種分子被用于構(gòu)建有機液流電池。從最上面順時針來看:(1)量化分子環(huán)境的出現(xiàn)和缺失的指紋向量;(2)使用簡化文本編碼來描述化學空間結(jié)構(gòu)的 SMILES 字符串;(3)可建模模型相互作用或?qū)ΨQ性的勢能函數(shù);(4)包含原子和鍵權(quán)重的圖;(5)庫侖矩陣;(6)分子鍵和分子碎片的集合;(7)原子及原子電荷的 3D 幾何圖形;(8)電子密度。圖:K. HOLOSKI 編輯。

微信圖片_20180809213822.jpg

圖 4:生成模型中幾種架構(gòu)的示意圖。RNN 用于序列生成。VAE 展示的是半監(jiān)督變體,由分子(x)和屬性(y)聯(lián)合訓練。Z 表示潛在空間,z 表示潛在向量。在 GAN 設定中,噪聲最終通過對抗訓練轉(zhuǎn)換成分子結(jié)構(gòu)。強化學習(RL)展示了 MTCS 在 SMILES 補全任務時獲得任意獎勵的策略梯度。圖的右下方是混合結(jié)構(gòu)(如 AAE,對抗自編碼器)及 ORGAN,表示 GAN 和 RL。圖:K. HOLOSKI 編輯。


展望


反演設計是加速設計物質(zhì)所需的復雜框架的重要組成。反演設計的工具(尤其是那些從機器學習領域發(fā)展而來的工具)近年來發(fā)展迅速,并成功將化學空間納入概率數(shù)據(jù)驅(qū)動模型中。生成模型可以生成大量的候選分子,并且這些候選分子的物理實現(xiàn)將需要自動化的高吞吐量工程來驗證生成方法。社區(qū)目前并沒有開發(fā)出足夠多的成功的物質(zhì)設計閉環(huán)方法。理論和實驗之間壁壘的倒塌將為我們帶來 AI 驅(qū)動的自動化實驗設備。


反演設計工具與主動學習方法(例如貝葉斯優(yōu)化)的結(jié)合可以讓模型在探索化學空間時實現(xiàn)自適應,這將使得在高度不確定性的區(qū)域擴展模型成為可能,并允許發(fā)現(xiàn)包含所需特性的分子空間區(qū)域(作為組成的函數(shù))。目標函數(shù)空間的主動學習也許能幫助我們更好地理解在開展機器學習過程中對最佳獎勵的搜索。


如我們所見,機器學習方法論的核心是分子的表征;編碼相關物理過程的表征將具有更好的泛化能力。盡管我們?nèi)〉昧丝捎^的進展,但仍存在很多需要完成的工作。分子的圖和分層表征還需要進一步研究。


將機器學習作為一種新的知識支柱集成到化學、生化、醫(yī)學和材料科學領域中,研究者們就能更迅速地采用本研究中總結(jié)出的方法。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。