把 169861 個生物物種數(shù)據(jù)裝進大模型,大模型竟 get 到了生物中心法則的奧秘——
不僅能識別 DNA、RNA 與相應(yīng)蛋白質(zhì)之間的內(nèi)在聯(lián)系,在基因分類、蛋白質(zhì)相互作用預(yù)測、熱穩(wěn)定性預(yù)測等 7 種不同類型任務(wù)中也能比肩 SOTA 模型。
模型名為LucaOne,由阿里云飛天實驗室生物智能計算團隊打造。
相比 AlphaFold 3 因未開源遭到 650 多名學(xué)者聯(lián)名批評,LucaOne 訓(xùn)練推理代碼及相關(guān)數(shù)據(jù)目前均已開源。
LucaOne 是目前首個全生物系統(tǒng)的核酸語言 + 蛋白語言的融合基座模型。換句話說,LucaOne 由核酸(DNA、RNA)和蛋白質(zhì)序列聯(lián)合訓(xùn)練而來。
通過一系列實驗,研究人員發(fā)現(xiàn)它能廣泛適用各種下游任務(wù)。
在含 13 個物種、關(guān)系對總數(shù)量為 24000 的核酸序列和其對應(yīng)蛋白的正負(fù)樣本數(shù)據(jù)集中,LucaOne 提供表征的模型達到 0.85 的預(yù)測準(zhǔn)確率。
遠(yuǎn)高于目前業(yè)內(nèi)最好的預(yù)訓(xùn)練模型組合 ESM-3B+DNAbert2(0.73)及其他建模方式,也顯著高于 LucaOne 的單核酸訓(xùn)練版本 + 單蛋白訓(xùn)練版本。
其他任務(wù)如針對流感 H3N2 病毒疫苗有效性(免疫逃逸風(fēng)險)的預(yù)測,LucaOne準(zhǔn)確率可達 100%。
量子位也聯(lián)系到了論文一作,聊了聊 LucaOne 的實現(xiàn)細(xì)節(jié),以及 AI for Science 在生物科學(xué)領(lǐng)域的發(fā)展。
核酸和蛋白質(zhì)序列聯(lián)合訓(xùn)練
總的來說,LucaOne 圍繞中心法則的數(shù)據(jù)進行構(gòu)建,能夠?qū)W習(xí)到中心法則背后的原理和邏輯,可提取基因轉(zhuǎn)錄和蛋白質(zhì)翻譯過程中固有的復(fù)雜模式和關(guān)系,在使用層面相當(dāng)于提供了一個對 DNA、 RNA、蛋白質(zhì)的無差別表征。
PS:
分子生物學(xué)的中心法則即遺傳信息從 DNA 傳遞給 RNA,再從 RNA 傳遞給蛋白質(zhì)的過程,這一過程包括 DNA 的復(fù)制、RNA 的轉(zhuǎn)錄和蛋白質(zhì)的翻譯。
展開來看,LucaOne 整個工作流是這樣嬸兒的:
從技術(shù)上講,構(gòu)建 LucaOne 的難點首先是數(shù)據(jù)集的構(gòu)建。
在生命科學(xué)領(lǐng)域,真實存在的只是分子數(shù)據(jù)。
例如,核酸的表示方式是 4 種堿基。DNA 是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T);RNA 是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)。蛋白質(zhì)由氨基酸組成,自然界存在的氨基酸大約有 20-22 種,每種氨基酸也用一個字母表示。
而人類為理解這些分子的性質(zhì)與作用,通常需要添加很多注釋信息,包括一些圖片的注釋。注釋信息屬于人類語言,自然界本身不存在,從而就形成了一種生命科學(xué)領(lǐng)域的從 " 自然界 " 語言到 " 人類文化 " 語言的跨模態(tài)。
因此,LucaOne 的預(yù)訓(xùn)練數(shù)據(jù)不僅包含 DNA、RNA、蛋白質(zhì)這三類分子的序列(核苷酸序列或者氨基酸序列)數(shù)據(jù),同時還使用了這些分子的注釋信息。
總共涵蓋了 169861 個物種的核酸和蛋白質(zhì)序列和注釋信息,分為兩部分:
核酸數(shù)據(jù)集來自 RefSeq,包括核酸序列及注釋;蛋白質(zhì)數(shù)據(jù)集來自 InterPro、UniProt、ColabFold、RCSB-PDB、AlphaFold2,包括蛋白質(zhì)序列、注釋和三維結(jié)構(gòu)。
據(jù)介紹,在數(shù)據(jù)集的收集處理方面,阿里云飛天實驗室與中山大學(xué)、浙江大學(xué)等多個團隊進行了合作。
另一大難點是生物分子序列的預(yù)測和大語言模型預(yù)測下一個 token 不同,在模型訓(xùn)練階段還需要一些專門的設(shè)計。
LucaOne 采用了Transformer-Encoder架構(gòu),由 20 個編碼器塊組成,嵌入維度為 2560,總參數(shù)量1.8B。
研究人員在此基礎(chǔ)上進行了一些優(yōu)化:
使用 Pre-Layer 歸一化代替 Post-Layer 歸一化,以便更好地訓(xùn)練深層網(wǎng)絡(luò);使用旋轉(zhuǎn)位置嵌入(RoPE)代替?zhèn)鹘y(tǒng)絕對位置編碼,以推理更長序列。
此外,在數(shù)據(jù)處理和模型訓(xùn)練過程中,核苷酸和氨基酸用統(tǒng)一的方式進行表征或編碼。通過 token-type embeddings 實現(xiàn)核酸和蛋白質(zhì)序列的混合訓(xùn)練,區(qū)分核苷酸(0)和氨基酸(1)。
在兩個自監(jiān)督掩碼任務(wù)的基礎(chǔ)上,研究人員還增加了八個半監(jiān)督預(yù)訓(xùn)練任務(wù),通過序列注釋增強模型對數(shù)據(jù)的理解。
已能理解基因和蛋白對應(yīng)關(guān)系
為驗證核酸和蛋白質(zhì)數(shù)據(jù)混合訓(xùn)練的優(yōu)勢,研究人員分別使用核酸和蛋白質(zhì)數(shù)據(jù)單獨訓(xùn)練了兩個額外的模型—— LucaOne-Gene 和 LucaOne-Prot,并使用相同的 5.6M checkpoint 在分子生物學(xué)中心法則任務(wù)中進行了比較。
使用 t-SNE 可視化說明,與其他模型相比,LucaOne 的嵌入在兩個數(shù)據(jù)集上呈現(xiàn)出更緊密的聚類,可能包含了更多上下文信息。
為驗證 LucaOne 通過廣泛學(xué)習(xí)基因及蛋白語言,已具備對生物學(xué)中心法則里的基因和蛋白對應(yīng)關(guān)系的理解能力,研究人員設(shè)計了一個數(shù)據(jù)集及評測任務(wù)。
選取 13 個物種的核酸序列和其對應(yīng)蛋白的正負(fù)樣本數(shù)據(jù)集,關(guān)系對總數(shù)量為 24000,其中正負(fù)樣本比例 1:2?;蛐蛄袛?shù)據(jù)是其在基因組的原始數(shù)據(jù),包括了大量的非編碼區(qū)(內(nèi)含子,調(diào)控元件,及 " 垃圾片段 " 等)。
采用訓(xùn)練:驗證:測試比例為:4:3:25;即僅 3200 組數(shù)據(jù)作為訓(xùn)練,18750 組數(shù)據(jù)作為測試集來預(yù)測其核酸序列是否可以翻譯成數(shù)據(jù)組里的蛋白序列。
結(jié)果 LucaOne 提供表征的模型達到0.85的預(yù)測準(zhǔn)確率,不僅遠(yuǎn)高于目前業(yè)內(nèi)最好的預(yù)訓(xùn)練模型組合 ESM-3B+DNAbert2(0.73)及其他建模方式,也明顯高于 LucaOne 的單核酸訓(xùn)練版本 + 單蛋白訓(xùn)練版本。
這表明這兩種大分子數(shù)據(jù)聯(lián)合訓(xùn)練可以顯著增強模型的學(xué)習(xí)效果。
有意思的是,研究人員發(fā)現(xiàn)在模型細(xì)分表現(xiàn)里,LucaOne海鞘這種生物里的預(yù)測表現(xiàn)比較差(其他模型也類似),進一步分析海鞘的特性表明,因為進化適應(yīng)性等各種原因,海鞘利用中心法則的具體規(guī)則 - 密碼子偏好性,和其他生物明顯不同。
他們猜測 LucaOne 可能用的是另一種中心法則語法" 方言 ",而這種 " 方言 " 在訓(xùn)練數(shù)據(jù)集里僅有 100 條,因此模型沒有很好的學(xué)習(xí)到這種規(guī)則。
在其他下游任務(wù)中,LucaOne 對不同類型輸入的下游任務(wù)也廣泛適用。
具體來說,研究人員評估了 7 個不同類型的下游生物計算任務(wù),包括 :
單序列任務(wù):GenusTax(屬分類)、ncRNAFam(ncRNA 家族分類)、ProtLoc(蛋白質(zhì)亞細(xì)胞定位)、ProtStab(蛋白質(zhì)熱穩(wěn)定性預(yù)測)。同源序列對任務(wù):InfA(流感血凝素分析)、PPI(蛋白質(zhì)相互作用預(yù)測)。異源序列對任務(wù):ncRPI(ncRNA- 蛋白質(zhì)相互作用預(yù)測)。
為簡化下游任務(wù),研究人員使用了三種對應(yīng)不同輸入形式的簡單網(wǎng)絡(luò)架構(gòu):
結(jié)果表明,GenusTax、ProtStab、ncRNAFam、InfA、PPI 任務(wù)上,LucaOne 顯著優(yōu)于其他模型;ProtLoc 任務(wù)上,LucaOne 與 ESM2-3B 相當(dāng),優(yōu)于 SOTA;ncRPI 任務(wù)上,LucaOne 優(yōu)于 DNABert2+ESM2-3B 的組合:
值得一提的是,在流感 H3N2 病毒的免疫逃逸風(fēng)險預(yù)測中,研究人員采用了 1968 年至 2010 年間分離的大規(guī)模 H3N2 病毒 HA 序列數(shù)據(jù)進行了基于流感毒株抗原關(guān)系的預(yù)測模型。
通過病毒 HA 抗原序列來預(yù)測其是否會誘導(dǎo) HIA 實驗的血凝現(xiàn)象,進而預(yù)測其是否在特定人群中會發(fā)生免疫逃逸。
要知道,目前預(yù)防與控制流感最有效的方法是接種流感疫苗,但是由于流感病毒極快的變異速度,導(dǎo)致不能及時與準(zhǔn)確地推薦與流行病毒相匹配的流感疫苗株。根據(jù) WHO 和 CDC 的監(jiān)測,流感疫苗的有效性在 40%-60% 之間。因此準(zhǔn)確預(yù)測流行毒株,判斷免疫逃逸風(fēng)險是一個重要且困難的命題。
研究人員使用基于 LucaOne+ 一層感知機的模型達到了 100% 的準(zhǔn)確率。
這也說明 LucaOne 學(xué)習(xí)的大量核酸序列信息,包括大量其他病毒序列,為計算特定任務(wù)提供了很好的信息補充。
更多細(xì)節(jié),感興趣的家人們可查看原論文。
"Science for AI"
如前文所述,LucaOne 背后開發(fā)團隊來自阿里云飛天實驗室 LucaTeam,LucaTeam 也與多個團隊展開了深度合作。
中山大學(xué)醫(yī)學(xué)院施莽教授及其團隊參與了 LucaOne 模型的數(shù)據(jù)設(shè)計與驗證。施莽教授認(rèn)為:
LucaOne 是一項極為重要的嘗試。最讓我驚訝的是,在沒有任何先驗知識的前提下,LucaOne 確實能夠更有效地學(xué)習(xí)中心法則中核酸與蛋白質(zhì)之間的對應(yīng)關(guān)系。
中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院病原生物學(xué)研究所所長、美國微生物科學(xué)院會士舒躍龍教授及其團隊參與了 LucaOne 在流感病毒方面的分析與驗證工作。舒躍龍教授表示:
將前沿的 AI 技術(shù)與病原生物學(xué)相結(jié)合具有重大的科學(xué)意義和社會價值。通過這種緊密的跨學(xué)科協(xié)作,我們能探索更多病原生物起源進化、跨種傳播以及感染致病等方面的規(guī)律,為傳染病防控和生物安全做出更大的貢獻。
此外,論文一作賀勇是阿里云飛天實驗室生物計算高級算法專家,我們也就 LucaOne 與其展開聊了聊 AI for Science 在生物科學(xué)領(lǐng)域的發(fā)展。
在他看來,AI for Science 在生物科學(xué)領(lǐng)域正處于剛起步的階段,考慮到 AI 可解釋性的問題,基本上現(xiàn)在他們還只是把 AI 當(dāng)做一個工具,但同時現(xiàn)在是發(fā)展 AI for Science 的一個很好的時間節(jié)點。
因為現(xiàn)在測序技術(shù)發(fā)展非常迅速,測序成本下降很多,分子序列數(shù)據(jù)很容易就能獲得。有了數(shù)據(jù)大量的積累,就可以數(shù)據(jù)驅(qū)動的 AI for Science 相關(guān)工作。
不過,目前的局限在于測序得到還是分子的序列數(shù)據(jù),而真實世界每個分子的存在是一個空間結(jié)構(gòu),這可能就需要更復(fù)雜的模型來處理。
而不同學(xué)科間的研究方法不同、探索微觀世界也受限于目前的設(shè)備技術(shù),賀勇認(rèn)為人類對生物科學(xué)這個領(lǐng)域的認(rèn)識目前也只是冰山一角,還無法從全局角度構(gòu)建一個全面通用的系統(tǒng)。
最后他還補充道:
目前大家對 AI for Science 越來越重視,相當(dāng)于用 AI 去解決具體的問題。我想接下來還應(yīng)該回過頭來看 Science 能為 AI 帶來什么?解決具體問題是第一步,最后通過問題反哺技術(shù)本身其實可能也是應(yīng)該考慮的。