如果你曾經(jīng)看過《犯罪現(xiàn)場》這樣的罪案劇,你可能會想起一個場景:法醫(yī)通過電腦對數(shù)千個DNA片段進(jìn)行搜索,從而匹配出犯罪現(xiàn)場和犯罪嫌疑人。雖然這個過程在現(xiàn)實生活并不像電視劇那樣,但是主要思路是一樣的。遺傳學(xué)本質(zhì)上是一門比較科學(xué)。無論你是想確認(rèn)一名嫌疑犯、一種基因疾病還是一名失散已久的親屬,都需要將一個基因組與另一個基因組進(jìn)行比較,從而在數(shù)十億個DNA中發(fā)現(xiàn)相似和不同。
雖然確認(rèn)失蹤人員或者犯罪嫌疑人的過程通常只會涉及到一個人的幾個遺傳片段,但是像識別某種疾病的基因變異這樣的問題,往往需要大量的數(shù)據(jù)處理。盡管目前很多前沿的研究都是為了幫助科學(xué)家們做到這一點,但對所有這些數(shù)據(jù)都做到充分的定義還面臨著巨大的挑戰(zhàn)。這也正是人工智能所要解決的問題。
本周,谷歌推出了一款名為DeepVariant的程序,可以通過深度學(xué)習(xí)來拼湊一個人的基因組并且更準(zhǔn)確地識別出DNA序列中的突變。
這個技術(shù)在谷歌中曾經(jīng)用來識別一張照片是貓還是狗,在這里DeepVarient利用了相同的技術(shù)解決了DNA分析領(lǐng)域的一個重要問題。現(xiàn)代DNA測序儀可以執(zhí)行高通量測序,讀取出的不是完整的DNA序列,而是重疊的短片段。然后將這些片段與另一個基因組進(jìn)行比較,從而將它們拼湊在一起,進(jìn)行變異識別。但是這項技術(shù)很容易出錯,科學(xué)家也很難排查出這些錯誤以及小突變。這些小突變非常重要。它們可以提供重要的見解,比如說,疾病的根本原因。區(qū)分哪些堿基對是錯誤的,哪些是正確的,這被稱為“變量調(diào)用”。
其實已經(jīng)有一些工具可以幫助科學(xué)家做到這一點。最廣泛使用的是GATK,這是一種人工設(shè)計的算法,可以將統(tǒng)計數(shù)據(jù)應(yīng)用到測序機器最常出錯的地方。然而,DeepVariant利用神經(jīng)網(wǎng)絡(luò)技術(shù)來構(gòu)建比以往任何技術(shù)都更精確的程序。去年,這項技術(shù)在FDA大賽中獲得了第一名。
神經(jīng)網(wǎng)絡(luò)之所以如此命名,是因為它們的工作方式有點類似于神經(jīng)元在大腦中的方式。每一層網(wǎng)絡(luò)都逐級處理著更為復(fù)雜的工作。為了利用圖像識別技術(shù)來建立一個精確的DNA序列,谷歌團隊將DNA測序數(shù)據(jù)轉(zhuǎn)化為了一個圖像。例如,構(gòu)成遺傳密碼的As、Ts、c和Gs,就會以紅色的形式出現(xiàn)。研究人員隨后對數(shù)百萬份基因組測序和高通量讀取技術(shù)進(jìn)行了研究,并教會了這個程序哪些東西更重要,哪些可以忽略。
由此產(chǎn)生的算法可以比以往任何系統(tǒng)都更準(zhǔn)確地對錯誤進(jìn)行排查。最初,這些圖像僅由三種顏色組成,或三層數(shù)據(jù)。不過,本周發(fā)布的最新版本包含了7種,使其可以更加精確地表達(dá)。這個程序目前是作為開源軟件發(fā)布的,外部研究人員可以使用以及繼續(xù)進(jìn)行程序強化。
DeepVariant絕不是100%準(zhǔn)確的。但它的成功代表了機器學(xué)習(xí)對基因?qū)W的影響?;蚪M數(shù)據(jù)的規(guī)模和復(fù)雜性是巨大的。機器可能正是我們需要弄明白的東西。