123,123,123

从神经网络到天体物理，AI是“全能通”

日期： 2019-03-24

關(guān)鍵詞： 机器人 AI技术

　　如今，物理學(xué)、天文學(xué)實驗所產(chǎn)生的海量信息是人類團(tuán)隊難以企及的。一些實驗每天記錄萬億字節(jié)的數(shù)據(jù)，并且不斷累積增加。世界最大的射電望遠(yuǎn)鏡項目Square Kilmeter Array預(yù)計在2020年開啟，它每年產(chǎn)生的數(shù)據(jù)量將相當(dāng)于整個互聯(lián)網(wǎng)的總量。

　　爆發(fā)式的數(shù)據(jù)讓科學(xué)家不得不求助AI。在人類輸入最少的情況下，AI系統(tǒng)（比如人工神經(jīng)網(wǎng)絡(luò)，模仿大腦功能的計算機(jī)模擬神經(jīng)元網(wǎng)絡(luò)）可以挖掘海量數(shù)據(jù)、突出異?，F(xiàn)象，并檢測出人力永遠(yuǎn)無法發(fā)現(xiàn)的東西。

　　計算機(jī)應(yīng)用于科學(xué)研究已經(jīng)有75年歷史，人類對自然數(shù)據(jù)的觀察研究更是伴隨著人類的發(fā)展史。但是，隨著機(jī)器學(xué)習(xí)和AI的發(fā)展，科學(xué)研究的方法已經(jīng)發(fā)生徹底的革新。其中一種方法稱為生成模型（Generative Modeling），對于觀測數(shù)據(jù)的不同解釋，它可以僅僅基于數(shù)據(jù)就辨別出最可信的理論。更重要的是，它不需要關(guān)于物理過程的預(yù)編程知識。生成模型的支持者認(rèn)為它非常新穎，可以被視作研究宇宙的“第三類方式”。

　　傳統(tǒng)上，人類通過觀察來了解自然。想想十六世紀(jì)天文學(xué)家約翰尼斯·開普勒正在仔細(xì)研究另一位同時期天文學(xué)家第谷·布拉赫的行星位置圖，開普勒最終推斷出行星在橢圓軌道上運動?？茖W(xué)通過模擬而進(jìn)步。天文學(xué)家模擬銀河系及其鄰近星系仙女座的運動，并預(yù)測它們將在幾十億年后發(fā)生碰撞。觀察和模擬都有助于科學(xué)家產(chǎn)生假說，再通過進(jìn)一步的觀察來驗證這些假說。但是，生成模型既不是觀察也不是模擬。

　　天體物理學(xué)家Kevin Schawinski（供職于蘇黎世聯(lián)邦理工學(xué)院）是生成模型的積極倡導(dǎo)者，他說：“這是介于觀察和模擬之間的第三類方法，是解決問題的另一種方式?！?/p>

　　雖然一些科學(xué)家仍然把生成模型和其它新技術(shù)簡單地看作是傳統(tǒng)科學(xué)的補充工具。但大多數(shù)人都同意AI正在產(chǎn)生巨大的影響，它在科學(xué)研究中的作用必然會越來越大。費米實驗室的天體物理學(xué)家Brian Nord使用人工神經(jīng)網(wǎng)絡(luò)研究宇宙，他擔(dān)心人類科學(xué)家所做的任何事情都可能實現(xiàn)計算機(jī)自動化——這有點讓人不寒而栗。

　　生成模型帶來的發(fā)現(xiàn)

　　研究生時代，Schawinski就因數(shù)據(jù)驅(qū)動領(lǐng)域的成就而聞名。攻讀博士期間，他需要根據(jù)星系的外觀對它們進(jìn)行分類。由于沒有現(xiàn)成的軟件可用，所以Galaxy Zoo眾包科學(xué)項目誕生了。從2007年開始，普通計算機(jī)用戶通過猜測記錄星系分類來幫助天文學(xué)家，服從多數(shù)原則一般可以得出正確的分類結(jié)果。這個項目無疑是成功的，只不過今時今日的AI技術(shù)使它顯得過時了。現(xiàn)在，一個有機(jī)器學(xué)習(xí)和云計算背景的優(yōu)秀科學(xué)家可以在一個下午就完成以上任務(wù)。

　　Schawinski在2016年轉(zhuǎn)向強大的生成模型工具。本質(zhì)上，在給定條件X的情況下，生成模型會詢問觀察到結(jié)果Y的可能性有多大。這種方法已被證明是非常有效且具有通用性。舉個例子，假設(shè)你提供一組人臉圖像給生成模型，并逐一標(biāo)注年齡。當(dāng)計算機(jī)程序梳理這些訓(xùn)練數(shù)據(jù)時，會把年長者面部和皺紋增加聯(lián)系起來。最終，計算機(jī)可以根據(jù)面部判斷年齡，也就是說，它可以通過給定的面部預(yù)測其經(jīng)歷的物理變化。

　　這些人臉都不是真的。A 行和B 列的人臉都是由GAN使用真實面部搭建元素來構(gòu)建的。然后，GAN結(jié)合A行臉部的基本特征（包括性別、年齡、臉形）和B列更精細(xì)的臉部特征（例如發(fā)色、眼睛顏色），創(chuàng)造出上圖中其它的人臉圖像。

　　最著名的生成模型系統(tǒng)是“生成式對抗網(wǎng)絡(luò)（GAN）”。在充分地暴露于訓(xùn)練數(shù)據(jù)之后，GAN可以修復(fù)已損壞或丟失像素的圖像，它也可以使模糊的照片變得清晰。GAN通過博弈（術(shù)語稱作“對抗”）來學(xué)習(xí)推斷丟失的信息：網(wǎng)絡(luò)的一部分（稱為生成器）生成偽數(shù)據(jù)，而第二部分（判別器）試圖對真?zhèn)螖?shù)據(jù)進(jìn)行區(qū)分。隨著程序的運行，兩個部分都逐漸演化提升。對于最近出現(xiàn)的一些超現(xiàn)實的、GAN制作的“人臉”，有文章評價道：這些計算機(jī)創(chuàng)造的詭異假臉跟真人沒有分別。

　　更廣泛地說，生成模型采用數(shù)據(jù)集（通常是圖像），并將每個數(shù)據(jù)集分解為一組基本的抽象構(gòu)建模塊，科學(xué)家將其稱為數(shù)據(jù)的“隱空間”。隱空間的概念是抽象的，很難將其視覺化，粗略地類比一下，當(dāng)你試圖確定人臉的性別時，想想你的大腦可能是怎么思考的，也許你會注意到發(fā)型、鼻子形狀等等，還有的判斷模式可能很難用文字表達(dá)。相似地，計算機(jī)程序也是在數(shù)據(jù)中尋找突出的特征：雖然它不知道什么是胡子，什么是性別，但如果它接受過數(shù)據(jù)集的訓(xùn)練，其中一些圖像被貼上“男人”或“女人”的標(biāo)簽，一些圖像被貼上“胡子”的標(biāo)簽，計算機(jī)會很快推演出它們之間的聯(lián)系。

　　在與同事合著的一篇論文中，Schawinski利用生成模型研究了星系在演化過程中所經(jīng)歷的物理變化。模型創(chuàng)建了人工數(shù)據(jù)集，以此作為檢驗物理過程假設(shè)的方式。例如，恒星猝熄（恒星形成速度急劇下降）如何與星系環(huán)境密度增加相關(guān)聯(lián)。

　　關(guān)鍵問題在于：有多少關(guān)于恒星和銀河系的信息可以單獨從數(shù)據(jù)中提取出來。Schawinski說：“讓我們抹掉所有關(guān)于天體物理學(xué)固有的知識。然后僅僅利用數(shù)據(jù)本身，能在多大程度上重新認(rèn)知宇宙？”

　　首先，星系圖像被縮小到隱空間，然后，Schawinski可以調(diào)整空間的一個元素，使其對應(yīng)星系環(huán)境的特定變化（比如周圍的密度）。然后他可以重新生成星系，看看會有什么不同。Schawinski解釋說：“所以現(xiàn)在我有了一個假說生成機(jī)器。通過這個過程，我可以讓原本處于低密度環(huán)境中的一整束星系看起來像處于高密度環(huán)境中。”研究者發(fā)現(xiàn)，隨著星系從低密度變?yōu)楦呙芏拳h(huán)境，它們的顏色變得更紅，恒星分布更集中。這與現(xiàn)有的星系觀測結(jié)果相吻合。問題是為什么會這樣。

　　對于這個過程，有兩種可能的解釋：也許星系在高密度環(huán)境中顏色更紅，因為它們含有更多的塵埃，又或者是因為其范圍內(nèi)的恒星趨于衰退。有了生成模型，這兩個想法都可以進(jìn)行測試：改變隱空間中有關(guān)塵埃和恒星形成速率的元素，然后觀察星系顏色的變化。結(jié)論很清楚，星系顏色更紅的地方是“恒星形成速率下降的地方”，而不是“塵埃發(fā)生改變的地方”。

　　通過生成模型，天體物理學(xué)家可以研究星系從宇宙的低密度區(qū)域到高密度區(qū)域是如何變化的，以及是什么物理過程導(dǎo)致了這些變化。

　　該方法與傳統(tǒng)的模擬有關(guān)，但存在關(guān)鍵差別。Schawinski說，模擬“本質(zhì)上是假設(shè)驅(qū)動的”，對于某種宇宙現(xiàn)象，我首先假設(shè)一個可以解釋它的物理原則，比如說我們對于暗物質(zhì)、對于恒星形成都有一套理論假設(shè)，然后對照假設(shè)運行模擬操作，接著再思考：模擬是否符合現(xiàn)實？但是生成模型則不同，某種意義上來說，它與模擬完全相反。我們什么都不知道也不想做任何假設(shè)，只是讓數(shù)據(jù)告訴我們可能會發(fā)生什么。

　　生成模型的成功應(yīng)用當(dāng)然不意味著天文學(xué)家要失業(yè)，但這也確實讓我們思考，天體物理學(xué)研究多大程度上可以由智能系統(tǒng)完成。Schawinski表示，這不是完全自動化的科學(xué)，但它表明我們至少能夠部分地構(gòu)建工具——使科學(xué)過程自動化。

　　生成模型顯然是強大的，但它是否真正代表了一種新的科學(xué)方法仍有待商榷。David Hogg是紐約大學(xué)的宇宙學(xué)家，它認(rèn)為，這仍然只是從數(shù)據(jù)中抓取模型，數(shù)個世紀(jì)以來天文學(xué)家都是這樣進(jìn)行工作的，只不過如今的技術(shù)相當(dāng)強大。換句話說，生成模型是一種先進(jìn)的觀察加分析的方式。Hogg自己的工作也嚴(yán)重依賴AI。他使用神經(jīng)網(wǎng)絡(luò)根據(jù)恒星的光譜對它們進(jìn)行分類，并使用數(shù)據(jù)驅(qū)動模型來推斷恒星的其它物理屬性。但他不認(rèn)為生成模型是另類方法。他說：“只是科學(xué)家在如何使用數(shù)據(jù)方面變得更加老練了。特別是在比較數(shù)據(jù)方面比以前進(jìn)步很多。但在我看來，我的工作仍處于觀察模式。”

　　勤勞的助手

　　無可否認(rèn)，AI和神經(jīng)網(wǎng)絡(luò)顯然已經(jīng)在當(dāng)代天文學(xué)和物理學(xué)研究中發(fā)揮了關(guān)鍵作用。海德堡理論研究所的物理學(xué)家Kai Polsterer領(lǐng)導(dǎo)著一個天文信息學(xué)小組，專注于以數(shù)據(jù)為中心的天體物理學(xué)新研究方法。最近，他們在使用機(jī)器學(xué)習(xí)算法從星系數(shù)據(jù)集中提取紅移信息，這在以前是很艱巨的任務(wù)。

　　Polsterer將這些基于AI的新系統(tǒng)看作是“勤勞的助手”——可以連續(xù)幾個小時梳理數(shù)據(jù)，而不會感到厭煩或抱怨工作條件。他說，這些系統(tǒng)可以完成所有乏味的繁重工作，讓你有時間進(jìn)行有趣的科學(xué)研究。

　　但它們并不完美。特別是算法只能做受過訓(xùn)練的事情。系統(tǒng)對于輸入信息是“不可測的”。給它一個星系，這個軟件就可以估計它的紅移和年齡，但是給它一個自拍照片，或者一張腐爛的魚的照片，它也會輸出一個（非常錯誤的）年齡。最后，人類科學(xué)家的監(jiān)督仍然是至關(guān)重要的。于是問題最終還是回歸研究人員——你才是負(fù)責(zé)解讀機(jī)器的人。

　　費米實驗室的Nord警告說：神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果也會有誤差。在科學(xué)上，如果你進(jìn)行一項測量，卻不報告誤差估計，結(jié)果就沒有意義。和許多AI研究者一樣，Nord也關(guān)注神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的不可穿透性。通常情況下，系統(tǒng)會給出一個答案，但并不清楚該結(jié)果是如何獲得的。然而，并非所有人都認(rèn)為這是一個問題。法國CEA Saclay理論物理研究所的研究員Lenka Zdeborová指出，人類的直覺往往同樣難以理解。你看著照片立刻認(rèn)出了一只貓——但你不知道自己是怎么知道的。從某種意義上說，人類大腦就是一個黑匣子。

　　不僅天體物理學(xué)家和宇宙學(xué)家正在向AI驅(qū)動、數(shù)據(jù)驅(qū)動的科學(xué)靠攏?；F盧大學(xué)的量子物理學(xué)家Roger Melko也利用神經(jīng)網(wǎng)絡(luò)解決了領(lǐng)域中一些最棘手、最重要的問題，比如：如何表示描述多粒子系統(tǒng)的“波函數(shù)”。Melko稱AI是“維度的指數(shù)詛咒”，即波函數(shù)形式的可能性隨著系統(tǒng)中粒子的數(shù)量呈指數(shù)增長。困難類似于嘗試在國際象棋或圍棋中下一步最好的棋：你試著下一步棋，想象你的對手會怎么下，然后選擇最好的應(yīng)對方式，但是每走一步，可能性的數(shù)量就會激增。

　　當(dāng)然，AI系統(tǒng)已經(jīng)掌握了這兩種棋類游戲。20年前的國際象棋人類就輸給了計算機(jī)；2016年，AI系統(tǒng)AlphaGo擊敗了頂尖的人類圍棋手。Melko認(rèn)為這種情況同樣適用于量子物理中的問題。

　　機(jī)器的思維

　　對于AI系統(tǒng)，Schawinski認(rèn)為這是“第三類”科學(xué)研究方法，Hogg則認(rèn)為不過是傳統(tǒng)觀察分析法的高級版本，不管你支持哪種觀點，有一點是肯定的，AI正在加速改變科學(xué)發(fā)現(xiàn)的概念。AI革命在科學(xué)領(lǐng)域能走多遠(yuǎn)？

　　偶爾，人們會對“機(jī)器人科學(xué)家”的成就大加贊揚。十年前，一位名叫Adam的AI機(jī)器人化學(xué)家研究了面包酵母的基因組，找出了哪些基因負(fù)責(zé)制造某些氨基酸。當(dāng)時的新聞標(biāo)題是：“機(jī)器人獨自做出科學(xué)發(fā)現(xiàn)”。

　　最近，格拉斯哥大學(xué)化學(xué)家Lee Cronin在用機(jī)器人隨機(jī)混合化學(xué)物質(zhì)，看看會形成什么樣的新化合物。通過質(zhì)譜儀、核磁共振儀和紅外光譜儀實時監(jiān)測反應(yīng)，系統(tǒng)最終學(xué)會了預(yù)測哪種組合反應(yīng)性最強。Cronin說，即使這不會帶來進(jìn)一步的發(fā)現(xiàn)，機(jī)器人系統(tǒng)也能讓化學(xué)家們將研究速度提高約90%。

　　去年，蘇黎世理工的另一個科學(xué)家小組使用神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)集中推導(dǎo)出物理定律。他們的系統(tǒng)是一款機(jī)器人開普勒系統(tǒng)，從太陽和火星的位置記錄中重新發(fā)現(xiàn)了太陽系的日心模型，并通過觀察碰撞球發(fā)現(xiàn)了動量守恒定律。由于物理定律通常可以用不止一種方式來表達(dá)，研究人員想知道系統(tǒng)是否可以提供新的方式（也許是更簡單的方式）來思考已知的定律。

　　這些都是AI啟動科學(xué)發(fā)現(xiàn)過程的例子，雖然不同案例中AI的作用影響各有不同。也許最具爭議的問題是，在數(shù)據(jù)爆炸的今天，單從數(shù)據(jù)中能收集到多少信息。計算機(jī)科學(xué)家Judea Pearl和科學(xué)作家Dana Mackenzie斷言，數(shù)據(jù)是“極其愚蠢的”。因果關(guān)系的問題永遠(yuǎn)不能單靠數(shù)據(jù)來回答。Schawinski也支持這種立場，他從未聲稱數(shù)據(jù)可以推演因果關(guān)系，而只是認(rèn)為，我們可以比以往更多地利用數(shù)據(jù)。

　　另一個經(jīng)常聽到的論點是，科學(xué)需要創(chuàng)造力，而且至少到目前為止，我們不知道如何將“創(chuàng)造力”編程到機(jī)器中。物理學(xué)家Kai Polsterer說：“除了理論和推理，我們還需要創(chuàng)造力——只有人類才具有這項能力?！眲?chuàng)造力從何而來？Polsterer懷疑這與“無聊”有關(guān)，機(jī)器不會感到無聊。要想有創(chuàng)意，你必須討厭無聊的感覺。另一方面，像創(chuàng)意和靈感這樣的詞經(jīng)常被用來形容Deep Blue（戰(zhàn)勝人類象棋手的計算機(jī)）和AlphaGo這樣的智能程序。我們在試圖描述計算機(jī)思想的時候，實際上是對自己大腦的映射。

　　Schawinski最近離開學(xué)術(shù)界去了私營部門。他現(xiàn)在經(jīng)營著一家名為Modulos的創(chuàng)企，公司雇傭了一些ETH科學(xué)家，據(jù)其網(wǎng)站稱，公司處在AI和機(jī)器學(xué)習(xí)發(fā)展的風(fēng)口浪尖。不管當(dāng)前AI技術(shù)和成熟的人工智慧之間存在什么障礙，Schawinski和同事們都認(rèn)為機(jī)器已經(jīng)可以接替越來越多人類科學(xué)家的工作。

　　Schawinski說：“在可預(yù)見的未來，是否有可能利用生物硬件建造一臺機(jī)器，它可以完成人類無法獨立完成的物理、數(shù)學(xué)任務(wù)？科學(xué)的未來最終會不會因為計算機(jī)才達(dá)到人類難以企及的高度？我不知道。但這是個好問題?！?/p>

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

从神经网络到天体物理，AI是“全能通”

日期： 2019-03-24

相關(guān)內(nèi)容