本文近日發(fā)表在 PNAS 上,討論了深度學(xué)習(xí)取得的成就、推動條件和廣泛存在的問題,并從「補充」而不是「推翻」的論點探討了如何改進(jìn)人工智能研究方法的方向。文中引用了大量的 DeepMind 發(fā)表過的論文,基本思想是提倡延續(xù)上世紀(jì) 80 年代的符號 AI 方法論,將深度學(xué)習(xí)結(jié)合圖網(wǎng)絡(luò)等實現(xiàn)完整的類人智能。
本文作者 M. Mitchell Waldrop 是威斯康星大學(xué)基本粒子物理學(xué)博士,曾擔(dān)任 Nature、Science 等頂級期刊撰稿人、編輯,出版過《復(fù)雜》等科學(xué)著作。
上圖中是一根香蕉,然而人工智能卻將其識別為烤面包機,即使它使用了在自動駕駛、語音理解和多種 AI 應(yīng)用中表現(xiàn)出色的強大深度學(xué)習(xí)技術(shù)。這意味著 AI 已經(jīng)見過了幾千張香蕉、蛞蝓、蝸牛和類似外觀的物體,然后對新輸入的圖像預(yù)測其中物體的類別。然而這種系統(tǒng)很容易被誤導(dǎo),圖像中只是多了一張貼紙,就讓系統(tǒng)的預(yù)測產(chǎn)生嚴(yán)重偏離。
深度學(xué)習(xí)方法中的明顯缺點引起了研究員和大眾的關(guān)注,如無人駕駛汽車等技術(shù),它們使用深度學(xué)習(xí)技術(shù)進(jìn)行導(dǎo)航,帶來了廣為人知的災(zāi)難事件。圖片來源:Shutterstock.com/MONOPOLY919。
上述這個被深度學(xué)習(xí)研究者稱之為「對抗攻擊」的案例是由谷歌大腦提出的,它暗示著 AI 在達(dá)到人類智能上仍有很長的路要走。「我最初認(rèn)為對抗樣本只是一個小煩惱,」多倫多大學(xué)的計算機科學(xué)家、深度學(xué)習(xí)先驅(qū)之一 Geoffrey Hinton 說:「但我現(xiàn)在認(rèn)為這個問題可能非常重要,它告訴我們,我們到底做錯了什么。」
這是很多人工智能從業(yè)者的同感,任何人都可以輕易說出一長串深度學(xué)習(xí)的弊端。例如,除了易受欺騙之外,深度學(xué)習(xí)還存在嚴(yán)重的低效率問題?!缸屢粋€孩子學(xué)會認(rèn)識一頭母牛,」Hinton 說,「他們的母親不需要說'牛'一萬次」,但深度學(xué)習(xí)系統(tǒng)學(xué)習(xí)『牛』時需要這么多次。人類通常僅從一兩個例子中就能學(xué)習(xí)新概念。
然后是不透明問題。深度學(xué)習(xí)系統(tǒng)訓(xùn)練好之后,我們無法確定它是如何做出決定的?!冈谠S多情況下,這是不可接受的,即使它得到了正確的答案,」計算神經(jīng)科學(xué)家、負(fù)責(zé)劍橋 MIT-IBM Watson AI 實驗室的 David Cox 說。假設(shè)一家銀行使用人工智能來評估你的信譽,然后拒絕給你一筆貸款,「美國多個州的法律都規(guī)定必須解釋其中的原因,」他說。
也許這里面最重要的就是缺乏常識的問題了。深度學(xué)習(xí)系統(tǒng)可能在識別像素分布的模式上很擅長,但是它們無法理解模式的含義,更不用說理解模式背后的原因了?!冈谖铱磥?,當(dāng)前的系統(tǒng)還不知道沙發(fā)和椅子是用來坐的,」DeepMind 的 AI 研究員 Greg Wayne 說。
深度學(xué)習(xí)暴露的越來越多的弱點正在引起公眾對人工智能的關(guān)注。特別是在無人駕駛汽車領(lǐng)域,它們使用類似的深度學(xué)習(xí)技術(shù)進(jìn)行導(dǎo)航,曾經(jīng)導(dǎo)致了廣為人知的災(zāi)難和死亡事故。
盡管如此,無可否認(rèn),深度學(xué)習(xí)是一種非常強大的工具。深度學(xué)習(xí)使得部署應(yīng)用程序(例如面部識別和語音識別)變得非常常見,這些應(yīng)用程序在十年前幾乎不可能完成。「所以我很難想象深度學(xué)習(xí)會在這種時候被拋棄,」Cox 說?!父蟮目赡苁菍ι疃葘W(xué)習(xí)方法進(jìn)行修改或增強?!?/p>
大腦戰(zhàn)爭
今天的深度學(xué)習(xí)革命的根源在于 20 世紀(jì) 80 年代的「大腦戰(zhàn)爭」,當(dāng)時兩種不同的人工智能流派相互爭執(zhí)不休。
一種方法現(xiàn)在被稱為「老式的 AI」,自 20 世紀(jì) 50 年代以來一直占據(jù)著該領(lǐng)域的主導(dǎo)地位,也被稱為符號 AI,它使用數(shù)學(xué)符號來表示對象和對象之間的關(guān)系。加上由人類建立的廣泛的知識庫,這些系統(tǒng)被證明在推理方面非常擅長。但是到了 20 世紀(jì) 80 年代,人們越來越清楚地認(rèn)識到,符號 AI 在處理現(xiàn)實生活中的符號、概念和推理的動態(tài)時表現(xiàn)得非常糟糕。
為了應(yīng)對這些缺點,另一派研究人員開始倡導(dǎo)人工神經(jīng)網(wǎng)絡(luò)或連接人工智能,他們是當(dāng)今深度學(xué)習(xí)系統(tǒng)的先驅(qū)。這種系統(tǒng)的基本思想是通過傳播模擬節(jié)點(人腦中神經(jīng)元的類似物)網(wǎng)絡(luò)中的信號來對其進(jìn)行處理。信號沿著連接(突觸的類似物)從節(jié)點傳遞到節(jié)點。類似于真實的大腦,學(xué)習(xí)是調(diào)整可放大或抑制每個連接所攜帶信號的「權(quán)重」的問題。
在實踐中,大多數(shù)網(wǎng)絡(luò)將節(jié)點排列為一系列層,這些層大致類似于皮層中的不同處理中心。因此,專門用于圖像的網(wǎng)絡(luò)將具有一層輸入節(jié)點,這些節(jié)點對單個像素做出響應(yīng),就像視桿細(xì)胞和視錐細(xì)胞對光線照射視網(wǎng)膜做出響應(yīng)一樣。一旦被激活,這些節(jié)點通過加權(quán)連接將其激活級別傳播到下一級別的其它節(jié)點,這些節(jié)點組合輸入信號并依次激活(或不激活)。這個過程一直持續(xù)到信號到達(dá)節(jié)點的輸出層,其中激活模式提供最終預(yù)測。例如,輸入圖像是數(shù)字「9」。如果答案是錯誤的,例如說輸入圖像是一個「0」。網(wǎng)絡(luò)會執(zhí)行反向傳播算法在層中向下運行,調(diào)整權(quán)重以便下次獲得更好的結(jié)果。
到 20 世紀(jì) 80 年代末,在處理嘈雜或模糊的輸入時,神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明比符號 AI 好得多。然而,這兩種方法之間的對峙仍未得到解決,主要是因為當(dāng)時計算機能擬合的人工智能系統(tǒng)非常有限。無法確切知道這些系統(tǒng)能夠做什么。
AI 的「神經(jīng)網(wǎng)絡(luò)」模型通過類似于神經(jīng)元的節(jié)點網(wǎng)絡(luò)發(fā)送信號。信號沿著連接傳遞到節(jié)點?!笇W(xué)習(xí)」會通過調(diào)整放大或抑制每個連接所承載信號的權(quán)重來改善結(jié)果。節(jié)點通常以一系列層排列,這些層大致類似于皮質(zhì)中的不同處理中心。今天的計算機可以處理數(shù)十層的「深度學(xué)習(xí)」網(wǎng)絡(luò)。圖片來源:Lucy Reading-Ikkanda。
算力革命
這種理解在 21 世紀(jì)得到變革,隨著數(shù)量級計算機的出現(xiàn),功能更加強大的社交媒體網(wǎng)站提供源源不斷的圖像、聲音和其它訓(xùn)練數(shù)據(jù)。
Hinton 是反向傳播算法的聯(lián)合提出者,也是 20 世紀(jì) 80 年代連接主義運動的領(lǐng)導(dǎo)者。他和他的學(xué)生們不斷嘗試訓(xùn)練比以前更大的網(wǎng)絡(luò),層數(shù)從一個或兩個增加到大約六個(今天的商業(yè)網(wǎng)絡(luò)通常使用超過 100 層的網(wǎng)絡(luò))。
2009 年,Hinton 和他的兩名研究生表示,這種「深度學(xué)習(xí)」在語音識別上能夠超越任何其它已知的方法。2012 年,Hinton 和另外兩名學(xué)生發(fā)表了論文,表明深度神經(jīng)網(wǎng)絡(luò)在圖像識別上可能比標(biāo)準(zhǔn)視覺系統(tǒng)好得多?!肝覀儙缀鯇⒄`差率減半,」他說。在這之后,深度學(xué)習(xí)應(yīng)用的革命開始了。
研究人員早期更加關(guān)注擴展深度學(xué)習(xí)系統(tǒng)的訓(xùn)練方式,Matthew Botvinick 說。他在 2015 年從普林斯頓的神經(jīng)科學(xué)小組離開,學(xué)術(shù)休假一年,進(jìn)入 DeepMind,從那時起一直沒有離開。語音和圖像識別系統(tǒng)都使用了監(jiān)督學(xué)習(xí),他說:「這意味著每張圖片都有一個正確的答案,比如貓的圖像的類別必須是'貓'。如果網(wǎng)絡(luò)預(yù)測錯誤,你就告訴它什么是正確的答案?!谷缓缶W(wǎng)絡(luò)使用反向傳播算法來改進(jìn)其下一個猜測。
Botvinick 說,如果有精心標(biāo)記的訓(xùn)練樣例,監(jiān)督學(xué)習(xí)的效果會很好。但一般而言,情況并非如此。它根本不適用于諸如玩視頻游戲等沒有正確或錯誤答案的任務(wù),其中僅有成功或失敗的策略。
Botvinick 解釋說,對于那些情況(事實上,在現(xiàn)實世界的生活中),你需要強化學(xué)習(xí)。例如,玩視頻游戲的強化學(xué)習(xí)系統(tǒng)學(xué)會尋求獎勵,并避免懲罰。
2015 年,當(dāng) DeepMind 的一個小組訓(xùn)練網(wǎng)絡(luò)玩經(jīng)典的 Atari 2600 街機游戲時,首次成功實現(xiàn)了深度強化學(xué)習(xí)?!妇W(wǎng)絡(luò)將在游戲中接收屏幕圖像作為輸入,」隨后加入該公司的 Botvinick 說,「在輸出端有指定動作的圖層,比如如何移動操縱桿?!乖摼W(wǎng)絡(luò)的表現(xiàn)達(dá)到甚至超過了人類 Atari 玩家。2016 年,DeepMind 研究人員使用掌握了相同網(wǎng)絡(luò)的更精細(xì)版本的 AlphaGo 在圍棋上擊敗了人類世界冠軍。
深度學(xué)習(xí)之外
不幸的是,這些里程碑式的成就都沒有解決深度學(xué)習(xí)的根本問題。以 Atari 系統(tǒng)為例,智能體必須玩上千輪才能掌握多數(shù)人類幾分鐘之內(nèi)就能學(xué)會的游戲。即便如此,網(wǎng)絡(luò)也無法理解或解釋屏幕上的拍子等物體。因此 Hinton 的問題也可以用在這里:到底哪里還沒做好?
也許沒有哪里沒做好。也許我們需要的只是更多的連接、更多的層以及更加復(fù)雜的訓(xùn)練方法。畢竟,正如 Botvinick 所指出的,神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上等同于一臺通用計算機,也就是說只要你能找到正確的連接權(quán)重,就沒有神經(jīng)網(wǎng)絡(luò)處理不了的計算——至少理論上是這樣。
但在實踐中,出現(xiàn)的錯誤卻可能是致命的——這也是為什么人們越發(fā)感覺深度學(xué)習(xí)的劣勢需要從根本上解決。
擴展訓(xùn)練數(shù)據(jù)的范圍是一種簡單的解決方法。例如,在 2018 年 5 月發(fā)表的一篇論文中,Botvinick 的 DeepMind 團隊研究了神經(jīng)網(wǎng)絡(luò)在多個任務(wù)上訓(xùn)練時發(fā)生了什么。他們發(fā)現(xiàn),只要有足夠的從后面的層往前傳遞(這一特性可以讓網(wǎng)絡(luò)隨時記住自己在做什么)的「循環(huán)」連接,網(wǎng)絡(luò)就能自動從前面的任務(wù)中學(xué)習(xí),從而加速后續(xù)任務(wù)的學(xué)習(xí)速度。這至少是人類「元學(xué)習(xí)」(學(xué)習(xí)如何學(xué)習(xí))的一種雛形,而元學(xué)習(xí)是人類能夠快速學(xué)習(xí)的一大原因。
一種更激進(jìn)的可能性是,放棄只訓(xùn)練一個大的網(wǎng)絡(luò)來解決問題的做法,轉(zhuǎn)而讓多個網(wǎng)絡(luò)協(xié)同工作。2018 年 6 月,DeepMind 團隊發(fā)表了一種新方法——生成查詢網(wǎng)絡(luò)(Generative Query Network)架構(gòu),該架構(gòu)利用兩個不同的網(wǎng)絡(luò),在沒有人工輸入的復(fù)雜虛擬環(huán)境中學(xué)習(xí)。一個是表征網(wǎng)絡(luò),本質(zhì)上是利用標(biāo)準(zhǔn)的圖像識別學(xué)習(xí)來識別在任何給定時刻 AI 能看到的東西。與此同時,生成網(wǎng)絡(luò)學(xué)習(xí)獲取第一個網(wǎng)絡(luò)的輸出,并生成整個環(huán)境的 3D 模型——實際上是對 AI 看不到的對象和特征進(jìn)行預(yù)測。例如,如果一張桌子只有三條腿可見,上述 3D 模型將生成同樣大小、形狀及顏色的第四條腿。
Botvinick 表示,這些預(yù)測反過來又能讓系統(tǒng)比使用標(biāo)準(zhǔn)的深度學(xué)習(xí)方法更快地學(xué)習(xí)?!敢粋€試圖預(yù)測事物的智能體會在每一個時間步上自動得到反饋,因為它可以看到自己的預(yù)測結(jié)果如何?!挂虼耍悄荏w可以不斷更新、優(yōu)化模型。更妙的是,這種學(xué)習(xí)是自監(jiān)督的:研究者不必標(biāo)記環(huán)境中任何事物,甚至也不用提供獎勵或懲罰。
一種更徹底的方法是不要再讓網(wǎng)絡(luò)在每一個問題中都從頭開始學(xué)習(xí)?!赴装濉梗╞lank-slate)方法的確可以讓網(wǎng)絡(luò)自由地發(fā)現(xiàn)研究者從未想過的對象、動作的表征方式,也有可能發(fā)現(xiàn)一些完全出人意料的玩游戲策略。但人類從來不會從 0 開始:無論如何,人類至少會利用從之前經(jīng)歷中學(xué)到的或在進(jìn)化過程中留在大腦中的先驗知識。
例如,嬰兒似乎生來就有許多固有的「歸納偏置」,使他們能夠以驚人的速度吸收某些核心概念。到了 2 個月大的時候,他們就已經(jīng)開始掌握一些直觀的物理規(guī)律,包括物體存在的概念,這些物體傾向于沿著連續(xù)的路徑移動,當(dāng)它們接觸時,不會互相穿過。這些嬰兒也開始擁有一些基礎(chǔ)的心理直覺,包括識別面孔的能力,以及認(rèn)識到世界上存在其他自主行動的智能體。
擁有這種內(nèi)置的直覺偏置可能會幫助深層神經(jīng)網(wǎng)絡(luò)以同樣的速度快速學(xué)習(xí),因此該領(lǐng)域的許多研究人員優(yōu)先考慮這種思路。實際上,僅僅在過去的 1 到 2 年里,一種名為圖網(wǎng)絡(luò)的方法就在社區(qū)內(nèi)引起了不小的轟動,這是一種頗有前景的方法。Botvinick 表示,「這種深度學(xué)習(xí)系統(tǒng)擁有固有偏置,傾向于將事物表征為對象和關(guān)系。」例如,某些物體(如爪子、尾巴、胡須)可能都屬于一個稍大的對象(貓),它們之間的關(guān)系是「A 是 B 的一部分」。同樣地,「球 A 和方塊 B」之間的關(guān)系可能是「相鄰」,「地球」繞著「太陽」轉(zhuǎn)……通過大量其他示例——其中任何示例都可以表征為一個抽象圖,其中的節(jié)點對應(yīng)于對象,連接對應(yīng)于關(guān)系。
圖網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò),它將圖作為輸入(而不是原始像素或聲波),然后學(xué)會推理和預(yù)測對象及其關(guān)系如何隨時間演變。(某些應(yīng)用程序可能會使用獨立的標(biāo)準(zhǔn)圖像識別網(wǎng)絡(luò)來分析場景并預(yù)先挑選出對象。)
圖網(wǎng)絡(luò)方法已經(jīng)被證明在各種應(yīng)用程序上都可以快速學(xué)習(xí)和達(dá)到人類級別的性能,包括復(fù)雜的視頻游戲。如果它繼續(xù)像研究人員所希望的那樣發(fā)展,它就可以通過提高訓(xùn)練速度和效率來緩解深度學(xué)習(xí)的巨量數(shù)據(jù)需求問題,并且可以使網(wǎng)絡(luò)更不容易受到對抗性攻擊。因為系統(tǒng)表征的是物體,而不是像素的模式,這使得其不會被少量噪音或無關(guān)的雜物輕易誤導(dǎo)。
Botvinick 坦言,任何領(lǐng)域都不會輕易或快速地取得根本性進(jìn)展。但即便如此,他還是堅信:「這些挑戰(zhàn)是真實存在的,但并非死路一條?!?/p>