很少有人的博士論文能夠成為「爆款文章」,但陳丹琦做到了。這位近日從斯坦福畢業(yè)的計(jì)算機(jī)科學(xué)博士引發(fā)了人們的廣泛關(guān)注。據(jù)斯坦福大學(xué)圖書館介紹,她長達(dá) 156 頁的畢業(yè)論文《Neural Reading Comprehension and Beyond》上傳僅四天就獲得了上千次的閱讀量,成為了斯坦福大學(xué)近十年來最熱門的畢業(yè)論文之一。
斯坦福大學(xué)還因此對陳丹琦進(jìn)行了一次簡單采訪。
陳丹琦激動(dòng)人心的研究迅速在社交網(wǎng)絡(luò)和其他專注機(jī)器學(xué)習(xí)的新聞網(wǎng)站上傳播。她的指導(dǎo)老師——斯坦福 AI 實(shí)驗(yàn)室負(fù)責(zé)人、人工智能領(lǐng)域著名學(xué)者、斯坦福大學(xué)語言學(xué)和計(jì)算機(jī)科學(xué)教授克里斯托弗·曼寧(Christopher Manning)在采訪中表示:「陳丹琦是使用神經(jīng)網(wǎng)絡(luò)方法解決自然語言理解問題方面的先驅(qū)。她簡單、干凈、高成功率的模型吸引了眾人的目光……她的這篇畢業(yè)論文主要研究神經(jīng)網(wǎng)絡(luò)閱讀理解和問答,這些新興技術(shù)正在帶來更好的信息訪問方式——它可以讓計(jì)算機(jī)系統(tǒng)可以真正回答你的實(shí)際問題,而不是簡單地返回文檔搜索結(jié)果。」
陳丹琦目前正在訪問 Facebook 人工智能研究院 Facebook AI Research 和華盛頓大學(xué),在今年秋季,她即將前往普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系擔(dān)任助理教授。
在畢業(yè)于斯坦福大學(xué)之前,陳丹琦于 2012 年畢業(yè)于清華學(xué)堂計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班(姚班)。值得一提的是,她在高中(長沙市雅禮中學(xué))參加信息學(xué)國家隊(duì)集訓(xùn)期間提出了 cdq 分治算法,用于處理一類分治問題;在高中期間她還發(fā)明了插頭 DP,主要用于解決數(shù)據(jù)規(guī)模小的棋盤模型路徑問題。大牛果然在高中期間就已經(jīng)「起飛」了。
陳丹琦獲得的榮譽(yù)和參與的研究還有很多。2010 年,她獲得了 ACM ICPC 國際大學(xué)生程序設(shè)計(jì)競賽全球總決賽銀牌。在斯坦福期間,她在 2014 年發(fā)表的論文《A Fast and Accurate Dependency Parser using Neural Networks》堪稱深度學(xué)習(xí)依存分析方法的「開山之作」,她和曼寧教授提出的方法在保持精度的前提下,將解析速度提高了 60 倍。
熱門的博士畢業(yè)論文
這篇畢業(yè)論文名為《Neural Reading Comprehension and Beyond》,描述了她在博士期間的三個(gè)重要研究,以解決「人工智能中最難以捉摸和長期存在的挑戰(zhàn)之一」:如何讓機(jī)器學(xué)會(huì)理解人類語言。讓我們看看她的畢業(yè)論文究竟說了什么。
論文鏈接:https://stacks.stanford.edu/file/druid:gd576xb1833/thesis-augmented.pdf
摘要
教機(jī)器學(xué)會(huì)理解人類語言文本是人工智能領(lǐng)域最困難的長期挑戰(zhàn)之一。本論文致力于解決閱讀理解問題,即如何構(gòu)建一個(gè)計(jì)算機(jī)系統(tǒng)來閱讀一段文本并回答理解問題。一方面,我們認(rèn)為閱讀理解是衡量計(jì)算機(jī)系統(tǒng)理解人類語言程度的重要任務(wù)。另一方面,如果我們可以構(gòu)建高性能的閱讀理解系統(tǒng),那么這些系統(tǒng)就會(huì)成為問答、對話系統(tǒng)等應(yīng)用的關(guān)鍵技術(shù)。
本論文聚焦于神經(jīng)閱讀理解,這是一類構(gòu)建在深度神經(jīng)網(wǎng)絡(luò)之上的閱讀理解模型。與基于特征的手工傳統(tǒng)模型相比,這些端到端的神經(jīng)模型已被證明在學(xué)習(xí)豐富的語言現(xiàn)象方面更加有效,在所有現(xiàn)有閱讀理解基準(zhǔn)測試中都有大幅度的提高。
本論文包含兩個(gè)部分。第一部分旨在概括神經(jīng)閱讀理解的本質(zhì)并展示我們在構(gòu)建高效神經(jīng)閱讀理解模型方面所做的工作。更重要的是了解神經(jīng)閱讀理解模型實(shí)際上學(xué)習(xí)了什么,以及解決當(dāng)前任務(wù)需要怎樣的語言理解深度。我們還總結(jié)了該領(lǐng)域的當(dāng)前進(jìn)展并討論了未來的發(fā)展方向以及一些待解決的問題。
第二部分將探討如何基于神經(jīng)閱讀理解的當(dāng)前成果構(gòu)建實(shí)際應(yīng)用。我們開拓了兩個(gè)研究方向:1)我們?nèi)绾螌⑿畔z索技術(shù)與神經(jīng)閱讀理解相結(jié)合,來解決大型開放域問答問題;2)我們?nèi)绾螐漠?dāng)前基于跨距的(span-based)單輪(single-turn)閱讀理解模型構(gòu)建對話問答系統(tǒng)。我們在 DRQA 和 COQA 項(xiàng)目中實(shí)現(xiàn)了這些想法,證明了這些方法的有效性。我們相信,這些技術(shù)對于未來的語言技術(shù)將非常有幫助。
動(dòng)機(jī)
讓機(jī)器學(xué)會(huì)理解人類語言文本是人工智能領(lǐng)域最難的長期挑戰(zhàn)之一。在開始做這件事之前,我們必須要知道理解人類語言意味著什么?圖 1.1 展示了 MCTEST 數(shù)據(jù)集(Richardson et al., 2013)中的一個(gè)兒童故事,只有簡單的詞匯和語法。為了處理這樣一段文字,NLP 社區(qū)花費(fèi)了數(shù)十年的精力來解決各種不同的文本理解任務(wù),包括:
a)詞性標(biāo)注。它要求機(jī)器理解這些東西:如在第一個(gè)句子「Alyssa got to the beach after a long trip」中,Alyssa 是專有名詞,beach 和 trip 是普通名詞,got 是動(dòng)詞的過去式,long 是形容詞,after 是介詞。
b)命名實(shí)體識(shí)別。機(jī)器要能夠理解 Alyssa、Ellen、Kristen 是人名,Charlotte、Atlanta、Miami 是地名。
c)句法分析。為了理解每句話的含義,機(jī)器需要理解單詞之間的關(guān)系,或句法(語法)結(jié)構(gòu)。還是以第一句話為例,機(jī)器要能夠理解 Alyssa 是主語,beach 是動(dòng)詞 got 的賓語,而 after a long trip 是介詞短語,描述了和動(dòng)詞的時(shí)間關(guān)系。
d)共指消解(coreference resolution)此外,機(jī)器甚至還要理解句子之間的相互作用。例如,句子「She's now in Miami」中的 she 指的是第一句話中提到的 Alyssa,而第六行中的「The girls」指的是前面提到的 Alyssa、Ellen、Kristen 和 Rachel。
是否有全面的評(píng)估方法來測試所有這些方面并探索更深層次的理解呢?我們認(rèn)為閱讀理解任務(wù)(根據(jù)一段文字回答理解問題)就是一個(gè)合適又重要的方法。正如我們會(huì)用閱讀理解來測試人們對一段文本的理解程度,我們認(rèn)為它同樣能夠用來測試計(jì)算機(jī)系統(tǒng)對人類語言的理解程度。
我們可以看看基于相同段落(圖 1.1)提出的一些閱讀理解問題:
a)要回答第一個(gè)問題「What city is Alyssa in?」機(jī)器要找到句子「She's now in Miami」并解決「She 指的是 Alyssa」這個(gè)共指消解問題,最后再給出正確答案「Miami」。
b)對于第二個(gè)問題「What did Alyssa eat at the restaurant?」,機(jī)器首先要找到句子:「The restaurant had a special on catfish.」和「Alyssa enjoyed the restaurant's special.」,然后理解第二個(gè)句子中 Alyssa 吃的 special 就是第一個(gè)句子中的 special。而第一個(gè)句子中 special 提到的是 catfish,所以最終正確答案是 catfish。
c)最后一個(gè)問題比較有難度。為了正確回答該問題,機(jī)器要找出該段落中提到的所有人名及其之間的關(guān)系,然后進(jìn)行算術(shù)推理(arithmetic reasoning),最終給出答案「3」。
可以看到,計(jì)算機(jī)系統(tǒng)要了解文本的各個(gè)方面才能正確回答這些問題。因?yàn)閱栴}可以被設(shè)計(jì)為詢問那些我們關(guān)心的方面,閱讀理解應(yīng)該是用來評(píng)估語言理解程度的最合適任務(wù)。這也是本文的中心主題。
在本文中,我們研究了這樣一個(gè)閱讀理解問題:我們該如何構(gòu)建計(jì)算機(jī)系統(tǒng)來閱讀文章并回答這些理解問題?尤其是,我們重點(diǎn)關(guān)注神經(jīng)閱讀理解——一種用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的閱讀理解模型,該模型被證明比基于特征的非神經(jīng)模型更有效。
閱讀理解領(lǐng)域歷史悠久。早在 20 世紀(jì) 70 年代,研究人員就已經(jīng)認(rèn)識(shí)到它是測試計(jì)算機(jī)程序語言理解能力的重要方法 (Lehnert, 1977)。但是,它卻被忽視了數(shù)十年,直到最近才獲得了大量關(guān)注并取得了快速的進(jìn)展(如圖 2.1 所示),包括我們將在本文詳述的工作。閱讀理解近期取得的成功可以歸功于兩方面:
從(文章、問題、答案)三個(gè)方面創(chuàng)建的大規(guī)模監(jiān)督數(shù)據(jù)集;
神經(jīng)閱讀理解模型的發(fā)展。
圖 1.2:谷歌上的搜索結(jié)果。它不僅返回了搜索文檔列表,還給出了文檔中更精確的答案。
本文涵蓋了當(dāng)代神經(jīng)閱讀理解的本質(zhì):問題的形式,這些系統(tǒng)的組成部分和關(guān)鍵成分,以及對當(dāng)前神經(jīng)閱讀理解系統(tǒng)優(yōu)勢和弊端的理解。
本文的第二個(gè)中心主題是,我們堅(jiān)信,如果可以構(gòu)建高性能的閱讀理解系統(tǒng),那這些系統(tǒng)將是建立諸如問答和對話系統(tǒng)等應(yīng)用的關(guān)鍵技術(shù)。事實(shí)上,這些語言技術(shù)已經(jīng)與我們的日常生活息息相關(guān)了。例如,我們在谷歌上搜索「有多少人在斯坦福大學(xué)工作?」(圖 1.2),谷歌將不僅返回文檔列表,還會(huì)閱讀這些網(wǎng)頁文檔并突出顯示最可靠的答案,并將它們展示在搜索結(jié)果的頂部。這正是閱讀理解可以幫助我們的地方,使搜索引擎變得更加智能。而且,隨著數(shù)字個(gè)人助理(如 Alexa、Siri、谷歌助手或者 Cortana)的發(fā)展,越來越多的用戶通過對話和詢問信息問題來使用這些設(shè)備。我們相信,構(gòu)建能夠閱讀和理解文本的機(jī)器也將大大提升這些個(gè)人助理的能力。
因此,如何根據(jù)神經(jīng)閱讀理解近期取得的成功來創(chuàng)建實(shí)際應(yīng)用程序也是我們感興趣的一方面。我們探索了兩個(gè)將神經(jīng)閱讀理解作為關(guān)鍵組成部分的研究方向:
開放域問答結(jié)合了來自信息檢索與閱讀理解的挑戰(zhàn),旨在回答來自網(wǎng)絡(luò)或大型百科全書(如維基百科)的一般性問題。
對話式問答結(jié)合了來自對話和閱讀理解的挑戰(zhàn),解決了一段文字中的多輪問答問題,比如用戶如何與智能體互動(dòng)對話。圖 1.3 展示了來自 COQA 數(shù)據(jù)集 (Reddy et al., 2019) 的一個(gè)示例。在該例子中,一個(gè)人可以基于 CNN 文章內(nèi)容提出一系列相互關(guān)聯(lián)的問題。
圖 2.2:論文整理了神經(jīng)閱讀理解中數(shù)據(jù)集(黑色)和模型(藍(lán)色)的最新重要進(jìn)展。在這個(gè)表中,除 BERT (Devlin et al., 2018) 外,以相應(yīng)論文的發(fā)表日期排序。
六年博士心路歷程
在博士論文中,陳丹琦也介紹了自己博士期間的學(xué)習(xí)經(jīng)歷,感謝了在前進(jìn)過程中給予了她極大幫助的一批人,包括父母、老師、愛人、朋友。機(jī)器之心編譯介紹了致謝中的部分內(nèi)容,讓我們一窺優(yōu)秀的人砥礪前行的歷程:
對于我來說,在斯坦福的六年是一段難忘的寶貴經(jīng)歷。2012 年剛開始讀博的時(shí)候,我甚至都不能說出流利的英語(按照要求,我要在斯坦福修 5 門英語課程),對這個(gè)國家也知之甚少,甚至從未聽說過「自然語言處理」這一概念。不可思議的是,在過去的幾年里我竟然一直在做語言方面的研究,訓(xùn)練計(jì)算機(jī)系統(tǒng)理解人類語言(多數(shù)情況下是英語),我自己也在學(xué)習(xí)用英語進(jìn)行溝通、寫作。同時(shí),2012 年也是深度神經(jīng)網(wǎng)絡(luò)開始起飛并主導(dǎo)幾乎所有我們今天看到的人工智能應(yīng)用的一年。我從一開始就見證了人工智能的快速發(fā)展,并為即將成為這一浪潮的一份子而感到興奮(有時(shí)是恐慌)。如果沒有那么多人的幫助和支持,我也不可能走到今天。我由衷地感謝他們。
首先要感謝的是我的導(dǎo)師克里斯托弗·曼寧。我剛來斯坦福的時(shí)候還不知道 Chris。直到和他一起工作了幾年、學(xué)了 NLP 之后,我才意識(shí)到自己何其榮幸,能夠和這一領(lǐng)域如此杰出的人才共事。他對這一領(lǐng)域總是充滿洞察力,而且非常注重細(xì)節(jié),還能很好地理解問題的本質(zhì)。更重要的是,Chris 是一個(gè)非常善良、體貼、樂于助人的導(dǎo)師。有師如此,別無他求。他就像我的一位老友(如果他不介意我這么說的話),我可以在他面前暢所欲言。他一直對我抱有信心,即使有時(shí)候我自己都沒有自信。我一直都會(huì)對他抱有感激,甚至現(xiàn)在已經(jīng)開始想念他了。
除了 Chris,我還想感謝 Dan Jurafsky 和 Percy Liang——斯坦福 NLP Group 的另外兩位杰出人才————他們是我論文委員會(huì)的成員,在我的博士學(xué)習(xí)期間給予了我很多指導(dǎo)和幫助。Dan 是一位非常有魅力、熱情、博學(xué)的人,每次和他交談之后我都感覺自己的激情被點(diǎn)燃了。Percy 是一位超人,是所有 NLP 博士生的榜樣(至少是我的榜樣)。我無法理解一個(gè)人怎么可以同時(shí)完成那么多工作,本論文的很大一部分都是以他的研究為基礎(chǔ)進(jìn)行的。感謝 Chris、Dan 和 Percy 創(chuàng)建了斯坦福 NLP Group,這是我在斯坦福的家,我很榮幸成為這個(gè)大家庭的一員。
此外,Luke Zettlemoyer 成為我的論文委員會(huì)成員也讓我感到萬分榮幸。本論文呈現(xiàn)的工作與他的研究密切相關(guān),我從他的論文中學(xué)到了很多東西。我期待在不遠(yuǎn)的將來與他一起共事。
讀博期間,我在微軟研究院和 Facebook AI Research 獲得了兩份很棒的實(shí)習(xí)經(jīng)歷。感謝 Kristina Toutanova、Antoine Bordes 和 Jason Weston 在實(shí)習(xí)期間給予我的指導(dǎo)。我在 Facebook 的實(shí)習(xí)項(xiàng)目最終給了我參與 DRQA 項(xiàng)目的契機(jī),也成為了本論文的一部分。感謝微軟和 Facebook 給予我獎(jiǎng)學(xué)金。
我要感謝我的父母 Zhi Chen 和 Hongmei Wang。和這一代大多數(shù)中國學(xué)生一樣,我是家里的獨(dú)生子女。我和父母的關(guān)系非常親密,即使我們之間有著十幾個(gè)小時(shí)的時(shí)差而我每年只能擠出 2-3 周的時(shí)間來陪他們。是他們塑造了今天的我,廿載深恩,無以為報(bào),只希望我目前所取得的一切能夠讓他們感到一絲驕傲和自豪吧。
最后,在這里我要感謝俞華程對我的愛與支持(我們在這篇博士畢業(yè)論文提交之前 4 個(gè)月結(jié)婚了)。我在 15 歲時(shí)遇見了華程,從那時(shí)起我們一起經(jīng)歷了幾乎所有的事情:從高中的編程競賽到清華大學(xué)美好的大學(xué)時(shí)光,然后又在 2012 年共同進(jìn)入斯坦福大學(xué)攻讀計(jì)算機(jī)科學(xué)博士學(xué)位。在過去的十年里,他不僅是我的伴侶、我的同學(xué)、我最好的朋友,也是我最欽佩的人,因?yàn)樗麜r(shí)刻保持謙虛、聰慧、專注與努力。沒有他,我就不會(huì)來到斯坦福。沒有他,我也不會(huì)獲得普林斯頓的職位。感謝他為我所做的一切。
致我的父母和俞華程,感謝他們無條件的愛。
參考內(nèi)容:https://library.stanford.edu/blogs/digital-library-blog/2019/01/sdr-deposit-month-dissertation-ai-breakthrough-makes-leaderboard