《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 電源技術(shù) > 業(yè)界動(dòng)態(tài) > 觀點(diǎn) | 下一步研究目標(biāo):盤(pán)點(diǎn)NLP領(lǐng)域最具潛力的六大方向

觀點(diǎn) | 下一步研究目標(biāo):盤(pán)點(diǎn)NLP領(lǐng)域最具潛力的六大方向

2018-03-05

在開(kāi)始你的研究之前,了解目標(biāo)領(lǐng)域中最重要的研究方向是很重要的任務(wù)。本文中,德國(guó)海德堡大學(xué)的計(jì)算語(yǔ)言學(xué)在讀博士 Sebastian Ruder 為我們介紹了 NLP 領(lǐng)域里最具潛力的幾個(gè)研究方向。


目錄


獨(dú)立于任務(wù)的 NLP 數(shù)據(jù)增強(qiáng)

用于 NLP 的 few-shot learning

用于 NLP 的的遷移學(xué)習(xí)

多任務(wù)學(xué)習(xí)

跨語(yǔ)言學(xué)習(xí)

獨(dú)立于任務(wù)的架構(gòu)提升


當(dāng)開(kāi)始新領(lǐng)域的研究時(shí),你會(huì)發(fā)現(xiàn)尋找引人注目的主題并學(xué)會(huì)問(wèn)正確的問(wèn)題是一件很難的事。這種情況在機(jī)器學(xué)習(xí)這種進(jìn)展很快的領(lǐng)域里尤其突出——你很難找到突破點(diǎn)。


本文旨在向初級(jí)研究人員和試圖進(jìn)入研究領(lǐng)域的人提供啟發(fā)和思路,其中匯集了我感興趣的一系列研究課題:著重于自然語(yǔ)言處理(NLP)和遷移學(xué)習(xí),所以本文不是面向所有讀者的。如果你對(duì)增強(qiáng)學(xué)習(xí)感興趣,OpenAI 提供了一系列有趣的增強(qiáng)學(xué)習(xí)研究主題(https://blog.openai.com/requests-for-research-2/)。如果你期待與他人合作,或?qū)Ω鼜V泛的主題感興趣,請(qǐng)參閱 Artificial Intelligence Open Network(https://ai-on.org/)。


這些研究主題中的大多數(shù)目前還沒(méi)有被人們透徹地思考過(guò);在很多情況下,概括性的描述是非常模糊和主觀的,未來(lái)研究方向也不甚明確。此外,大多數(shù)主題也并不包含低掛果實(shí),因此需要我們非常努力才能得出結(jié)論。請(qǐng)注意:這一主題集并不是對(duì)于所有文獻(xiàn)的綜述,所以其覆蓋范圍可能不全。


希望本文能夠激發(fā)你的興趣,并為你自己的研究歷程提供靈感。


獨(dú)立于任務(wù)的 NLP 數(shù)據(jù)增強(qiáng)


數(shù)據(jù)增強(qiáng)旨在通過(guò)轉(zhuǎn)換生產(chǎn)現(xiàn)有訓(xùn)練實(shí)例的變體而創(chuàng)建額外的訓(xùn)練數(shù)據(jù),以反映現(xiàn)實(shí)世界中的實(shí)際情況。在計(jì)算機(jī)視覺(jué)中,一般的增強(qiáng)技術(shù)有鏡像、隨機(jī)裁剪、剪切等。數(shù)據(jù)增強(qiáng)在 CV 中超級(jí)有用,比如有助于 AlexNet 對(duì)抗過(guò)擬合,絕大多數(shù)當(dāng)前最優(yōu)模型也使用了它。此外,數(shù)據(jù)增強(qiáng)非常直觀,因?yàn)樗沟糜?xùn)練數(shù)據(jù)更加多元,從而提升模型泛化能力。


然而,NLP 中數(shù)據(jù)增強(qiáng)并未廣泛使用。依我看,原因有兩點(diǎn):


1. NLP 中的數(shù)據(jù)是分離的。這可防止我們把簡(jiǎn)單的轉(zhuǎn)換直接應(yīng)用于輸入數(shù)據(jù)。目前絕大多數(shù)的增強(qiáng)方法聚焦于這樣的轉(zhuǎn)換,比如領(lǐng)域隨機(jī)化 (Tobin et al., 2017) [2]。


2. 小的擾動(dòng)可改變語(yǔ)義。刪除一個(gè)否定詞可能會(huì)改變句意,修改段落中的一個(gè)詞可能無(wú)意中改變了關(guān)于該段落問(wèn)題的答案。其實(shí)在 CV 中情況并非如此:擾動(dòng)一個(gè)像素并不會(huì)改變一個(gè)貓或狗的圖像,并且甚至明顯的變化比如不同圖像的插值也是有用的(Zhang et al., 2017)[3]。


我關(guān)注的現(xiàn)有方法要么是基于規(guī)則的 (Li et al., 2017) [5],要么是解決特定任務(wù)的,比如解析 (Wang and Eisner, 2016) [6] 或零-代名詞分辨率 (Liu et al., 2017) [7]。Xie et al. (2017) [39] 通過(guò)來(lái)自不同分布的樣本替代單詞以進(jìn)行語(yǔ)言建模和機(jī)器翻譯。最近聚焦于創(chuàng)建對(duì)抗樣本的工作要么是通過(guò)替代單詞或字符 (Samanta and Mehta, 2017; Ebrahimi et al., 2017) [8, 9],級(jí)聯(lián) (Jia and Liang, 2017) [11];要么是添加對(duì)抗擾動(dòng) (Yasunaga et al., 2017)。Li et al. (2017) [16] 同樣使用了對(duì)抗設(shè)置,其訓(xùn)練系統(tǒng)生產(chǎn)與人類(lèi)對(duì)話語(yǔ)句無(wú)差別的序列。


反向翻譯(Back-translation)(Sennrich et al., 2015; Sennrich et al., 2016) [12, 13] 是機(jī)器翻譯中的常見(jiàn)數(shù)據(jù)增強(qiáng)方法,有助于吸收單語(yǔ)訓(xùn)練數(shù)據(jù)。比如,當(dāng)訓(xùn)練一個(gè)英轉(zhuǎn)法系統(tǒng)時(shí),單語(yǔ)法語(yǔ)文本通過(guò)法轉(zhuǎn)英系統(tǒng)被翻譯成英語(yǔ);合成的平行數(shù)據(jù)接著被用于訓(xùn)練。反向翻譯同樣用于釋義 (Mallinson et al., 2017) [14]。釋義已被用于 QA (Dong et al., 2017) [15] 的數(shù)據(jù)增強(qiáng),但并未發(fā)現(xiàn)有其他用處。


另一個(gè)方法與釋義相近,即通過(guò)變分自編碼器 (Bowman et al., 2016; Guu et al., 2017) [17, 19] 從連續(xù)空間中生成語(yǔ)句。如果按照 Hu et al., 2017 [18] 把表征解開(kāi),那么我們離風(fēng)格遷移 (Shen et al., 2017) [20] 也就不遠(yuǎn)了。


以下幾個(gè)研究方向很有趣,值得去跟:


1. 評(píng)估學(xué)習(xí):評(píng)估一系列未廣泛使用的現(xiàn)有數(shù)據(jù)增強(qiáng)方法及技巧,比如應(yīng)用于一系列不同任務(wù)(包括文本分類(lèi)和序列標(biāo)注)的釋義和風(fēng)格遷移。確定何種類(lèi)型的數(shù)據(jù)增強(qiáng)在所有任務(wù)和特定任務(wù)中是魯棒的。這可被打裝成軟件庫(kù)以使未來(lái)的基準(zhǔn)更容易。


2. 帶有風(fēng)格遷移的數(shù)據(jù)增強(qiáng):調(diào)查風(fēng)格遷移是否可用于修改訓(xùn)練實(shí)例的不同屬性以獲得更魯棒的學(xué)習(xí)。


3. 學(xué)習(xí)增強(qiáng):類(lèi)似于 Dong et al. (2017),我們可為一個(gè)特定任務(wù)學(xué)習(xí)釋義或者生成轉(zhuǎn)換。


4. 學(xué)習(xí)詞嵌入空間以增強(qiáng)數(shù)據(jù):典型的詞嵌入空間同時(shí)聚類(lèi)同義詞和反義詞。因此在空間中使用最近鄰用于替換是不可行的。受最近工作 (Mrk?i? et al., 2017) [21] 啟發(fā),我們可以具化詞嵌入空間以使其更適用于數(shù)據(jù)增強(qiáng)。


5. 對(duì)抗性數(shù)據(jù)增強(qiáng):與最近的可解釋性工作相關(guān) (Ribeiro et al., 2016) [22],我們可以改變實(shí)例中最重要的單詞,即那些模型依賴(lài)以做出預(yù)測(cè)的單詞。但是這依然需要保留語(yǔ)義的替換方法。


用于 NLP 的 Few-shot learning 


Zero-shot、one-shot、few-shot learning 是最近最為有趣的研究方向之一。通過(guò)遵從 Vinyals et al. (2016) [4] 的核心思想,即 few-shot learning 模型應(yīng)該明確地訓(xùn)練以執(zhí)行 few-shot learning,我們已取得若干個(gè)最新進(jìn)展 (Ravi and Larochelle, 2017; Snell et al., 2017) [23, 24]。學(xué)習(xí)若干個(gè)標(biāo)注樣本是最艱難的問(wèn)題之一,以及區(qū)分當(dāng)前機(jī)器學(xué)習(xí)模型生成與更廣泛應(yīng)用的系統(tǒng)的核心能力之一。據(jù)我所知,Zero-shot learning 只在學(xué)習(xí)未知單詞的詞嵌入的語(yǔ)境中被調(diào)查。無(wú)數(shù)據(jù)分類(lèi) (Song and Roth, 2014; Song et al., 2016) [25, 26] 是一個(gè)有趣的相關(guān)方向,它在聯(lián)合空間中嵌入標(biāo)簽和文件,并需要帶有良好描述的可解釋性標(biāo)簽。


1. 標(biāo)準(zhǔn)化基準(zhǔn):為 NLP few-shot learning 創(chuàng)建標(biāo)準(zhǔn)化基準(zhǔn)。Vinyals et al. (2016) 為 Penn Treebank 引入了 one-shot 語(yǔ)言建模任務(wù)。這一任務(wù)盡管很有用,但與 CV 基準(zhǔn)上的廣泛評(píng)估相比卻相形見(jiàn)絀,并且據(jù)我所知沒(méi)有多少使用。NLP 的 ew-shot learning 基準(zhǔn)應(yīng)該包含大量分類(lèi)并提供標(biāo)準(zhǔn)化的再現(xiàn)性分割。良好的候選任務(wù)將是主題分類(lèi)或細(xì)粒度實(shí)體識(shí)別。


2. 評(píng)估學(xué)習(xí):創(chuàng)建這樣一個(gè)基準(zhǔn)之后,下一步是評(píng)估 CV 中的現(xiàn)有 few-shot learning 方法在執(zhí)行 NLP 任務(wù)方面表現(xiàn)如何。


3. NLP 的全新方法:給定一個(gè)基準(zhǔn)數(shù)據(jù)集和實(shí)證評(píng)估學(xué)習(xí),接著我們可以開(kāi)始開(kāi)發(fā)執(zhí)行 NLP few-shot learning 的全新方法。


用于 NLP 的遷移學(xué)習(xí)


遷移學(xué)習(xí)已經(jīng)對(duì)計(jì)算機(jī)視覺(jué)(CV)產(chǎn)生了巨大的影響,并大大降低了解決特定 CV 問(wèn)題的難度門(mén)檻。計(jì)算機(jī)視覺(jué)從業(yè)者現(xiàn)在不再需要為每個(gè)新任務(wù)耗費(fèi)大量的工程,僅需使用少量示例對(duì)已在大型數(shù)據(jù)集上訓(xùn)練好的模型進(jìn)行微調(diào)。


然而,在 NLP 領(lǐng)域里,我們目前仍然只能通過(guò)預(yù)訓(xùn)練嵌入來(lái)預(yù)訓(xùn)練模型的第一層。近期一些研究人員提出的方法(Peters et al., 2017, 2018)[31,32] 加入了預(yù)訓(xùn)練語(yǔ)言模型嵌入,但是它們?nèi)匀恍枰槍?duì)每個(gè)任務(wù)定制架構(gòu)。在我看來(lái),若想解鎖遷移學(xué)習(xí)在 NLP 上的真正潛力,我們需要預(yù)訓(xùn)練整個(gè)模型,并在目標(biāo)任務(wù)上僅需微調(diào),類(lèi)似于微調(diào) ImageNet 模型。舉例來(lái)說(shuō),在 NLP 上的語(yǔ)言建??梢灶?lèi)比為 CV 上的 ImageNet 分類(lèi)(Howard and Ruder, 2018)[33]。


這里有一些潛在的研究方向:


1. 識(shí)別有用的預(yù)訓(xùn)練任務(wù):預(yù)訓(xùn)練任務(wù)的選擇非常重要,即使是對(duì)于相關(guān)任務(wù)進(jìn)行微調(diào),我們也可能近會(huì)收到有限的成功(Mou et al., 2016)[38]。其他任務(wù),如近期關(guān)于學(xué)習(xí)通用句嵌入的研究(Conneau et al., 2017;Subramanian et al., 2018; Nie et al., 2017)[34,35,40] 可能是語(yǔ)言模型預(yù)訓(xùn)練的補(bǔ)充,或適用于其他目標(biāo)任務(wù)。


2. 復(fù)雜架構(gòu)的微調(diào):模型應(yīng)用于多目標(biāo)時(shí),預(yù)訓(xùn)練是最為有效的。然而,目前仍不清楚如何對(duì)更為復(fù)雜的模型進(jìn)行預(yù)訓(xùn)練,如用于配對(duì)分類(lèi)任務(wù)(Augenstein et al., 2018)或推理任務(wù)(如 Q&A 和閱讀理解)的模型。


多任務(wù)學(xué)習(xí)


多任務(wù)學(xué)習(xí)(Multi-task learning,MTL)在 NLP 領(lǐng)域中已經(jīng)變得越來(lái)越普遍了。有關(guān)多任務(wù)學(xué)習(xí)的概述,可參閱此處(http://ruder.io/multi-task/),有關(guān) NTL 在 NLP 中的目標(biāo)可參閱此處(http://ruder.io/multi-task-learning-nlp/)。對(duì)于我們來(lái)說(shuō),多任務(wù)學(xué)習(xí)還有很多未知等待我們?nèi)ヌ綄ぁ?/p>


MTL 的主要問(wèn)題帶來(lái)了一系列有趣的研究方向:


1. 確定有效的輔助任務(wù):其中一個(gè)主要問(wèn)題是哪些任務(wù)對(duì)于多任務(wù)學(xué)習(xí)是有用的。標(biāo)簽熵已被證明可以是 MTL 中成功的預(yù)測(cè)器(Alonso and Plank, 2017)[28],但這一方向并未結(jié)束。在最近的研究中(Augenstein et al., 2018)[27],我們發(fā)現(xiàn)又跟股東數(shù)據(jù)和更多細(xì)化標(biāo)簽的輔助任務(wù)更加有效。未來(lái)的 MTL 論文或許不僅會(huì)提出新的模型或輔助任務(wù),也會(huì)試圖開(kāi)始求解為何很多輔助任務(wù)會(huì)比另一個(gè)緊密相關(guān)的任務(wù)更好。


2. 硬參數(shù)共享的替代方案:硬參數(shù)共享目前仍然是 MTL 的默認(rèn)操作方式,但它對(duì)模型施加了很多約束,以便用相同的參數(shù)壓縮與不同任務(wù)有關(guān)的知識(shí),這往往會(huì)使學(xué)習(xí)變得困難。在 MTL 中,我們需要更加易于使用,且在多種任務(wù)上工作穩(wěn)定的新方法(Misra et al., 2017; Ruder et al., 2017)[29,30],標(biāo)簽嵌入層(Augenstein et al., 2018)在這一方向上很有潛力。


3. 人工輔助任務(wù):最好的輔助任務(wù)是針對(duì)主任務(wù)目標(biāo),且不需要任何附加數(shù)據(jù)的任務(wù)。在這里,我列出了潛在的人工輔助任務(wù)列表(http://ruder.io/multi-task-learning-nlp/)。當(dāng)然,目前我們還不清楚哪些輔助任務(wù)可以在多種不同類(lèi)型的任務(wù)上適用,或哪種基于特定任務(wù)的變體性能最好。


跨語(yǔ)言學(xué)習(xí)


構(gòu)建能夠跨語(yǔ)言的模型,將資源豐富語(yǔ)言中的知識(shí)遷移到資源貧乏的語(yǔ)言中,一直是 NLP 的重要研究方向之一。最近,學(xué)習(xí)跨語(yǔ)言表示,將多種不同語(yǔ)言投影到共享嵌入空間的方法有了很大進(jìn)展??蓞㈤喺撐摹禔 Survey of Cross-lingual Word Embedding Models》[36]。


跨語(yǔ)言表示通常根據(jù)內(nèi)部基準(zhǔn)測(cè)試,或外部下游任務(wù)(如文本分類(lèi))上的表現(xiàn)進(jìn)行評(píng)估。雖然目前的最先進(jìn)方法已經(jīng)有了很多進(jìn)步,但我們?nèi)詫?duì)于這些方法在某些任務(wù)或語(yǔ)言上的失敗原因,以及如何在所有任務(wù)上減小這些失敗的方法,如加入基于特定任務(wù)的約束(Mrk?i? et al., 2017)仍未有足夠的理解。


獨(dú)立于任務(wù)的架構(gòu)提升


目前,在各個(gè)特定任務(wù)上,業(yè)內(nèi)最佳的成績(jī)正在不斷地被刷新,舊的架構(gòu)正不斷被淘汰。之前,我已經(jīng)列出了在不同 NLP 任務(wù)上的最佳實(shí)踐(http://ruder.io/deep-learning-nlp-best-practices/),但如果不對(duì)這些架構(gòu)在不同任務(wù)上的性能進(jìn)行比較,我們很難定義特定架構(gòu)的能力,也無(wú)法得知它們?cè)谄渌蝿?wù)上的可用性。


最近涌現(xiàn)出了一個(gè)頗具潛力的模型 Transformer(Vaswani et al., 2017)[37]。雖然完整的模型可能不適用于每個(gè)任務(wù),但多頭注意(multi-head attention)或基于位置的編碼(position-based encoding)可以作為模塊構(gòu)建模型,這樣就可以適用于很多 NLP 任務(wù)了。


結(jié)論


希望這一研究方向匯集能夠?qū)δ阌兴鶐椭H绻阌嘘P(guān)于如何解決相關(guān)研究課題的思路,歡迎在本文下進(jìn)行討論。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。