近期,非循環(huán)架構(gòu)(CNN、基于自注意力機(jī)制的 Transformer 模型)在神經(jīng)機(jī)器翻譯任務(wù)中的表現(xiàn)優(yōu)于 RNN,因此有研究者認(rèn)為原因在于 CNN 和自注意力網(wǎng)絡(luò)連接遠(yuǎn)距離單詞的路徑比 RNN 短。本文在主謂一致任務(wù)和詞義消歧任務(wù)上評(píng)估了當(dāng)前 NMT 領(lǐng)域中最流行的三種模型:基于 CNN、RNN 和自注意力機(jī)制的模型,發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果與上述論斷并不一致。該論文已被 EMNLP 2018 接收。
多種不同架構(gòu)對(duì)神經(jīng)機(jī)器翻譯(NMT)都很有效,從循環(huán)架構(gòu) (Kalchbrenner and Blunsom, 2013; Bahdanau et al., 2015; Sutskever et al., 2014; Luong et al., 2015) 到卷積架構(gòu) (Kalchbrenner and Blunsom, 2013; Gehring et al., 2017),以及最近提出的完全自注意力(Transformer)模型 (Vaswani et al., 2017)。由于框架之間的對(duì)比主要依據(jù) BLEU 值展開,因此弄清楚哪些架構(gòu)特性對(duì) BLEU 值有貢獻(xiàn)從本質(zhì)上講是比較困難的。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)(Elman, 1990) 可以輕松處理可變長(zhǎng)度的輸入句子,因此是 NMT 系統(tǒng)的編碼器和解碼器的自然選擇。RNN 的大部分變體(如 GRU 和 LSTM)解決了訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)距離依賴難題。Gehring 等人(2017)介紹了一種編碼器和解碼器都基于 CNN 的神經(jīng)架構(gòu),并報(bào)告其 BLEU 值高于基于 RNN 的 NMT 模型。此外,該模型訓(xùn)練期間對(duì)所有分詞的計(jì)算可以完全并行執(zhí)行,提高了計(jì)算效率。Vaswani 等人(2017)提出 Transformer 模型,該模型完全基于注意力層,沒有卷積或循環(huán)結(jié)構(gòu)。他們報(bào)告該模型在英語-德語和英語-法語翻譯取得了當(dāng)前最優(yōu)的 BLEU 值。但 BLEU 值指標(biāo)比較粗糙,無法幫助觀察不同架構(gòu)如何改善機(jī)器翻譯質(zhì)量。
為了解釋 BLEU 值的提高,之前的研究進(jìn)行了理論論證。Gehring 等人(2017)和 Vaswani 等人(2017)都認(rèn)為神經(jīng)網(wǎng)絡(luò)中共依賴因素(co-dependent element)之間的路徑長(zhǎng)度會(huì)影響模型學(xué)習(xí)這些依賴關(guān)系的能力:路徑越短,模型學(xué)習(xí)此類依賴關(guān)系就越容易。這兩篇論文認(rèn)為 Transformer 和 CNN 比 RNN 更擅長(zhǎng)捕捉長(zhǎng)距離依賴。
但是,這一斷言僅基于理論論證,并未經(jīng)過實(shí)驗(yàn)驗(yàn)證。本文作者認(rèn)為非循環(huán)網(wǎng)絡(luò)的其它能力可能對(duì)其強(qiáng)大性能貢獻(xiàn)巨大。具體來說,本文作者假設(shè) BLEU 值的提高取決于具備強(qiáng)大語義特征提取能力的 CNN 和 Transformer。
該論文評(píng)估了三種流行的 NMT 架構(gòu):基于 RNN 的模型(下文用 RNNS2S 表示)、基于 CNN 的模型(下文用 ConvS2S 表示)和基于自注意力的模型(下文用 Transformer 表示)。受到上述關(guān)于路徑長(zhǎng)度和語義特征提取關(guān)系的理論陳述的啟發(fā),研究者在主謂一致任務(wù)(需要建模長(zhǎng)距離依賴)和詞義消歧(WSD)任務(wù)(需要提取語義特征)上對(duì)三種模型的性能進(jìn)行了評(píng)估。這兩項(xiàng)任務(wù)分別基于對(duì)照翻譯對(duì)(contrastive translation pair)測(cè)試集 Lingeval97 (Sennrich, 2017) 和 ContraWSD (Rios et al., 2017)。
本論文的主要貢獻(xiàn)如下:
檢驗(yàn)了這一理論斷言:具備更短路徑的架構(gòu)更擅長(zhǎng)捕捉長(zhǎng)距離依賴。研究者在建模長(zhǎng)距離主謂一致任務(wù)上的實(shí)驗(yàn)結(jié)果并沒有表明,Transformer 或 CNN 在這方面優(yōu)于 RNN。
通過實(shí)驗(yàn)證明 Transformer 中注意力頭的數(shù)量對(duì)其捕捉長(zhǎng)距離依賴的能力有所影響。具體來說,多頭注意力對(duì)使用自注意力機(jī)制建模長(zhǎng)距離依賴是必要的。
通過實(shí)驗(yàn)證明 Transformer 擅長(zhǎng) WSD,這表明 Transformer 是強(qiáng)大的語義特征提取器。
論文:Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures
論文鏈接:https://arxiv.org/pdf/1808.08946.pdf
摘要:近期,非循環(huán)架構(gòu)(卷積、自注意力)在神經(jīng)機(jī)器翻譯任務(wù)中的表現(xiàn)優(yōu)于 RNN。CNN 和自注意力網(wǎng)絡(luò)連接遠(yuǎn)距離單詞的路徑比 RNN 短,有研究人員推測(cè)這正是其建模長(zhǎng)距離依賴能力得到提高的原因。但是,這一理論論斷并未得到實(shí)驗(yàn)驗(yàn)證,對(duì)這兩種網(wǎng)絡(luò)的強(qiáng)大性能也沒有其他深入的解釋。我們假設(shè) CNN 和自注意力網(wǎng)絡(luò)的強(qiáng)大性能也可能來自于其從源文本提取語義特征的能力。我們?cè)趦蓚€(gè)任務(wù)(主謂一致任務(wù)和詞義消歧任務(wù))上評(píng)估了 RNN、CNN 和自注意力網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果證明:1)自注意力網(wǎng)絡(luò)和 CNN 在建模長(zhǎng)距離主謂一致時(shí)性能并不優(yōu)于 RNN;2)自注意力網(wǎng)絡(luò)在詞義消歧方面顯著優(yōu)于 RNN 和 CNN。
圖 1:NMT 中不同神經(jīng)網(wǎng)絡(luò)的架構(gòu)。
主謂一致
主謂一致任務(wù)是評(píng)估模型捕捉長(zhǎng)距離依賴能力的最流行選擇,曾在多項(xiàng)研究中使用 (Linzen et al., 2016; Bernardy and Lappin, 2017; Sennrich, 2017; Tran et al., 2018)。因此,我們也使用該任務(wù)評(píng)估不同 NMT 架構(gòu)的捕捉長(zhǎng)距離依賴能力。
表 2:不同 NMT 模型的結(jié)果,包括在 newstest2014 和 newstest2017 上的 BLEU 值、在驗(yàn)證集上的困惑度,以及長(zhǎng)距離依賴的準(zhǔn)確率。
圖 2:不同的 NMT 模型在主謂一致任務(wù)上的準(zhǔn)確率。
圖 3:ConvS2S 模型和 RNNS2S 模型在不同距離處的結(jié)果。
圖 4: 在小型數(shù)據(jù)集上訓(xùn)練的 Transformer 和 RNNS2S 模型的結(jié)果。
WSD
主謂一致任務(wù)上的實(shí)驗(yàn)結(jié)果展示了 CNN 和 Transformer 在捕捉長(zhǎng)距離依賴方面并沒有優(yōu)于 RNN,即使 CNN 和 Transformer 中的路徑更短。這一發(fā)現(xiàn)與上文提到的理論斷言相悖。但是,從 BLEU 值來看,這些架構(gòu)在實(shí)驗(yàn)中的表現(xiàn)都很不錯(cuò)。因此,我們進(jìn)一步在 WSD 任務(wù)上評(píng)估這些架構(gòu)來驗(yàn)證我們的假設(shè):非循環(huán)架構(gòu)更擅長(zhǎng)提取語義特征。
表 5:不同架構(gòu)在 newstest 數(shù)據(jù)集和 ContraWSD 上的結(jié)果。PPL 指在驗(yàn)證集上的困惑度。Acc 表示在測(cè)試集上的準(zhǔn)確率。