隨著機器翻譯在真實場景中的應用越來越多,翻譯質(zhì)量評估模型也受到很大的關(guān)注。近日,阿里巴巴達摩院機器智能技術(shù)實驗室的陳博興博士向機器之心介紹了機器翻譯質(zhì)量評估競賽與模型,他們憑借著 Feature Extractor-Quality Estimator 框架與完全注意力機制等方法在國際機器翻譯大會 WMT 組織的質(zhì)量評估競賽上取得了優(yōu)異的成績。
阿里機器翻譯團隊在本次比賽中,參加了英語到德語和德語到英語兩個語向的句子級別和詞級別的七項質(zhì)量評估任務,收獲了六項世界冠軍。其中,德語到英語的統(tǒng)計機器翻譯評估任務中(German-English SMT),句子級別和詞級別的預測任務分別取得第一名;英語到德語的統(tǒng)計機器翻譯評估任務中 (English-German SMT),句子級別取得第一名,詞級別的詞預測和漏詞預測分別取得第一名。同時,英語到德語的神經(jīng)網(wǎng)絡機器翻譯評估任務中 (English-German NMT),詞級別的詞預測取得第一名。
對于翻譯質(zhì)量評測方法來說,可能讀者最熟悉的就是 BLEU 值,它的核心思想即機器翻譯的譯文越接近人類專業(yè)譯文,那么翻譯的效果就越好。所以從本質(zhì)上來說,BLEU 值僅僅只是在計算機翻譯文與參考譯文之間的相似性。此外,雖然 BLEU 值計算非常迅速,但它僅考慮詞語層級的統(tǒng)計相似性,常忽略了語義和語法等特征。且其它如常用詞、譯文長度、同義詞等很多情況都會影響到 BLEU 值的評判,因此它其實只能評估機器翻譯模型與參考譯文之間的大致相似度。
計算 BLEU 值最重要的是提供參考譯文,參考譯文質(zhì)量越高,對于同一句原文的參考譯文越多,翻譯模型的度量就越準確。但很多情況下高質(zhì)量參考譯文很難獲得,或者成本非常高,而且更多的實際運用場景中,用戶輸入的原文是無法及時提供參考譯文的,這種情況下就需要一種沒有參考譯文也能評估翻譯效果的方法。
Machine Translation Quality Estimation 就是這樣一個由 WMT 發(fā)起的機器翻譯質(zhì)量評估比賽,它要求在不提供參考譯文的情況下,根據(jù)原文和機器翻譯譯文評估譯文質(zhì)量的好壞。
除了競賽,不需要參考譯文的評估方法在實際中有非常廣泛的應用,陳博興表示這種自動評估方法可以評估譯文的質(zhì)量,用于判斷譯文是否可以直接發(fā)表,是否可以讓讀者理解,是否需要后續(xù)人工編輯,并輔助譯員翻譯。如果質(zhì)量太差,那么這一句話就需要重新翻譯且不適合做人工編輯,如果只需要少量改動,那就比較適合做人工編輯。甚至對于詞語級別的譯文評估方法,它能告訴我們到底哪一個詞需要改進。此外,限制質(zhì)量較差的機器翻譯的譯文輸出、評估機器翻譯模型效果等都需要這種不需要參考譯文的評估方法。
翻譯質(zhì)量評估
翻譯質(zhì)量評估任務一般可分為兩種,即句子級的評估和單詞級的評估,阿里機器翻譯團隊這次參與的競賽同樣也分為這兩種任務。其中句子級的質(zhì)量評估需要使用回歸模型給譯文句子的整體水平打分,而單詞級的任務需要分類模型標注每一個詞到底翻譯得好不好。完成這兩種評估任務的方法也有許多,但總體上都是通過抽取原文與譯文的特征,并計算它們之間的匹配程度。
以前常見的研究是使用手動抽取的質(zhì)量評估特征,并饋送到回歸或分類模型以得出譯文的分數(shù)或類別。這些質(zhì)量評估一般包括長度特征、語言特征和主題模型等特征,它們可能還會通過主成分分析和高斯過程等方法進行選擇。
而自深度學習變得流行以來,很多研究者嘗試使用深度神經(jīng)網(wǎng)絡自動抽取質(zhì)量評估特征并完成評分。Kreutzer 等人首先在 2015 年提出基于窗口的 FNN 架構(gòu),它以窗口的方式抽取語義特征。在基于窗口的方法中,給定目標詞,我們從原語和目標語的對應位置中獲取雙語窗口,其中目標語窗口的中心詞就是該目標詞,而原語窗口的中心詞即目標詞對應的原語詞。所有雙語窗口下的詞將會以 one-hot 編碼的方式饋送到輸入層,并進一步計算出當前窗口的雙語匹配程度。
Patel 等人隨后在 2016 年提出基于循環(huán)神經(jīng)網(wǎng)絡架構(gòu)的質(zhì)量評估模型,在該模型中,他們將單詞級的質(zhì)量評估模型視為序列標注任務,且同樣采用了基于雙語上下文窗口的方法。其中上下文窗口的所有詞需要作為輸入,并借助循環(huán)神經(jīng)網(wǎng)絡建模它們之間的依賴性關(guān)系,并最后輸出標注序列以判斷每個單詞是不是翻譯正確。
隨后很多研究者開始使用卷積神經(jīng)網(wǎng)絡、雙向 LSTM 網(wǎng)絡和注意力機制等深度學習方法,Martins 等人在 2017 年結(jié)合神經(jīng)網(wǎng)絡模型與富特征線性模型在質(zhì)量評估模型上獲得了非常好的效果。但阿里采用的模型并不基于上下文窗口,他們參考了最近提出的自注意力機制和 Transfomer 機器翻譯的模型框架,在前人研究的基礎上提出了一種名為『Bilingual Expert』model (『雙語專家』模型) 作為特征抽取器,聯(lián)合基于神經(jīng)網(wǎng)絡的譯文質(zhì)量評估框架。后面我們將從這兩方面重點關(guān)注這一框架,并探討阿里達摩院對它們的優(yōu)化。
特征抽取模型
特征抽取即從原文與譯文語句中抽取足夠的信息或特征,并用來進一步計算譯文效果到底好不好。因此特征抽取是翻譯評估模型的核心,特征的好壞直接影響了翻譯評估的準確度。不過在理解特征抽取以前,我們先要了解整個『Bilingual Expert』based Feature Extractor + Quality Estimator 框架,這樣才能知道為什么能通過神經(jīng)網(wǎng)絡抽取原文和譯文的語言特征。
『Bilingual Expert』based Feature Extractor + Quality Estimator 由特征抽取模型和譯文評估模型組成,因為這兩個模型解決的是兩個任務,所以它們能使用兩種數(shù)據(jù)集進行訓練。特征抽取模型在輸入原句序列和目標句序列的條件下抽取質(zhì)量評估特征,這一部分的訓練需要使用一般的雙語平行數(shù)據(jù)集。而特征抽取模型抽取的特征可繼續(xù)用于評估翻譯效果,這一部分需要使用質(zhì)量評估(QE)數(shù)據(jù)集,該數(shù)據(jù)集不僅包括原句與譯文句,同時還包括了標注的翻譯質(zhì)量。
阿里達摩院在這次競賽中采用的結(jié)構(gòu),特征抽取模型與評估模型使用 Transformer 與雙向 LSTM 的框架進行修正。
對于特征抽取,『Bilingual Expert』(圖上右上框)模型構(gòu)建了一種條件語言模型。簡單而言,在給定原語句子所有詞和目標語句除當前詞以外的上下文,模型希望能使用這些詞的信息預測出當前詞。這一過程潛在的假設即條件語言模型與質(zhì)量評估模型高度相關(guān),它能傳遞有用的信息來執(zhí)行質(zhì)量評估任務。陳博興表示,我們可以直觀地理解為,如果譯文的質(zhì)量非常高,那么這種基于條件語言模型的詞預測模型能基于原句子和目標句子的上下文準確預測出當前詞。相反如果譯文質(zhì)量不高,那么模型很難基于上下文準確地預測出當前詞。
給定原語句子和目標語句子的上下文,并預測目標語句子的當前詞可以表述為如下方程式,阿里機器翻譯團隊使用了在《Attention is all you need》中提出的 Transformer 建模這一方程。
之所以將傳統(tǒng)的雙向 LSTM 模型替換為最近比較流行的 Transformer,陳博興表示:「LSTM 是以遞歸方式進行的,適合序列建模任務,需要逐步遞歸才能獲取全局信息。這就導致了計算過程很難并行,計算效率較低。因此我們采用了完全基于注意力機制的結(jié)構(gòu)來處理序列模型的相關(guān)問題,這樣不僅能挖掘序列內(nèi)部的隱藏關(guān)系,同時還能提高并行效率?!?/p>
盡管使用 Transformer 構(gòu)建詞預測模型有更多的優(yōu)勢,但從 LSTM 出發(fā)能更好地理解詞預測模型的過程。下圖所示為基于 LSTM 的詞預測模型,它期望能準確預測目標語句子中的第 j 個詞。
如下對于原語句子 x,模型首先將每一個詞都表征為詞嵌入向量,然后再饋送到正向和反向兩條 LSTM,每一個時間步需要同時結(jié)合正向和反向 LSTM 的隱藏狀態(tài)并作為最終的輸出。對于目標語句子 y,在第 j 個詞之前的序列使用正向 LSTM 建模,而第 j 個詞之后的序列使用反向的 LSTM 建模。最后在預測第 j 個詞時,需要使用原語句子 x 的上下文向量 c_j(由注意力機制得出)、目標語前一個詞及前面序列的語義信息、目標語后一個詞及后面序列的語義信息。
阿里機器翻譯團隊采用 Transformer 的架構(gòu)進行建模,該架構(gòu)不僅在原文和譯文端之間進行注意力機制的計算,同時原文和譯文內(nèi)部也引入自注意力的機制,使得兩端深層的語義信息能夠很好得被學習到。除此以外,『Multi-Head』注意力機制的結(jié)構(gòu)能夠使網(wǎng)絡中每一層對不同位置的計算是并行的,大大提高了學習效率。陳博興表示,在對原文進行編碼的過程中,編碼器由相同的兩個模塊構(gòu)成,每一個模塊都有兩個子層級。其中第一個子層級是 Multi-Head 自注意機制,第二個子層級采用了全連接網(wǎng)絡,其主要作用在于注意子層級的特征。同時,每一個子層級都會添加殘差連接和層級歸一化。
在對目標端解碼的過程中,阿里機器翻譯團隊創(chuàng)新地進行了基于 Multi-head Attention 的雙向解碼。陳博興表示,每個方向的解碼器也由相同的兩個模塊堆疊而成。與編碼器區(qū)別的是,每一個解碼器模塊都有三個子層組成。第一個和第三個子層分別與編碼器的 Multi-Head 自注意力層和全連接層相同,而第二個子層采用了 Multi-Head Attention 機制,使用編碼器的輸出作為 Key 和 Value,使用解碼模塊第一個子層的輸出作為 Query。與編碼器類似的是,每一個子層同樣會加上殘差連接與層級歸一化模塊。該思想可以理解構(gòu)造了一個雙向的 Transformer,而其真正作用不是翻譯系統(tǒng)中的解碼器,而更像一個編碼器或者特征表示器。
上圖所示為 Transformer 原論文中介紹的網(wǎng)絡架構(gòu),阿里機器翻譯團隊將其采用為『雙語專家』條件語言模型的基礎網(wǎng)絡。Transformer 編碼器的 Inputs 為原語句子序列 x,解碼器輸入的 Outputs 為目標語正向和逆向兩個序列。此外,解碼器中 Softmax 輸出的概率表示目標端當前詞預測。在阿里采用的架構(gòu)中,編碼器和解碼器的層數(shù)都等于 2,即圖中的 N=2。
每一次在預測目標語的當前詞時,Transformer 需要使用正向與反向兩部分信息。陳博興表示若當前預測目標語的第 j 個詞,對于正向序列而言,模型需要使用目標端第 j-1 個詞的前向深層語義特征向量和第 j-1 個詞的詞向量。而對于反向序列而言,模型需要使用目標端第 j+1 個詞的反向深層語義特征向量與第 j+1 個詞的詞向量。
總體而言,在阿里的模型中,利用預先訓練的專家模型,先抽取基于模型隱層的一些 high level 表示信息,以及該詞的前后詞的詞向量,最后再通過一個全連接層做一次線性變換。除此之外,阿里還構(gòu)造了 mis-matching features。如下圖所示,當某個翻譯結(jié)果錯誤單詞不多的時候,預訓練模型會給出正確的單詞預測分布,這和翻譯結(jié)果激活的單詞會存在一個 gap。這個 gap 是一個非常重要的特征,阿里機器翻譯團隊的實驗顯示就算只用這個特征去做下一步預測,也可以得到很好的結(jié)果。詳細內(nèi)容可以參考阿里機器翻譯團隊的論文:“Bilingual Expert” Can Find Translation Errors [1]。
其實阿里機器翻譯團隊采用的這種雙向解碼機制有非常優(yōu)秀的屬性,它相當于遷移了一部分語言的知識。最近很多研究者都提倡以語言模型作為預訓練基礎模型將語言知識遷移到不同的 NLP 任務,阿里采用的這個結(jié)構(gòu)正好體現(xiàn)了這種想法。在預測第 j 個詞時,j+1 和 j-1 兩個深層語義特征向量都相當于使用預訓練的語言模型抽取語言特征,而那兩個詞的詞嵌入向量則保留了原始信息。
除了需要預測最可能的當前詞,更重要的是需要通過質(zhì)量評估特征向量為后續(xù)運算遷移足夠的語言知識。因此阿里的模型從詞預測模型中抽取了兩種質(zhì)量評估特征,除了深層語義特征外,考慮到目標端詞預測的概率能表示當前詞出現(xiàn)的可能性,還額外抽取了如下的 mis-matching 特征:
1. 深層語義特征:
正向深層語義特征向量
反向深層語義特征向量
前一個詞的詞向量
后一個詞的詞向量
2. Mis-matching 特征:
目標端強制解碼為當前詞的概率信息
概率最高詞語的概率信息
強制解碼為當前詞與解碼為概率最高詞的概率信息差異
當前詞與預測詞是否一致
其中正向和反向深層語義特征都從 Transformer 的解碼器中抽出,正向語義特征 包含了原語序列的所有信息和目標語第 k 個詞之前的語義信息,反向語義特征 包含了原語序列的所有信息和目標語第 k 個詞之后的語義信息;同時,深層語義特征還包含第 k-1 個詞的詞義信息 和第 k+1 個詞的詞義信息 。在基于『雙語專家』條件語言模型的詞預測模型的預測解碼環(huán)節(jié),阿里機器翻譯團隊利用以上所有深層語義表達,重構(gòu)了目標語 (Token Reconstruction)。所以如果我們強制解碼為真實的詞語,就可以取特征信息 。不強制解碼,保留模型預測最可能出現(xiàn)的詞語,我們就能得到特征信息 。剩下的兩種特征則描述了 m_k 與 i_max 之間的關(guān)系。
質(zhì)量評估模型
在抽取了質(zhì)量評估特征后,它們可以與人工抽取的特征一起作為質(zhì)量評估模型或 Quality Estimator 的輸入來計算譯文質(zhì)量。不過既然基于條件語言模型的特征抽取模型和質(zhì)量評估模型有緊密的聯(lián)系,那么為什么不能將這兩個模型聯(lián)合在一起實現(xiàn)端到端的訓練呢?陳博興表示如果做端到端的訓練,很多人工添加的特征是無法使用的。此外,特征抽取模型廣泛使用的平行語料與質(zhì)量評估模型使用的 QE 數(shù)據(jù)集有比較大的不匹配性,聯(lián)合訓練可能會產(chǎn)生較差的性能。這一點也非常直觀,平行語料只包含正確的目標語句子,而 QE 數(shù)據(jù)集同時包含正確與不正確的目標語句子。
正因為特征抽取模型和質(zhì)量評估模型雖然高度相關(guān),但還是兩個獨立的模型,所以我們能額外手動提取一些特征來提升模型效果。這些基礎特征包括句長、標點符號數(shù)量、句子語言模型分數(shù)等,因此除了第一階段提取的特征外,阿里還額外融合了 17 個人工提取的特征,與之前隱層合并結(jié)果再次合并作為預測條件。
若將所有特征向量都拼接在一起,且每一個特征向量視為一個時間步,那么我們就能以如下方式利用從原文與譯文中抽取的語義信息。
阿里機器翻譯團隊采用的質(zhì)量評估模型就是基于雙向 LSTM,模型預測的目標即句子層面的翻譯質(zhì)量和單詞層面的翻譯對錯。其實這兩個任務除了評估階段采用的架構(gòu)不一樣,其它如特征抽取等過程都是一樣的。在句子層面中,biLSTM 編碼的前向的最后一個時間步與后向的最后一個時間步的隱藏特征聯(lián)合計算一個實數(shù)值以表示翻譯質(zhì)量,而在詞語層面的評估任務中,biLSTM 編碼對應的 目標端詞的每一個時間步的前后向量隱藏特征聯(lián)合計算一個值以將它們分類為 OK 或 BAD。
數(shù)據(jù)與應用
整個翻譯評估系統(tǒng)需要使用兩種數(shù)據(jù),即詞預測模型所使用的平行數(shù)據(jù)集和評估模型所使用的 QE 數(shù)據(jù)集。其中平行數(shù)據(jù)集可以在廣泛的領域收集,我們的目的是訓練一個能抽取語言語義信息的模型,這很類似于預訓練一個強大的語言模型。
而 WMT 組委會提供的 QE 訓練數(shù)據(jù)只有 1 至 3 萬,這對于訓練一個強大的魯棒性翻譯質(zhì)量評估模型是遠遠不夠的。陳博興表示阿里機器翻譯團隊在英德和德英語向上分別構(gòu)造 了 30 萬左右的 QE 訓練偽數(shù)據(jù)。這部分數(shù)據(jù)與真實 QE 數(shù)據(jù)合并訓練完質(zhì)量評估基線模型后,會再使用真實的 QE 數(shù)據(jù)微調(diào)模型,即使用一個在大的數(shù)據(jù)集上預訓練好的模型在真實場景數(shù)據(jù)上微調(diào)。
阿里機器翻譯團隊參考了一些 WMT Automatic Post-Editing (APE)任務的方法。采用了一種 round-trip translation 的技術(shù)。先從大量單語數(shù)據(jù)中篩選出領域相關(guān)的單語,作為人工后編輯譯文 PE;同時用雙語語料訓練兩個 MT 系統(tǒng)(例如,如果要做英語到德語的翻譯質(zhì)量評估,需要訓練德語到英語和英語到德語的機器翻譯系統(tǒng))。將篩選的領域單語先通過一個 MT 系統(tǒng)生成原文 SRC;SRC 再通過另一個 MT 系統(tǒng)生成譯文 MT。這樣兩次調(diào)取 MT 結(jié)果的方法,生成了一批原文,譯文和人工后編輯譯文組合的 APE 數(shù)據(jù),稱為 APE 訓練偽數(shù)據(jù)。然后他們通過 TER 工具生成了對應的 HTER 分數(shù)和詞標注,構(gòu)造出了 QE 偽數(shù)據(jù)。為了更好地模擬真實數(shù)據(jù),他們根據(jù)真實 QE 數(shù)據(jù)的 HTER 分布,從構(gòu)造的偽數(shù)據(jù)中隨機挑選出 30 萬。這些偽數(shù)據(jù)先與真實的 QE 數(shù)據(jù)一起訓練一個 Quality Estimator 的基礎 Baseline 模型,再單獨用真實的 QE 數(shù)據(jù) fine tune 模型。
最后,開發(fā)這樣一個翻譯質(zhì)量評估系統(tǒng)肯定是需要投入應用的。陳博興表示翻譯質(zhì)量評估模型可以應用在很多業(yè)務上,例如它可以判斷翻譯系統(tǒng)給出的結(jié)果是不是足夠優(yōu)秀,能不能直接展示給用戶。如果質(zhì)量不行的話,譯文就可能需要人工校對。這對阿里的商品翻譯是非常重要的,因為如果產(chǎn)品品牌、買賣價格、產(chǎn)品描述等機器翻譯出現(xiàn)了誤差,那么很容易引起業(yè)務上的糾紛。
此外,由于 BLEU 值只能評估有參考譯文的翻譯結(jié)構(gòu),這種翻譯質(zhì)量評估系統(tǒng)能更廣泛地輔助機器翻譯或人工翻譯。陳博興表示該系統(tǒng)還可以更直接地評估數(shù)據(jù),因為網(wǎng)上收集或購買的數(shù)據(jù)可能并不能保證質(zhì)量,所以該系統(tǒng)可以充當過濾作用而確定能投入訓練的高質(zhì)量雙語數(shù)據(jù)集??偠灾?,阿里在利用高質(zhì)量雙語數(shù)據(jù)集與 QE 數(shù)據(jù)集訓練質(zhì)量評估模型后,它反過來可以評估其它雙語數(shù)據(jù),并將優(yōu)秀的數(shù)據(jù)投入翻譯模型的訓練與質(zhì)量評估系統(tǒng)的訓練。