《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 電源技術(shù) > 業(yè)界動(dòng)態(tài) > 專訪 | 大規(guī)模集成Transformer模型,阿里達(dá)摩院如何打造WMT 2018機(jī)器翻譯獲勝系統(tǒng)

專訪 | 大規(guī)模集成Transformer模型,阿里達(dá)摩院如何打造WMT 2018機(jī)器翻譯獲勝系統(tǒng)

2018-06-06
關(guān)鍵詞: WMT2018 機(jī)器智能 BLEU

在剛剛結(jié)束的 WMT2018 國(guó)際機(jī)器翻譯大賽上,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室機(jī)器翻譯團(tuán)隊(duì)打敗多個(gè)國(guó)外巨頭與研究機(jī)構(gòu),并在英文-中文翻譯、英文-俄羅斯語(yǔ)互譯、英文-土耳其語(yǔ)互譯這 5 個(gè)項(xiàng)目的自動(dòng)評(píng)測(cè)指標(biāo) BLEU 分值都位居第一。阿里達(dá)摩院機(jī)器智能實(shí)驗(yàn)室的陳博興博士和司羅教授向機(jī)器之心介紹了阿里在機(jī)器翻譯領(lǐng)域的布局應(yīng)用,以及如何通過(guò)對(duì)標(biāo)準(zhǔn)的 Transformer 模型進(jìn)行改進(jìn)和優(yōu)化,而獲得更為優(yōu)秀的神經(jīng)機(jī)器翻譯系統(tǒng)。


WMT 的全稱是 Workshop on Machine Translation,是國(guó)際公認(rèn)的頂級(jí)機(jī)器翻譯賽事之一,也是各大科技公司與學(xué)術(shù)機(jī)構(gòu)展示自身機(jī)器翻譯實(shí)力的平臺(tái)。由陳博興博士帶領(lǐng)的達(dá)摩院機(jī)器翻譯團(tuán)隊(duì),在此次比賽中使用業(yè)界最新的 Transformer 結(jié)構(gòu),進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)和對(duì)詞語(yǔ)位置信息的充分利用,全面改進(jìn)了機(jī)器翻譯的性能。更重要的是,翻譯團(tuán)隊(duì)充分利用了阿里的計(jì)算資源優(yōu)勢(shì),每一種翻譯任務(wù)都集成了幾十上百個(gè)基礎(chǔ)模型,這需要非常龐大的計(jì)算力而實(shí)現(xiàn)最優(yōu)的性能。


在本文中,我們首先會(huì)介紹阿里達(dá)摩院為什么要做機(jī)器翻譯及它在 WMT 2018 所采用的基礎(chǔ)模型和修正方法,同時(shí)還會(huì)介紹達(dá)摩院所采用的模型集成方法。隨后我們還將介紹阿里在模型訓(xùn)練中所采用的模型調(diào)優(yōu)方法,它們可以令譯文具有更好的可讀性。最后,我們會(huì)介紹這一頂尖神經(jīng)機(jī)器翻譯系統(tǒng)的部署與應(yīng)用。


為什么阿里要做機(jī)器翻譯?


「機(jī)器翻譯是阿里國(guó)際化的生命線。」印度、拉美、東南亞等新興市場(chǎng),都被認(rèn)為將產(chǎn)生「下一個(gè)五萬(wàn)億美元」。作為阿里達(dá)摩院機(jī)器智能實(shí)驗(yàn)室 NLP 首席科學(xué)家,司羅不僅肩負(fù)著帶領(lǐng)團(tuán)隊(duì)探索機(jī)器翻譯前沿技術(shù)的任務(wù),更要支持阿里全球業(yè)務(wù)的快速發(fā)展,幫助阿里國(guó)際化跨過(guò)「語(yǔ)言」這道門檻。


「這也是為什么阿里在此次 WMT 比賽上,除了英中翻譯外,還參加中國(guó)企業(yè)很少涉足的英文-俄羅斯語(yǔ)互譯、英文-土耳其語(yǔ)互譯,并在這 4 個(gè)項(xiàng)目上戰(zhàn)勝諸多國(guó)外巨頭與研究機(jī)構(gòu),奪得冠軍。這背后的推動(dòng)力量,正是機(jī)器翻譯在阿里國(guó)際化中體現(xiàn)的巨大業(yè)務(wù)價(jià)值。同時(shí),背靠世界最大、質(zhì)量最好的跨境電商語(yǔ)料庫(kù),也讓阿里機(jī)器翻譯技術(shù)能在短時(shí)間內(nèi),取得世界領(lǐng)先。這就是我們期待看到的,研發(fā)與業(yè)務(wù)的協(xié)同發(fā)展?!?/p>


阿里在神經(jīng)機(jī)器翻譯模型上的探索


近年來(lái),基于編碼器解碼器框架的神經(jīng)機(jī)器翻譯系統(tǒng)取得了很大的進(jìn)步與應(yīng)用。最開始我們基于循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建神經(jīng)機(jī)器翻譯的標(biāo)準(zhǔn)模型,后來(lái)我們考慮使用卷積神經(jīng)網(wǎng)絡(luò)提升并行訓(xùn)練效果,而去年谷歌等研究團(tuán)隊(duì)更是提出不使用 CNN 和 RNN 抽取特征的 Transformer。盡管 Transformer 在解碼速度和位置編碼等方面有一些缺點(diǎn),但它仍然是當(dāng)前效果最好的神經(jīng)機(jī)器翻譯基本架構(gòu)。

阿里機(jī)器翻譯團(tuán)隊(duì)在 WMT 2018 競(jìng)賽上主要采用的還是 Transformer 模型,但是會(huì)根據(jù)最近的一些最新研究對(duì)標(biāo)準(zhǔn) Transformer 模型進(jìn)行一些修正。這些修正首先體現(xiàn)在將 Transformer 中的 Multi-Head Attention 替換為多個(gè)自注意力分支,而模型會(huì)在訓(xùn)練階段中將學(xué)習(xí)結(jié)合這些分支注意力模塊。其次,阿里采用了一種編碼相對(duì)位置的表征以擴(kuò)展自注意力機(jī)制,并令模型能更好地理解序列元素間的相對(duì)距離。

 

不過(guò)據(jù)陳博興博士介紹,在阿里集成的基礎(chǔ)模型中,也會(huì)有一些基于 RNN 的 Seq2Seq 模型,它會(huì)使用標(biāo)準(zhǔn)的編碼器-注意力機(jī)制-解碼器的架構(gòu)。這些 Seq2Seq 模型在每項(xiàng)翻譯任務(wù)中大約占所有集成模型中的 10%,集成模型的主體還是 Transformer 模型。


在 NMT 中,基于 Seq2Seq 的模型一般在編碼器中會(huì)使用多層 LSTM 對(duì)輸入的源語(yǔ)詞嵌入向量進(jìn)行建模,并編碼為一個(gè)上下文向量。但是這樣編碼的定長(zhǎng)上下文向量很難捕捉足夠的語(yǔ)義信息,因此更好的方法即讀取整個(gè)句子或段落以獲取上下文和主旨信息,然后每一個(gè)時(shí)間步輸出一個(gè)翻譯的目標(biāo)語(yǔ)詞,且每一個(gè)時(shí)間步都關(guān)注輸入語(yǔ)句的不同部分以獲取翻譯下一個(gè)詞的語(yǔ)義細(xì)節(jié)。這種關(guān)注輸入語(yǔ)句不同部分的方法即注意力機(jī)制。Seq2Seq 模型的最后一部分即將編碼器與注意力機(jī)制提供的上下文信息輸入到由 LSTM 構(gòu)成的解碼器中,并輸出預(yù)測(cè)的目標(biāo)語(yǔ)。


雖然基于 RNN 的 Seq2Seq 模型非常簡(jiǎn)潔明了,但目前最優(yōu)秀的神經(jīng)機(jī)器翻譯模型并沒(méi)有采用這種架構(gòu)。例如去年 Facebook 在 Convolutional Sequence to Sequence Learning 論文中提出的用 CNN 做神經(jīng)機(jī)器翻譯,它在準(zhǔn)確度尤其是訓(xùn)練速度上都要超過(guò)最初基于 RNN 的模型。而后來(lái)谷歌在論文 Attention is all you need 中所提出的 Transformer 更進(jìn)一步利用自注意力機(jī)制抽取特征而實(shí)現(xiàn)當(dāng)前最優(yōu)的翻譯效果。


Transformer 基本架構(gòu)


阿里在翻譯系統(tǒng)中主要采用的模型架構(gòu)還是谷歌原論文所提出的 Transformer。陳博士表示,目前無(wú)論是從性能、結(jié)構(gòu)還是業(yè)界應(yīng)用上,Transformer 都有很多優(yōu)勢(shì)。例如,自注意力這種在序列內(nèi)部執(zhí)行 Attention 的方法可以視為搜索序列內(nèi)部的隱藏關(guān)系,這種內(nèi)部關(guān)系對(duì)于翻譯以及序列任務(wù)的性能有顯著性提升。


如 Seq2Seq 一樣,原版 Transformer 也采用了編碼器-解碼器框架,但它們會(huì)使用多個(gè) Multi-Head Attention、前饋網(wǎng)絡(luò)、層級(jí)歸一化和殘差連接等。下圖從左到右展示了原論文所提出的 Transformer 架構(gòu)、Multi-Head Attention 和標(biāo)量點(diǎn)乘注意力。本文只簡(jiǎn)要介紹這三部分的基本概念與結(jié)構(gòu),更詳細(xì)的 Transformer 解釋與實(shí)現(xiàn)請(qǐng)查看機(jī)器之心的 GitHub 項(xiàng)目:基于注意力機(jī)制,機(jī)器之心帶你理解與訓(xùn)練神經(jīng)機(jī)器翻譯系統(tǒng)。

微信圖片_20180606201004.jpg


正如與陳博士所討論的,上圖右邊的標(biāo)量點(diǎn)乘注意力其實(shí)就是標(biāo)準(zhǔn) Seq2Seq 模型中的注意力機(jī)制。其中 Query 向量與 Value 向量在 NMT 中相當(dāng)于目標(biāo)語(yǔ)輸入序列與源語(yǔ)輸入序列,Query 與 Key 向量的點(diǎn)乘相當(dāng)于余弦相似性,經(jīng)過(guò) SoftMax 函數(shù)后可得出一組歸一化的概率。這些概率相當(dāng)于給源語(yǔ)輸入序列做加權(quán)平均,即表示在翻譯一個(gè)詞時(shí)源語(yǔ)序列哪些詞是重要的。


上圖中間的 Multi-head Attention 其實(shí)就是多個(gè)點(diǎn)乘注意力并行地處理并最后將結(jié)果拼接在一起。一般而言,我們可以對(duì)三個(gè)輸入矩陣 Q、V、K 分別進(jìn)行 h 個(gè)不同的線性變換,然后分別將它們投入 h 個(gè)點(diǎn)乘注意力函數(shù)并拼接所有的輸出結(jié)果。這種注意力允許模型聯(lián)合關(guān)注不同位置的不同表征子空間信息,我們可以理解為在參數(shù)不共享的情況下,多次執(zhí)行點(diǎn)乘注意力。阿里的翻譯系統(tǒng)其實(shí)會(huì)使用另一種組合點(diǎn)乘注意力的方法,即不如同 Multi-head 那樣拼接所有點(diǎn)乘輸出,而是對(duì)點(diǎn)乘輸出做加權(quán)運(yùn)算。


最后上圖左側(cè)為 Transformer 的整體架構(gòu)。輸入序列首先會(huì)轉(zhuǎn)換為詞嵌入向量,在與位置編碼向量相加后可作為 Multi-Head 自注意模塊的輸入,該模塊的輸出再與輸入相加后將投入層級(jí)歸一化函數(shù),得出的輸出再饋送到全連接層后可得出編碼器模塊的輸出。這樣相同的 6 個(gè)編碼器模塊(N=6)可構(gòu)成整個(gè)編碼器架構(gòu)。解碼器模塊首先同樣構(gòu)建了一個(gè)自注意力模塊,然后再結(jié)合前面編碼器的輸出實(shí)現(xiàn) Multi-Head Attention,最后投入全連接網(wǎng)絡(luò)并輸出預(yù)測(cè)詞概率。此外,每一個(gè)編碼器與解碼器的子層都會(huì)帶有殘差連接與 Dropout 正則化。


加權(quán)的 Transformer 網(wǎng)絡(luò)


阿里根據(jù)論文 WEIGHTED TRANSFORMER NETWORK FOR MACHINE TRANSLATION 修正原版網(wǎng)絡(luò)架構(gòu),陳博士表示:「我們首先將谷歌原論文中的 Multi-Head 改進(jìn)為 Multi-Branch,也就是在每次執(zhí)行注意力計(jì)算時(shí),模型會(huì)考慮多個(gè)分支以獲得更多的信息。這種機(jī)制修正原版 Transformer 中等價(jià)處理每一個(gè)點(diǎn)乘注意力的方式,而允許為不同點(diǎn)乘注意力分配不同的權(quán)重。Multi-Branch 的方法因?yàn)楹?jiǎn)化了優(yōu)化過(guò)程而能提升收斂速度 15 ? 40%,且還能提升 0.5 個(gè) BLEU 分值?!?/p>


對(duì)于加權(quán)的 Transformer 來(lái)說(shuō),我們需要修改谷歌原版中的 Multi-Head 與 FFN。首先計(jì)算多個(gè)點(diǎn)乘注意力 head_i 的方式是一樣的,不過(guò) Multi-Branch 如下會(huì)計(jì)算 head_i bar 而不是將所有 head 拼接在一起。head_i bar 即歸一化的點(diǎn)乘注意力,它輸入前饋網(wǎng)絡(luò) FFN 并將結(jié)果做加權(quán)和就能得出 Multi-Branch 的最后輸出。

微信圖片_20180606201111.jpg


其中所有 k_i 與α_i 的和分別都等于 1,M 表示總的分支數(shù),且表達(dá)式 BranchedAttention 會(huì)計(jì)算所有獨(dú)立分支注意力值的加權(quán)和。如下所示為阿里翻譯系統(tǒng)所采用的 Multi-Branch 結(jié)構(gòu),其中 k 是可學(xué)習(xí)的參數(shù)以縮放所有分支對(duì)后續(xù)運(yùn)算的貢獻(xiàn)大小,α 同樣也評(píng)估各注意力分支對(duì)結(jié)果的貢獻(xiàn)大小。


如下所示編碼器與解碼器的架構(gòu)基本一致,只不過(guò)解碼器會(huì)增加一個(gè) Mask 層以控制模型能訪問(wèn)的目標(biāo)語(yǔ)序列,即避免當(dāng)前位置注意到后面位置的信息。這種 Multi-Branch 的修正結(jié)構(gòu)每一個(gè)模塊只會(huì)增加 M 個(gè)參數(shù),即 α 的數(shù)量,這對(duì)于整體模型來(lái)說(shuō)基本是可忽略不計(jì)的。

微信圖片_20180606201207.jpg

相對(duì)位置表征


除了采用 Multi-branch 代替 Multi-head,阿里在 WMT 2018 競(jìng)賽上采用的模型還有一處比較大的修改,即使用一種可以表征相對(duì)位置方法代替谷歌原論文中所采用的位置編碼。這種位置信息在注意力機(jī)制中非常重要,因?yàn)?Transformer 僅采用注意力機(jī)制,而它本身并不能像 RNN 或 CNN 那樣獲取序列的位置順序信息。所以如果語(yǔ)句中每一個(gè)詞都有特定的位置,那么每一個(gè)詞都可以使用向量編碼位置信息,這樣注意力機(jī)制就能分辨出不同位置的詞。


陳博士說(shuō):「我們另一個(gè)改進(jìn)是參考了谷歌最近發(fā)表的一篇論文,在自注意力機(jī)制中加入相對(duì)位置信息。在 Transformer 原論文中,位置編碼使用的是絕對(duì)位置信息,也就是說(shuō)每一個(gè)位置會(huì)給一個(gè)固定的描述。但是我們?cè)趯?shí)踐中發(fā)現(xiàn)語(yǔ)言中的相對(duì)位置非常重要,例如在英語(yǔ)到法語(yǔ)的翻譯中,英語(yǔ)是形容詞加名詞,而法語(yǔ)是名詞加形容詞。這種位置結(jié)構(gòu)其實(shí)與短語(yǔ)所在的絕對(duì)位置沒(méi)有太大的關(guān)系,相反相對(duì)位置對(duì)正確的翻譯會(huì)有很大的影響?!?/p>


在原版 Transformer 中,谷歌研究者使用不同頻率的正弦和余弦函數(shù)實(shí)現(xiàn)位置編碼:

微信圖片_20180606201322.jpg


其中 pos 為詞的位置,i 為位置編碼向量的第 i 個(gè)元素。給定詞的位置 pos,我們可以將詞映射到 d_model 維的位置向量,該向量第 i 個(gè)元素就由上面兩個(gè)式子計(jì)算得出。也就是說(shuō),位置編碼的每一個(gè)維度對(duì)應(yīng)于正弦曲線,波長(zhǎng)構(gòu)成了從 2π到 10000?2π的等比數(shù)列。


而阿里機(jī)器翻譯團(tuán)隊(duì)采用的方法會(huì)考慮輸入序列中成對(duì)元素之間的位置關(guān)系,因此我們可以將輸入詞序列建模為一個(gè)有向的全連接圖。在論文 Self-Attention with Relative Position Representations 中,作者們將詞 x_i 到詞 x_j 之間的有向邊表示為  兩個(gè)向量,它們分別會(huì)與 Value 和 Key 向量相加而添加 x_i 到 x_j 的相對(duì)位置信息。

微信圖片_20180606201351.jpg


上圖展示了將輸入詞序列表示為一個(gè)有向全連接圖,成對(duì)詞之間會(huì)有兩條有向邊。每條邊都編碼了相對(duì)位置信息,且相對(duì)位置信息的表達(dá)如上已經(jīng)給出。


如下我們將向原版點(diǎn)乘自注意力運(yùn)算中加入相對(duì)位置信息:

微信圖片_20180606201430.jpg

其中 z_i 表示一個(gè)點(diǎn)乘注意力,α 表示經(jīng)過(guò) Softmax 后的概率,它衡量了輸入序列需要注意哪些詞。后面即 Value 向量加上相對(duì)位置信息的過(guò)程,因?yàn)槭亲宰⒁饬^(guò)程,所以 Value 向量等于輸入向量。因?yàn)?Value 向量與 Key 向量是成對(duì)出現(xiàn)的,所以相對(duì)位置信息同時(shí)還應(yīng)該添加到 Key 向量中,如下表達(dá)式在計(jì)算 Query 與 Key 向量間相似性的過(guò)程中實(shí)現(xiàn)了這一點(diǎn):

微信圖片_20180606201451.jpg

其中 e 為 Query 向量與 Key 向量的內(nèi)積,度量了它們之間的余弦相似性,如果將這種相似性歸一化則可以度量翻譯某個(gè)詞時(shí)我們應(yīng)該關(guān)注哪些重要的輸入詞。同樣因?yàn)檫@是自注意力機(jī)制,那么 Query 與 Key 向量都是輸入向量 x。上式分子中的相加項(xiàng)即將相對(duì)位置信息加入 Key 向量中。


除了上述這種標(biāo)準(zhǔn)的相對(duì)位置修正外,陳博士還表示阿里機(jī)器翻譯團(tuán)隊(duì)在解碼部分也會(huì)添加這種相對(duì)位置信息,這種改進(jìn)能提升大概 0.4 個(gè) BLEU 分值。

模型集成


對(duì)于追求極致準(zhǔn)確度的模型來(lái)說(shuō),速度并不是阿里參賽系統(tǒng)所首要考慮的事情。陳博士說(shuō):「這個(gè)比賽系統(tǒng)追求性能上的最大化,因此我們會(huì)準(zhǔn)備上百到幾百個(gè)基礎(chǔ)模型,然后再根據(jù)貪心算法從這些備選的基礎(chǔ)模型中獲取最優(yōu)的集成方案。一般這樣的集成根據(jù)不同的任務(wù)會(huì)有幾十到上百個(gè)基礎(chǔ)模型?!?/p>


其實(shí)前面所述的新型 Transformer 架構(gòu)與修正方案并不會(huì)引起翻譯質(zhì)量的質(zhì)變,阿里翻譯模型真正強(qiáng)大的地方在于大規(guī)模的模型集成,這強(qiáng)烈地需要阿里云提供算力支持。這種大規(guī)模的集成模型除了需要海量的計(jì)算力,同時(shí)在調(diào)參與優(yōu)化過(guò)程中會(huì)遇到很多困難。這一點(diǎn),阿里云與阿里機(jī)器翻譯團(tuán)隊(duì)?wèi){借經(jīng)驗(yàn)有效地解決了它們。


據(jù)陳博士表示,阿里在選擇集成的基礎(chǔ)模型時(shí)會(huì)使用貪心算法。也就是說(shuō)首先選擇第一個(gè)基于 Seq2Seq 或 Transformer 的基礎(chǔ)模型,然后從幾百個(gè)備選模型中依次選擇不同的基礎(chǔ)模型,并考慮能獲得最優(yōu)性能的兩模型集成方法。有了前面兩個(gè)模型的集成,再考慮集成哪個(gè)模型能獲得最好的性能而確定三模型集成方法。這樣一直迭代下去,直到添加任何基礎(chǔ)模型都不能提升性能就結(jié)束集成策略。這一過(guò)程對(duì)于計(jì)算力的需求非常大,因此還是得益于阿里云的支持。


最后在集成模型的聯(lián)合預(yù)測(cè)中,阿里機(jī)器翻譯團(tuán)隊(duì)采取所有基礎(chǔ)模型預(yù)測(cè)結(jié)果的期望作為下一個(gè)詞的預(yù)測(cè)結(jié)果。陳博士說(shuō):「在集成模型預(yù)測(cè)下一個(gè)詞的時(shí)候,各個(gè)基礎(chǔ)模型都會(huì)給下一個(gè)詞打分,而我們會(huì)取這些分值的加權(quán)平均值作為最后的預(yù)測(cè)分值。其中各基礎(chǔ)模型所加的權(quán)也是模型自己學(xué)的,優(yōu)秀基礎(chǔ)模型所賦予的權(quán)重會(huì)大一些,不那么優(yōu)秀的會(huì)賦予小的權(quán)重。」


調(diào)優(yōu)與應(yīng)用


提升譯文效果


阿里其實(shí)也用了兩種技術(shù)提升譯文的可讀性,首先是基于神經(jīng)網(wǎng)絡(luò)的詞尾預(yù)測(cè),這一研究成果阿里已經(jīng)發(fā)表在了今年的 AAAI 上。其次是另一種干預(yù)神經(jīng)網(wǎng)絡(luò)翻譯時(shí)間與日期的技術(shù)。第一種技術(shù)主要解決的是復(fù)雜詞形的翻譯,例如在英語(yǔ)到俄語(yǔ)的翻譯中,阿里會(huì)將詞干與詞尾切分開,然后先預(yù)測(cè)詞干再預(yù)測(cè)詞尾。這樣詞尾的預(yù)測(cè)能利用更多的信息而提升預(yù)測(cè)結(jié)果,因此也就能提升復(fù)雜詞形的譯文效果。


第二個(gè)技術(shù)關(guān)注于數(shù)字或日期等低頻詞的翻譯。因?yàn)樯窠?jīng)網(wǎng)絡(luò)很難從細(xì)節(jié)學(xué)習(xí)到數(shù)字或日期的翻譯,所以阿里在原文端使用命名實(shí)體識(shí)別標(biāo)記它們,并基于簡(jiǎn)單的規(guī)則系統(tǒng)進(jìn)行翻譯。這樣就能提升譯文的流利程度與翻譯效果。


在 WMT 挑戰(zhàn)賽外,在真實(shí)場(chǎng)景的翻譯中,司羅教授表示:「阿里的翻譯團(tuán)隊(duì)既包括機(jī)器翻譯團(tuán)隊(duì),也包括人工翻譯團(tuán)隊(duì)。其中機(jī)器翻譯團(tuán)隊(duì)完全是算法驅(qū)動(dòng)的,而人工翻譯團(tuán)隊(duì)會(huì)基于機(jī)器翻譯進(jìn)行修正。這樣機(jī)器翻譯與人工翻譯就能成為一種促進(jìn)關(guān)系,人力可以對(duì)翻譯結(jié)果進(jìn)行修正并反饋給系統(tǒng)而產(chǎn)生更流暢的譯文。」


根據(jù)陳博士的解釋,阿里巴巴在論文 Improved English to Russian Translation by Neural Suffix Prediction 中提出的這種詞尾預(yù)測(cè)方法在解碼過(guò)程中會(huì)獨(dú)立地預(yù)測(cè)詞干與詞尾,它的基本觀察即俄語(yǔ)和土耳其語(yǔ)等語(yǔ)言中的詞尾更多與前后詞的詞尾相關(guān),而與前后詞的詞干關(guān)系比較小。具體來(lái)說(shuō),在每一個(gè)解碼過(guò)程中都會(huì)先于詞尾生成詞干。且在訓(xùn)練過(guò)程中會(huì)使用兩種類型的目標(biāo)端序列,即詞干序列與詞尾序列,它們都是原目標(biāo)端序列分割出來(lái)的。下圖展示了目標(biāo)端(俄語(yǔ))的這種詞干與詞尾分割:

微信圖片_20180606201541.jpg


其中詞尾序列中的標(biāo)記「N」代表對(duì)應(yīng)詞干沒(méi)有詞尾,上圖下部分的 stemming 表示從原目標(biāo)序列切分為詞干和詞尾兩部分。由于詞干的數(shù)量要遠(yuǎn)少于詞的數(shù)量,且詞尾的數(shù)量甚至只有數(shù)百,這很大程度上降低了詞匯數(shù)據(jù)的稀疏性。此外,這種結(jié)構(gòu)在預(yù)測(cè)詞尾時(shí)可以考慮前面生成的詞干序列,這進(jìn)一步提升了詞尾預(yù)測(cè)的準(zhǔn)確性,也令譯文讀起來(lái)更加流暢。


部署與應(yīng)用


其實(shí)模型在推斷過(guò)程中也會(huì)做一些如量化等模型壓縮方法,陳博士表示阿里在訓(xùn)練中會(huì)使用 FP32,而在推斷中會(huì)使用 FP8 以節(jié)省計(jì)算成本。但為 WMT 2018 準(zhǔn)備的高性能模型并不能直接部署到應(yīng)用中,因?yàn)閷?shí)際應(yīng)用要求更低的延遲。


陳博士說(shuō):「如果要翻譯一個(gè) 30 詞的句子,我們需要控制響應(yīng)時(shí)間在 200 毫秒左右。因此我們需要在效率和性能上找到一個(gè)平衡,一般已經(jīng)應(yīng)用的在線系統(tǒng)也使用相同的基礎(chǔ)模型,但不會(huì)如同競(jìng)賽系統(tǒng)那樣實(shí)現(xiàn)大規(guī)模的集成。此外,在這一次的 WMT 競(jìng)賽中,我們累積了非常多的經(jīng)驗(yàn),因此隨后我們也會(huì)將這些經(jīng)驗(yàn)逐漸加到在線系統(tǒng)中去?!?/p>


阿里翻譯團(tuán)隊(duì)選擇小語(yǔ)種作為攻克對(duì)象是根據(jù)阿里巴巴業(yè)務(wù)而定的,不論是俄語(yǔ)還是土耳其語(yǔ),阿里巴巴電商都需要將英文的產(chǎn)品描述翻譯到對(duì)應(yīng)的小語(yǔ)種,所以有這樣優(yōu)秀的翻譯平臺(tái)才能擴(kuò)展業(yè)務(wù)。


據(jù)悉,阿里現(xiàn)在每天的電商機(jī)器翻譯總量已達(dá) 7.5 億次。以阿里巴巴國(guó)際站為例,七成買家以英語(yǔ)溝通,還有 30% 為小語(yǔ)種。而賣家端的調(diào)研數(shù)據(jù)顯示,大約 96% 的賣家對(duì)小語(yǔ)種無(wú)能為力,需要借助第三方軟件工具進(jìn)行翻譯溝通。這一現(xiàn)狀,催生了對(duì)機(jī)器翻譯的巨大需求。


伴隨著阿里速賣通、全球站在俄羅斯、西班牙、巴西、土耳其等國(guó)的發(fā)展,目前阿里機(jī)器翻譯團(tuán)隊(duì)已能支持包括俄語(yǔ)、西班牙語(yǔ)、泰語(yǔ)、印尼語(yǔ)、土耳其語(yǔ)在內(nèi)的 21 種語(yǔ)言。包含跨境貿(mào)易所需的商品內(nèi)容展示,跨語(yǔ)言搜索,買賣家實(shí)時(shí)溝通翻譯等 100 多個(gè)跨境電商服務(wù)場(chǎng)景。


司羅教授表示:「機(jī)器翻譯的發(fā)展無(wú)法脫離用戶與場(chǎng)景,阿里機(jī)器翻譯的不斷進(jìn)步,得益于在電商、新零售、物流等領(lǐng)域積累的豐富場(chǎng)景和數(shù)據(jù)。特別是在俄語(yǔ)、土耳其語(yǔ)、西班牙語(yǔ)的探索上,讓我們看到了機(jī)器翻譯的巨大商業(yè)價(jià)值與應(yīng)用潛力?!?/p>


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。