123,123,123

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型，在真实任务中表现优异

日期： 2018-06-06

關(guān)鍵詞： QQ浏览器 MIX 多层感知器

來自騰訊 MIG 移動瀏覽產(chǎn)品部和阿爾伯塔大學的研究者提出一種用于文本匹配的新模型 MIX，這是一個多信道信息交叉模型，大大提升了文本匹配的準確率，在 QQ 瀏覽器搜索直達業(yè)務(wù)使用中也表現(xiàn)出了優(yōu)秀的性能，相對提升點擊率 5.7%。目前，這篇長論文已經(jīng)被 KDD 2018 接收。

1 引言

短文本匹配在信息檢索、問答、對話系統(tǒng)等自然語言處理任務(wù)中起著至關(guān)重要的作用。早期的文本匹配方法包括基于檢索知識庫的自動問答，以及基于詞匹配和特征交叉（feature crossing）的 ad-hoc 檢索 [17, 24]。然而，這些方法都依賴于手動定義的模板和規(guī)則，限制了調(diào)整良好的模型的泛化能力及其面向不同任務(wù)需求的可移植性。近年來深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展為提高自然語言處理能力帶來了新的機遇。通過減少對人工特征工程的需求，深度網(wǎng)絡(luò)模型可以更好地泛化，處理多種任務(wù)。近年來，研究者提出大量基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)結(jié)構(gòu)，用于短文本匹配 [2, 3, 6, 7, 9, 11–15, 19–21, 23]。

本文對近年來出現(xiàn)的大量文本匹配深度學習技術(shù)進行了現(xiàn)實檢驗，發(fā)現(xiàn)盡管各種深度網(wǎng)絡(luò)模型都有創(chuàng)新之處，但在實際應(yīng)用中，尤其是在深度模型與語言結(jié)構(gòu)和語義特征分析相結(jié)合的情況下，這些模型仍有很大的改進空間。本論文作者設(shè)計了一個多信道信息交叉模型（Multi-Channel Information Crossing，MIX），這是一個用于文本匹配的多信道卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型，它在騰訊的線上流量中表現(xiàn)出了優(yōu)秀的性能。

MIX 是 CNN 在多種粒度下的一種新型融合，并具有精心設(shè)計的注意力機制。MIX 的基本思想可以概括為：首先，MIX 使用在不同粒度下提取的特征來表征文本片段，這些特征是從實驗觀察到的與短語、詞組、句法和語義、詞頻和權(quán)重，甚至語法信息相關(guān)的多個粒度中提取的，這是充分挖掘深層模型潛力的必要實踐。文本匹配在多級特征上的組合會將深層架構(gòu)表達所有級別的局部依賴性的能力最大化，并將卷積過程中的信息損失最小化。

其次，MIX 還提出了一種新型融合技術(shù)來組合來自多信道的匹配結(jié)果。MIX 中有兩種類型的信道，兩個文本片段的特征可以通過這些信道進行交互。其中一種是語義信息信道，它表示文本的意義，如一元分詞、二元分詞和三元分詞。另一種信道包含 term 權(quán)重、詞性和命名實體等結(jié)構(gòu)信息以及交互的空間相關(guān)性。在 MIX 中，語義信息通道的作用是相似度匹配，而結(jié)構(gòu)信息通道發(fā)揮注意力機制的作用。此外，MIX 使用 3D 卷積核來處理這些堆疊層，從多個信道提取抽象特征，并通過多層感知器來組合輸出 [5]。信道組合機制使得 MIX 能夠輕松地將新信道合并到其學習框架中，從而使 MIX 能夠適用于廣泛的任務(wù)。

研究者在騰訊的 Venus 分布式信息處理平臺上實現(xiàn)并部署了 MIX，基于多個數(shù)據(jù)集和在騰訊 QQ 移動瀏覽器中的在線 A/B 測試對 MIX 進行了評估。在線評估部分中，研究者在英文問答數(shù)據(jù)集 WikiQA [25] 和一個從 QQ 移動瀏覽器收集的中文搜索結(jié)果數(shù)據(jù)集上測試了 MIX。WikiQA 是一個可公開訪問的數(shù)據(jù)集，包含微軟提供的開放域問答對。在 WikiQA 數(shù)據(jù)集上，MIX 在 NDCG@3 上的表現(xiàn)比多種當前最優(yōu)方法至少高 11.1%，NDCG@3 是衡量排名質(zhì)量的常用指標，在搜索引擎評估中被廣泛采用。

另一個中文搜索結(jié)果數(shù)據(jù)集是在用戶同意的情況下從騰訊 QQ 瀏覽器收集的，并從每天 1000 萬活躍用戶產(chǎn)生的在線搜索流量中采樣得來。該數(shù)據(jù)集包括 12 萬個 query-document 條目和審核者生成的標簽，這些標簽顯示數(shù)據(jù)集中每個 query-document 對的匹配程度。在此數(shù)據(jù)集上，MIX 在 NDCG@3 方面的表現(xiàn)至少比所有其他當前最優(yōu)方法高出 8.2%。

此外，在騰訊 QQ 瀏覽器的在線 A/B 測試中，與未使用 MIX 的設(shè)置相比，MIX 實現(xiàn)了 5.7% 的點擊率增長。評估結(jié)果展示了 MIX 在生產(chǎn)環(huán)境中提升文本匹配準確率方面的優(yōu)秀性能，以及它可以泛化至不同語言數(shù)據(jù)集的能力。

3 MIX 模型

本章介紹 MIX 模型的細節(jié)。研究者將全局匹配定義為兩個句子之間的匹配，將局部匹配定義為句子中文本元素之間的匹配。受基于互動的模型的啟發(fā)，MIX 模型組合使用全局匹配和局部匹配技術(shù)，對兩個文本片段之間的相關(guān)性進行建模。依賴于深度神經(jīng)網(wǎng)絡(luò)強大的表征學習能力，MIX 模型能夠有層次、多維度地描繪文本匹配問題的本質(zhì)。如圖 1 所示，MIX 模型將文本匹配問題高效分割為以下子問題：

微信圖片_20180606203050.jpg

圖 1：MIX 模型架構(gòu)圖示。

首先，如圖 1 左上方所示，句子被解析成不同粒度的文本片段，如一元分詞、二元分詞和三元分詞。用這種方式，MIX 通過找到文本片段最合適的語義表征（可以是單詞、短語或詞組）來改善局部匹配的準確率。這里的目標是盡可能多地捕捉不同互動級別上的信息。

其次，如圖 1「attention units」部分所示，研究者提取語法信息，如相對權(quán)重和詞性標注，據(jù)此在注意力信道中設(shè)計注意力矩陣，以封裝豐富的結(jié)構(gòu)模式。研究者使用該方法首先研究了全局匹配和局部匹配之間的關(guān)系，然后證明其注意力機制能夠基于局部匹配構(gòu)建全局匹配，從而增強整體匹配的質(zhì)量。

第三，如圖 1「weighed channels」和「2D-convolution」部分所示，研究者將局部匹配信道和注意力信道交叉起來，以為局部匹配提取有意義的特征組合。

微信圖片_20180606203146.jpg

圖 7：空間注意力層的元素對應(yīng)亮度。

4 性能評估

4.1 離線測試

微信圖片_20180606203207.jpg

表 1：在 WikiQA 數(shù)據(jù)集上的單機測試評估結(jié)果。

微信圖片_20180606203227.jpg

表 2：在 QBSearch 數(shù)據(jù)集上的單機測試評估結(jié)果。

4.2 在線測試

微信圖片_20180606203243.jpg

圖 8：在線 A/B 測試中返回搜索結(jié)果上的點擊數(shù)。

微信圖片_20180606203300.jpg

圖 9：在線 A/B 測試中兩組的反射率（每小時點擊數(shù)）及對應(yīng)箱線圖。

論文：MIX: Multi-Channel Information Crossing for Text Matching

微信圖片_20180606203321.jpg

摘要：短文本匹配在信息檢索、問答和對話系統(tǒng)等多項自然語言處理任務(wù)中發(fā)揮重要作用。傳統(tǒng)的文本匹配方法依賴于預(yù)制模版和規(guī)則。但是，對于只有有限單詞的短文本來說，這些規(guī)則無法很好地泛化至未觀測數(shù)據(jù)中。隨著深度學習在計算機視覺、語音識別和推薦系統(tǒng)領(lǐng)域中的成功運用，近期很多研究致力于將深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語言處理任務(wù)，以降低人工特征工程的成本。

本論文提出了 MIX 模型（Multi-Channel Information Crossing），該多信道卷積神經(jīng)網(wǎng)絡(luò)模型可用于生產(chǎn)環(huán)境中的文本匹配，它具備針對句子和語義特征的額外注意力機制。MIX 在不同粒度上對比文本片段，以形成一系列多信道相似度矩陣，它們與另一組精心設(shè)計的注意力矩陣交叉起來，將句子的豐富結(jié)構(gòu)展示給深度神經(jīng)網(wǎng)絡(luò)。

我們實現(xiàn)了 MIX，并將該系統(tǒng)部署在騰訊 Venus 分布式計算平臺上。由于 MIX 具備工程設(shè)計極佳的多信道信息交叉，因此在 WikiQA 英文數(shù)據(jù)集上的評估結(jié)果顯示：MIX 在歸一化折扣累計增益（normalized discounted cumulative gain，NDCG@3）指標上優(yōu)于大量當前最優(yōu)深度神經(jīng)網(wǎng)絡(luò)模型，至少高出 11.1%。

此外，我們還利用騰訊 QQ 瀏覽器的搜索服務(wù)使用戶執(zhí)行了在線 A/B 測試。結(jié)果顯示 MIX 將返回結(jié)果點擊量提高了 5.7%，原因在于 query-document 匹配準確率有所提高，這展示了 MIX 在現(xiàn)實生產(chǎn)環(huán)境中的優(yōu)秀性能。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型，在真实任务中表现优异

日期： 2018-06-06

相關(guān)內(nèi)容