《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 學(xué)界 | 谷歌大腦提出對(duì)抗正則化方法,顯著改善自編碼器的泛化和表征學(xué)習(xí)能力

學(xué)界 | 谷歌大腦提出對(duì)抗正則化方法,顯著改善自編碼器的泛化和表征學(xué)習(xí)能力

2018-08-05
關(guān)鍵詞: 自編碼器 谷歌大腦

自編碼器因其優(yōu)越的降維和無監(jiān)督表征學(xué)習(xí)能力而知名,而過去的研究表明自編碼器具備一定程度的插值能力。來自谷歌大腦的 Ian Goodfellow 等研究者從這一角度提出了一種新方法,顯著改善了自編碼器的平滑插值能力,這不僅能提高自編碼器的泛化能力,對(duì)于后續(xù)任務(wù)的表征學(xué)習(xí)也會(huì)大有幫助。



1 引言


無監(jiān)督學(xué)習(xí)的目標(biāo)之一是不依靠顯式的標(biāo)注得到數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。自編碼器是一種用于達(dá)成該目標(biāo)的常見結(jié)構(gòu),它學(xué)習(xí)如何將數(shù)據(jù)點(diǎn)映射到隱編碼中——利用它以最小的信息損失來恢復(fù)數(shù)據(jù)。通常情況下,隱編碼的維度小于數(shù)據(jù)的維度,這表明自編碼器可以實(shí)施某種降維。對(duì)于某些特定的結(jié)構(gòu),隱編碼可以揭示數(shù)據(jù)集產(chǎn)生差異的關(guān)鍵因素,這使得這些模型能夠用于表征學(xué)習(xí) [7,15]。過去,它們還被用于預(yù)訓(xùn)練其它網(wǎng)絡(luò):先在無標(biāo)注的數(shù)據(jù)上訓(xùn)練它們,之后將它們疊加起來初始化深層網(wǎng)絡(luò) [1,41]。最近的研究表明,通過對(duì)隱藏空間施加先驗(yàn)?zāi)苁棺跃幋a器用于概率建模或生成模型建模 [18,25,31]。


某些情況下,自編碼器顯示了插值的能力。具體來說,通過在隱藏空間中混合編碼以及對(duì)結(jié)果進(jìn)行解碼,自編碼器可以生成對(duì)應(yīng)數(shù)據(jù)點(diǎn)的語義上有意義的組合。這種行為本身就很有用,例如用于創(chuàng)造性應(yīng)用 [6]。盡管如此,我們還認(rèn)為它展示了一種廣義上的「泛化」能力——這意味著自編碼器并不只是簡(jiǎn)單地記憶如何重建一小部分?jǐn)?shù)據(jù)點(diǎn)。從另一個(gè)角度來看,它還表明自編碼器發(fā)現(xiàn)了一些數(shù)據(jù)的內(nèi)在結(jié)構(gòu)并在其隱藏空間中捕獲了它。這些特點(diǎn)使得插值經(jīng)常出現(xiàn)在關(guān)于自編碼器 [5,11,14,26,27,32] 及隱變量生成模型研究的實(shí)驗(yàn)結(jié)果中 [10,30,38]。基于無監(jiān)督表征學(xué)習(xí) [3] 和正則化 [40] 的插值與「平面」數(shù)據(jù)流形之間的聯(lián)系已經(jīng)被探索過。


盡管插值應(yīng)用廣泛,其定義仍然有些不夠明確,因?yàn)樗亩x依賴于「語義上有意義的組合」的概念。此外,人們也很難直觀的理解為什么自編碼器應(yīng)該具有插值能力——用于自編碼器的目標(biāo)或結(jié)構(gòu)都沒有明確地對(duì)其提出過這種要求。本文主要在自編碼器的規(guī)范化以及插值改進(jìn)方面做出了以下貢獻(xiàn):


提出了一種對(duì)抗正則化策略,該策略明確鼓勵(lì)自編碼器中的高質(zhì)量插值(第 2 節(jié))。

開發(fā)了一個(gè)簡(jiǎn)單的基準(zhǔn),其中插值定義明確且可以量化(第 3.1 節(jié))。

定量地評(píng)估了常見的自編碼器模型實(shí)施有效插值的能力;同時(shí)還展示了本文提出的正則化項(xiàng)更優(yōu)的插值能力(3.2 節(jié))。

證明了正則化項(xiàng)有利于后續(xù)任務(wù)的表征學(xué)習(xí)(第 4 節(jié))。

微信圖片_20180805210218.jpg

圖 1:對(duì)抗約束自編碼器插值(ACAI)。評(píng)估網(wǎng)絡(luò)試圖預(yù)測(cè)對(duì)應(yīng)于插值數(shù)據(jù)點(diǎn)的插值系數(shù) α。訓(xùn)練自編碼器來欺騙評(píng)估網(wǎng)絡(luò)使輸出 α = 0。


論文:Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer 

微信圖片_20180805210241.jpg


論文鏈接:https://arxiv.org/pdf/1807.07543v2.pdf


通過對(duì)隱編碼中重建數(shù)據(jù)點(diǎn)所需的所有信息進(jìn)行編碼,自編碼器為學(xué)習(xí)壓縮表征提供了強(qiáng)大的框架。某些情況下,自編碼器可以「插值」:通過解碼兩個(gè)數(shù)據(jù)點(diǎn)的隱編碼的凸組合,自編碼器可以產(chǎn)生一個(gè)語義上混合各數(shù)據(jù)點(diǎn)特征的輸出。本論文提出了一種正則化過程,它鼓勵(lì)插值輸出通過欺騙評(píng)估網(wǎng)絡(luò)(critic network)的方式顯得更真實(shí),其中評(píng)估網(wǎng)絡(luò)被訓(xùn)練用于恢復(fù)插值數(shù)據(jù)的混合系數(shù)。論文還提出了一個(gè)簡(jiǎn)單的基準(zhǔn)測(cè)試,可以定量測(cè)量各種自編碼器可以插值的程度,并表明本文提出的正則化項(xiàng)可以顯著改善此設(shè)置中的插值。此外,論文還認(rèn)為正則化項(xiàng)產(chǎn)生的隱編碼對(duì)后續(xù)任務(wù)更有效,這表明插值能力和學(xué)習(xí)有用表征之間可能存在聯(lián)系。


3 自編碼器,以及如何插值


如何衡量自編碼器插值是否有效以及正則化策略是否達(dá)到其既定目標(biāo)?如第 2 節(jié)所述,定義插值依賴于「語義相似性」的概念,這是一個(gè)模糊且依賴于問題的概念。例如,按照「αz_1 + (1 ? α)z_2 應(yīng)該映射到 αx_1 + (1 ? α)x_2」定義插值顯得過于簡(jiǎn)單,因?yàn)閿?shù)據(jù)空間中的插值通常不會(huì)產(chǎn)生真實(shí)的數(shù)據(jù)點(diǎn)——用圖像來表現(xiàn)的話,這種情況對(duì)應(yīng)于兩個(gè)圖像像素值之間的簡(jiǎn)單淡化。然而,我們想要的是自編碼器在特征不同的 x1 和 x2 之間平滑地變化;換句話說,是希望沿著插值的解碼點(diǎn)平滑地遍歷數(shù)據(jù)的底層流形而不是簡(jiǎn)單地在數(shù)據(jù)空間中插值。但是,我們很少能夠訪問基礎(chǔ)數(shù)據(jù)流。為了使這個(gè)問題更加具體,本文引入了一個(gè)簡(jiǎn)單的基準(zhǔn)測(cè)試,其中數(shù)據(jù)流形簡(jiǎn)單且先驗(yàn)已知,這使得量化插值質(zhì)量成為可能。然后,我們?cè)u(píng)估各種常見自編碼器在基準(zhǔn)測(cè)試中進(jìn)行插值的能力。最后,我們?cè)诨鶞?zhǔn)測(cè)試中測(cè)試 ACAI,發(fā)現(xiàn)它展示出了顯著改善的性能和定性優(yōu)越的插值。

微信圖片_20180805210304.jpg

圖 2:合成線數(shù)據(jù)集中的數(shù)據(jù)和插值示例。(a) 來自數(shù)據(jù)集的 16 個(gè)隨機(jī)樣本。(b) 從 Λ=11π/ 14 到 0 的完美插值。(c) 在數(shù)據(jù)空間而不是「語義」或隱藏空間中插值。顯然,以這種方式插值會(huì)產(chǎn)生不在數(shù)據(jù)流形上的點(diǎn)。(d) 從一幅圖像突然轉(zhuǎn)換成另一幅圖像、而不是平滑改變的插值。(e) 平滑插值,從開始到結(jié)束點(diǎn)的路徑比最短路徑更長(zhǎng)。(f) 采用正確路徑但中間點(diǎn)虛化了的插值。

微信圖片_20180805210331.jpg

圖 3:以下自編碼器在合成線基準(zhǔn)上插值的效果:(a) 標(biāo)準(zhǔn)自編碼器,(b) 對(duì)隱藏空間施加 dropout 的標(biāo)準(zhǔn)編碼器,(c) 去噪自編碼器,(d) 變分自編碼器,(e) 對(duì)抗自編碼器,(f) 矢量量化變分自編碼器,(g) 對(duì)抗約束自編碼器插值(我們的模型)。

微信圖片_20180805210354.jpg

表 1:不同自編碼器在合成基準(zhǔn)測(cè)試中獲得的分?jǐn)?shù)(越低越好)。


4 優(yōu)化表征學(xué)習(xí)


到目前為止,本文只專注于測(cè)試不同自編碼器的插值能力。現(xiàn)在,我們想知道改進(jìn)插值是否與后續(xù)任務(wù)的性能改進(jìn)有關(guān)。具體來說,我們將評(píng)估使用本文提出的正則化項(xiàng)是否會(huì)產(chǎn)生隱藏空間表征,從而改善在監(jiān)督學(xué)習(xí)和聚類中的表現(xiàn)。換句話說,我們?cè)噲D測(cè)試改進(jìn)插值是否會(huì)影響隱藏表征:它可以揭示數(shù)據(jù)集產(chǎn)生差異的關(guān)鍵因素。為了回答這個(gè)問題,我們?cè)?MNIST [21],SVHN [28] 和 CIFAR-10 [20] 數(shù)據(jù)集上用不同自編碼器訓(xùn)練過的隱藏空間來進(jìn)行分類聚類測(cè)試。


4.1 單層分類器

微信圖片_20180805210422.jpg

表 2:不同自編碼器達(dá)到的單層分類器準(zhǔn)確率


4.2 聚類

微信圖片_20180805210444.jpg

表 3:在不同自編碼器(左)和先前報(bào)告的方法(右)的隱藏空間上使用 K-Means 的聚類準(zhǔn)確率。右邊的「Data」是指直接對(duì)數(shù)據(jù)執(zhí)行 K-Means。標(biāo) * 的結(jié)果來自 [16],標(biāo) ** 的結(jié)果來自 [42]。

微信圖片_20180805210512.jpg

圖 6:MNIST 上的插值示例,隱維數(shù)為 256:(a) 標(biāo)準(zhǔn)編碼器,(b)Dropout 編碼器,(c) 去噪編碼器,(d)VAE,(e)AAE,(f)VQ-VAE,(g)ACAI 自編碼器。

微信圖片_20180805210538.jpg

圖 10:CelebA 上的插值示例,隱維數(shù)為 256:(a) 標(biāo)準(zhǔn)編碼器,(b)Dropout 編碼器,(c) 去噪編碼器,(d)VAE,(e)AAE,(f)VQ-VAE,(g)ACAI 自編碼器。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。