欧美无砖专区一区二区三区,99久久免费国产特黄

不再使用人眼評(píng)估，你訓(xùn)練的GAN還OK嗎？

日期： 2018-08-27

關(guān)鍵詞： 對(duì)抗網(wǎng)絡(luò) 生成器判別器

生成對(duì)抗網(wǎng)絡(luò)（GAN）是當(dāng)今最流行的圖像生成方法之一，但評(píng)估和比較 GAN 產(chǎn)生的圖像卻極具挑戰(zhàn)性。之前許多針對(duì) GAN 合成圖像的研究都只用了主觀視覺(jué)評(píng)估，一些定量標(biāo)準(zhǔn)直到最近才開(kāi)始出現(xiàn)。本文認(rèn)為現(xiàn)有指標(biāo)不足以評(píng)估 GAN 模型，因此引入了兩個(gè)基于圖像分類的指標(biāo)——GAN-train 和 GAN-test，分別對(duì)應(yīng) GAN 的召回率（多樣性）和精確率（圖像質(zhì)量）。研究者還基于這兩個(gè)指標(biāo)評(píng)估了最近的 GAN 方法并證明了這些方法性能的顯著差異。上述評(píng)估指標(biāo)表明，數(shù)據(jù)集復(fù)雜程度（從 CIFAR10 到 CIFAR100 再到 ImageNet）與 GAN 質(zhì)量呈負(fù)相關(guān)關(guān)系。

生成對(duì)抗網(wǎng)絡(luò)（GAN）[19] 是由一對(duì)存在競(jìng)爭(zhēng)關(guān)系的神經(jīng)網(wǎng)絡(luò)——生成器和判別器——組成的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。通過(guò)交替優(yōu)化兩個(gè)目標(biāo)函數(shù)訓(xùn)練該模型，這樣可以讓生成器 G 學(xué)會(huì)產(chǎn)生與真實(shí)圖像類似的樣本，還能讓判別器 D 學(xué)會(huì)更好地甄別真假數(shù)據(jù)。這種范式潛力巨大，因?yàn)樗梢詫W(xué)會(huì)生成任何數(shù)據(jù)分布。這種模型已經(jīng)在一些計(jì)算機(jī)視覺(jué)問(wèn)題上取得了一定成果，例如文本到圖像的轉(zhuǎn)換 [56] 和圖像到圖像的轉(zhuǎn)換 [24,59]、超分辨率 [31] 以及逼真的自然圖像生成 [25]。

自從提出了 GAN 模型后，近幾年間出現(xiàn)了許多變體，如以提升生成圖像質(zhì)量為目的的 GAN 模型 [12,15,25,36] 和以穩(wěn)定訓(xùn)練過(guò)程為目的的 GAN 模型 [7,9,20,34,36,40,57]。通過(guò)調(diào)整附加信息（如類別標(biāo)簽），GAN 還可以被修改為生成給定類別圖像的網(wǎng)絡(luò) [16,35,37,41]。實(shí)現(xiàn)這一想法有許多方法：連結(jié)標(biāo)簽 y 和生成器的輸入 z 或中間特征映射 [16,35]，使用條件批歸一化 [37] 以及用輔助分類器增強(qiáng)鑒別器 [41]。隨著這些方法的提出，有一個(gè)問(wèn)題就變得重要了起來(lái)：該如何評(píng)價(jià)和比較這些模型呢？

評(píng)估和比較 GAN，或者說(shuō)評(píng)估和比較 GAN 產(chǎn)生的圖像，是一件極具挑戰(zhàn)性的事，部分原因是缺乏明確的、在可比較概率模型中常用的似然方法 [51]。因此，之前許多針對(duì) GAN 合成的圖像的工作都只用了主觀視覺(jué)評(píng)估。如圖 1 所示，當(dāng)前最佳 GAN 生成圖像的樣本 [36]，用主觀評(píng)估方法無(wú)法精確評(píng)估圖像質(zhì)量。近兩年的研究已經(jīng)開(kāi)始嘗試通過(guò)定量方法評(píng)估 GAN[22,25,32,46]。

微信圖片_20180827221204.jpg

圖 1：當(dāng)前最佳 GAN 模型（如 SNGAN）[36] 生成逼真圖像，這些圖像難以用主觀評(píng)估法與真實(shí)圖像進(jìn)行比較。我們的基于準(zhǔn)確率的圖像分類新方法解決了這個(gè)問(wèn)題，并展示了真實(shí)圖像和生成圖像間的顯著差異。

將 Inception 分?jǐn)?shù)（IS）[46] 和 Fr′echet Inception 距離（FID）[22] 作為與生成圖像視覺(jué)質(zhì)量相關(guān)的臨時(shí)指標(biāo)。IS 通過(guò)計(jì)算圖像產(chǎn)生的 (logit) 響應(yīng)和邊際分布（即在 ImageNet 上訓(xùn)練出來(lái)的 Inception 網(wǎng)絡(luò)生成的全部圖像的平均響應(yīng)）之間的 KL 散度衡量生成圖像的質(zhì)量。換句話說(shuō)，IS 無(wú)法與目標(biāo)分布的樣本進(jìn)行比較，僅可用于量化生成樣本的多樣性。FID 比較的是真實(shí)圖像和生成圖像間的 Inception 激活值（Inception 網(wǎng)絡(luò)中倒數(shù)第二層的響應(yīng)）。但這樣的比較將真實(shí)圖像和生成圖像的激活值近似為高斯分布（參見(jiàn)等式（2）），計(jì)算其平均值和方差，但因?yàn)樘^(guò)粗糙而無(wú)法捕捉其細(xì)節(jié)。這些評(píng)估方法都依賴于經(jīng)過(guò) ImageNet 預(yù)訓(xùn)練的 Inception 網(wǎng)絡(luò)，這對(duì)其他數(shù)據(jù)集（如面部數(shù)據(jù)集和生物醫(yī)學(xué)成像數(shù)據(jù)集）來(lái)說(shuō)遠(yuǎn)不夠理想?？偠灾琁S 和 FID 是評(píng)估訓(xùn)練進(jìn)展的有用指標(biāo)，但它們無(wú)法評(píng)估真實(shí)世界中的任務(wù)。正如我們?cè)诘?5 節(jié)中討論的那樣，與我們的指標(biāo)（以表 2 中的 SNGAN 和 WPGAN-GP（10M）為例）不同，這些指標(biāo)不足以精確地區(qū)別出當(dāng)前最佳的 GAN 模型。

還有一種評(píng)估方法是根據(jù)精確率和召回率計(jì)算生成樣本到真實(shí)數(shù)據(jù)流形間的距離 [32]。高精確率意味著生成樣本與數(shù)據(jù)流形很接近，而高召回率意味著生成器的輸出樣本很好地覆蓋了流形。這些指標(biāo)還是很理想主義的，因?yàn)闊o(wú)法在流形未知的自然圖像數(shù)據(jù)上進(jìn)行計(jì)算。實(shí)際上，[32] 中的評(píng)估方法也只能用在由灰度三角形組成的合成數(shù)據(jù)中。另一種用于比較 GAN 模型距離的是 SWD[25]。SWD 是真實(shí)圖像和生成圖像間的 Wasserstein-1 距離的估計(jì)值，它計(jì)算的是從圖像的 Laplacian 金字塔表征中提取的局部圖像之間的數(shù)據(jù)相似性。正如第 5 節(jié)所說(shuō)，SWD 的信息量低于我們的評(píng)價(jià)指標(biāo)。

我們?cè)诒疚闹刑岢隽诵碌脑u(píng)價(jià)指標(biāo)，是用 GAN-train 分?jǐn)?shù)和 GAN-test 分?jǐn)?shù)比較類條件的 GAN 架構(gòu)。對(duì)于這兩種指標(biāo)，我們都依賴神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)進(jìn)行圖像分類。為了計(jì)算 GAN-train，我們用 GAN 生成的圖像訓(xùn)練了分類網(wǎng)絡(luò)，然后在由真實(shí)圖像組成的測(cè)試集上評(píng)估了其表現(xiàn)。直接地說(shuō)，這度量了學(xué)習(xí)到的（生成圖像）分布和目標(biāo)（真實(shí)圖像）分布間的差異?？梢缘贸鼋Y(jié)論：如果學(xué)習(xí)用于區(qū)分針對(duì)不同類別的生成圖像特征的分類網(wǎng)絡(luò)可以對(duì)真實(shí)圖像進(jìn)行正確分類，那么生成圖像與真實(shí)圖像相似。換句話說(shuō)，GAN-train 類似于召回率度量，因?yàn)?GAN-train 表現(xiàn)好意味著生成的樣本足夠多樣化。但是，GAN-train 也需要足夠的精確率，否則分類器會(huì)受到樣本質(zhì)量的影響。

我們的第二個(gè)指標(biāo)，GAN-test，是在真實(shí)圖像上訓(xùn)練并在生成圖像上評(píng)估得到的網(wǎng)絡(luò)的準(zhǔn)確率。該指標(biāo)與精確率類似，值比較高意味著生成的樣本與（未知）自然圖像分布近似。除了這兩個(gè)指標(biāo)外，我們還研究了 GAN 生成圖像在強(qiáng)化訓(xùn)練數(shù)據(jù)方面的作用?？梢詫⑵湟暈楹饬可蓤D像多樣性的指標(biāo)。我們?cè)趫D 1 中用 GAN-train 指標(biāo)闡明了我們的評(píng)估方法的效果，尤其是在主觀評(píng)價(jià)不充分的情況下。我們將在第 3 節(jié)討論這些評(píng)估指標(biāo)的細(xì)節(jié)。

正如第 5 節(jié)中廣泛的實(shí)驗(yàn)結(jié)果以及補(bǔ)充材料和技術(shù)報(bào)告中的附錄 [5] 所示，與之前討論的所有評(píng)估指標(biāo)相比（包括沒(méi)有得出結(jié)論的人類研究），這些指標(biāo)在評(píng)估 GAN 方面的信息要豐富得多。尤其是我們還對(duì)當(dāng)前最佳的兩個(gè) GAN 模型（WGAN-GP[20] 和 SNGAN[36]）以及其他一些生成模型 [45,47] 進(jìn)行了評(píng)估，以提供基線比較。用 MNIST[30]、CIFAR10、CIFAR100[28] 和 ImageNet[14] 數(shù)據(jù)集評(píng)估了圖像分類表現(xiàn)。實(shí)驗(yàn)結(jié)果表明，隨著數(shù)據(jù)集復(fù)雜度的增加，GAN 圖像的質(zhì)量顯著降低。

論文：How good is my GAN?

微信圖片_20180827221231.jpg

論文鏈接：https://arxiv.org/pdf/1807.09499.pdf

摘要：生成對(duì)抗網(wǎng)絡(luò)（GAN）是當(dāng)今最流行的圖像生成方法之一。盡管已經(jīng)有了不少可以直觀感受到的令人印象深刻的成果，但一些定量標(biāo)準(zhǔn)直到最近才出現(xiàn)。我們認(rèn)為現(xiàn)有指標(biāo)不足以評(píng)估模型，因此在本文中引入了兩個(gè)基于圖像分類的指標(biāo)——GAN-train 和 GAN-test，這兩個(gè)指標(biāo)分別對(duì)應(yīng)的是 GAN 的召回率（多樣性）和精確率（圖像質(zhì)量）。我們基于這兩個(gè)指標(biāo)評(píng)估了最近的 GAN 方法并證明了這些方法性能的顯著差異。此外，我們的評(píng)估指標(biāo)清楚地表明，數(shù)據(jù)集復(fù)雜程度（從 CIFAR10 到 CIFAR100 再到 ImageNet），與 GAN 質(zhì)量呈負(fù)相關(guān)關(guān)系。

3. GAN-train 和 GAN-test

條件 GAN 模型的一個(gè)重要特征是生成的圖像不僅要逼真，還要能辨識(shí)出屬于一個(gè)給定的類別。一個(gè)可以完美捕獲目標(biāo)分布的理想 GAN 可以生成一個(gè)新的圖像數(shù)據(jù)集 S_g，這個(gè)數(shù)據(jù)集與原始的訓(xùn)練集 S_t 沒(méi)什么區(qū)別。假設(shè)這些數(shù)據(jù)集大小相同，根據(jù)這兩個(gè)數(shù)據(jù)集中的任意一個(gè)訓(xùn)練出來(lái)的分類器應(yīng)該有同樣的驗(yàn)證準(zhǔn)確率。當(dāng)數(shù)據(jù)集足夠簡(jiǎn)單（例如 MNIST[48]）時(shí)確實(shí)是這樣（見(jiàn) 5.2 節(jié)）。在這種最佳 GAN 特性的推動(dòng)下，我們?cè)O(shè)計(jì)了兩個(gè)分?jǐn)?shù)來(lái)評(píng)估 GAN，如圖 2 所示。

微信圖片_20180827221302.jpg

圖 2：GAN-train 和 GAN-test 圖示。GAN-train 根據(jù) GAN 生成圖像訓(xùn)練了一個(gè)分類器，并在真實(shí)圖像上進(jìn)行測(cè)試。該指標(biāo)評(píng)估了 GAN 生成圖像的多樣性和真實(shí)性。GAN-test 根據(jù)真實(shí)圖像訓(xùn)練了分類器，并在 GAN 生成圖像上進(jìn)行評(píng)估。該指標(biāo)評(píng)估了 GAN 生成圖像的真實(shí)性。

GAN-train 是在 S_g 上訓(xùn)練，在由真實(shí)圖像組成的驗(yàn)證集 S_v 上測(cè)試的分類器的準(zhǔn)確率。當(dāng) GAN 不夠好的時(shí)候，GAN-train 會(huì)比在 S_t 上訓(xùn)練出來(lái)的分類器的驗(yàn)證準(zhǔn)確率低。造成這種情況的原因有很多，例如，（i）與 S_t 相比，模式下降導(dǎo)致 S_g 的多樣性降低；（ii）生成樣本不夠逼真，以至于分類器無(wú)法學(xué)到相關(guān)特征；（iii）GAN 可以將類別混在一起并混淆分類器。不幸的是，我們無(wú)法確定 GAN 的問(wèn)題在哪。當(dāng) GAN-train 的準(zhǔn)確率與驗(yàn)證集的準(zhǔn)確率相近時(shí)，意味著 GAN 產(chǎn)生的圖像質(zhì)量很高且和訓(xùn)練集一樣多樣化。正如我們?cè)?5.3 節(jié)中所說(shuō)的那樣，多樣性會(huì)隨著生成圖像數(shù)量的變化而變化。我們將在本節(jié)末尾的評(píng)價(jià)討論中對(duì)其進(jìn)行分析。

GAN-test 是在原始訓(xùn)練集 S_t 上訓(xùn)練，但在 S_g 上測(cè)試得到的分類器的準(zhǔn)確率。如果 GAN 能很好地進(jìn)行學(xué)習(xí)，這就會(huì)是一項(xiàng)簡(jiǎn)單的任務(wù)，因?yàn)檫@兩個(gè)數(shù)據(jù)集的分布是一樣的。理想情況下，GAN-test 應(yīng)該和驗(yàn)證準(zhǔn)確率相近。如果 GAN-test 明顯高了，那就意味著 GAN 過(guò)擬了，即它只是簡(jiǎn)單地記住了訓(xùn)練集。相反，如果 GAN-test 明顯低了，則說(shuō)明 GAN 無(wú)法很好地捕獲目標(biāo)分布且 GAN 生成的圖像質(zhì)量堪憂。注意，該指標(biāo)無(wú)法說(shuō)明樣本的多樣性，因?yàn)榭梢酝昝烙洃浢恳粋€(gè)訓(xùn)練圖像的模型可以得到很高的分?jǐn)?shù)。GAN-test 與 [32] 中的精確度相關(guān)，它量化了生成圖像與數(shù)據(jù)流形之間的接近程度。

為了深入了解 GAN 生成圖像的多樣性，我們通過(guò)大小不同的生成圖像數(shù)據(jù)集得到了 GAN-train 準(zhǔn)確率，將其與根據(jù)相應(yīng)大小的真實(shí)數(shù)據(jù)訓(xùn)練得到的分類器的驗(yàn)證準(zhǔn)確率相比較。如果所有的生成圖像都是完美的，GAN-train 的 S_g（其中 GAN-train 等于小尺寸訓(xùn)練集的驗(yàn)證精度）的大小將會(huì)是 S_g 中不同圖像數(shù)量的良好估計(jì)。我們?cè)趯?shí)踐中觀察到，在 GAN 生成樣本數(shù)量確定的情況下，GAN-train 準(zhǔn)確率是飽和的（見(jiàn)第 5.3 節(jié)中的圖 4（a）和 4（b））。這是一種度量 GAN 多樣性的方法，與 [32] 中的召回率相似，都是度量 GAN 覆蓋的數(shù)據(jù)流形的分?jǐn)?shù)的方法。

5. 實(shí)驗(yàn)

微信圖片_20180827221329.jpg

表 1：CIFAR10 實(shí)驗(yàn)。IS：越高越好。FID 和 SWD：越低越好。為了提高可讀性，此處的 SWD 值擴(kuò)大了 1000 倍。GAN-train 和 GAN-test 是以百分比形式給出的準(zhǔn)確率（越高越好）。

微信圖片_20180827221354.jpg

圖 3：第一列：SNGAN 生成的圖像。其他列：來(lái)自 CIFAR10「train」的 5 幅圖像，最接近基線 CIFAR10 分類器特征空間中第一列的 GAN 圖像。

微信圖片_20180827221416.jpg

表 2：CIFAR100 實(shí)驗(yàn)。細(xì)節(jié)參考表 1 標(biāo)題。

微信圖片_20180827221439.jpg

表 3：ImageNet 實(shí)驗(yàn)。SNGAN* 指經(jīng)過(guò) 850k 次迭代訓(xùn)練得到的模型。細(xì)節(jié)參考表 1 標(biāo)題。

微信圖片_20180827221506.jpg

圖 4：改變生成圖像數(shù)據(jù)集大小對(duì) GAN-train 準(zhǔn)確率產(chǎn)生的影響。為了便于比較，我們還展示改變真實(shí)圖像訓(xùn)練數(shù)據(jù)集大小對(duì)結(jié)果（藍(lán)色曲線）產(chǎn)生的影響（最好以 pdf 格式查看）。

微信圖片_20180827221535.jpg

圖 5：用真實(shí)圖像和 SNGAN 生成的圖像結(jié)合的數(shù)據(jù)集訓(xùn)練分類器的結(jié)果。

微信圖片_20180827221559.jpg

表 4：用縮減的真實(shí)圖像數(shù)據(jù)集訓(xùn)練的 SNGAN 的數(shù)據(jù)強(qiáng)化。在真實(shí)圖像數(shù)據(jù)集或真實(shí)圖像和 SNGAN 生成的圖像相結(jié)合的數(shù)據(jù)集（real+GAN）上訓(xùn)練得到的分類器。分類器準(zhǔn)確率以百分?jǐn)?shù)形式表示。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

不再使用人眼評(píng)估，你訓(xùn)練的GAN還OK嗎？

日期： 2018-08-27

相關(guān)內(nèi)容

不再使用人眼評(píng)估，你訓(xùn)練的GAN還OK嗎？