如何評(píng)價(jià)生成模型的性能好壞?這似乎是一個(gè)復(fù)雜而困難的任務(wù)。Ian Goodfellow 提出的生成對(duì)抗網(wǎng)絡(luò) GAN 已經(jīng)成為人工智能的重要研究方向,吸引了眾多學(xué)者投入研究。但 GAN 也遭遇了「改無可改」的呼聲(參見:六種改進(jìn)均未超越原版:谷歌新研究對(duì) GAN 現(xiàn)狀提出質(zhì)疑)。近日,Goodfellow 團(tuán)隊(duì)提出了一種全新生成模型評(píng)價(jià)方式,看來,GAN 的開山鼻祖終于坐不住了,他試圖親自解決這個(gè)問題。
Ian Goodfellow 表示:通過估計(jì)解釋模型表現(xiàn)的隱技能變量來評(píng)估生成模型的能力似乎是一個(gè)很有希望的研究方向。
谷歌研究科學(xué)家 Jordi Pont-Tuset 對(duì)于 CVPR 各屆接收論文名稱的統(tǒng)計(jì),GAN 已經(jīng)超過 LSTM,成為了重要關(guān)鍵詞,大有趕超「深度學(xué)習(xí)」的趨勢(shì)。但眾多論文里,真正的改進(jìn)又有多少?
生成模型的評(píng)估是一項(xiàng)非常困難的任務(wù)。目前該領(lǐng)域已經(jīng)探索了許多不同的方法,但每一種方法都存在顯著的缺點(diǎn)。Theis [2016] 和 Borji [2018] 等人概覽了這些方法,并展示了它們各自的缺點(diǎn)。
在這一篇論文中,谷歌大腦提出了一種通過對(duì)抗過程評(píng)估生成模型的新框架,在該對(duì)抗過程中,許多模型在錦標(biāo)賽(tournament)中進(jìn)行對(duì)抗。谷歌大腦團(tuán)隊(duì)利用先前開發(fā)的人類選手評(píng)估方法來量化模型在這類錦標(biāo)賽中的性能。
在國(guó)際象棋或網(wǎng)球比賽中,Elo 或 Glicko2 等技能評(píng)分系統(tǒng)通過觀察多個(gè)參賽者的勝利數(shù)和失敗數(shù),推斷每一個(gè)參與者的隱藏、未觀察到的技能值(它們解釋了這些觀察到的輸贏數(shù)),從而評(píng)估他們的技能表現(xiàn)。同樣,谷歌大腦團(tuán)隊(duì)通過構(gòu)建一個(gè)多參與者的錦標(biāo)賽將生成模型的評(píng)估構(gòu)建為隱藏技能估計(jì)問題,該錦標(biāo)賽可推廣至噪聲對(duì)比估計(jì)(NCE)和生成對(duì)抗網(wǎng)絡(luò)(GAN)所使用的兩參與者的可分辨博弈(two-player distinguishability game),并且估計(jì)參與這些錦標(biāo)賽的生成模型的隱藏技能。
錦標(biāo)賽的參與者可以是嘗試區(qū)別真實(shí)數(shù)據(jù)和偽數(shù)據(jù)的判別器,也可以是嘗試欺騙判別器將偽造數(shù)據(jù)誤認(rèn)為是真實(shí)數(shù)據(jù)的生成器。雖然框架主要為 GAN 設(shè)計(jì),但它也可以估計(jì)任何成為該框架參與者的模型效果。例如顯式密度模型等任何能夠生成樣本的模型都可以作為生成器。
我們引入了兩種方法來總結(jié)錦標(biāo)賽的結(jié)果:
錦標(biāo)賽勝率:錦標(biāo)賽中每個(gè)生成器成功欺騙判別器的平均比率。
技能評(píng)分。用技能評(píng)分系統(tǒng)對(duì)錦標(biāo)賽的結(jié)果進(jìn)行評(píng)估,然后對(duì)每個(gè)生成器生成一個(gè)技能分?jǐn)?shù)。
實(shí)驗(yàn)表明,錦標(biāo)賽是一種評(píng)估生成器模型的有效方式。首先,within-trajectory 錦標(biāo)賽(在訓(xùn)練的連續(xù)迭代中,單個(gè) GAN 自身的判別器和生成器的 snapshot 之間)提供了一個(gè)有用的訓(xùn)練進(jìn)度衡量標(biāo)準(zhǔn),即使只能接觸正在訓(xùn)練的生成器或判別器。其次,更普遍的錦標(biāo)賽(具有不同種子、超參數(shù)和架構(gòu)的 GAN 生成器和判別器 snapshot 之間)提供了不同訓(xùn)練過的 GAN 之間的有效對(duì)比。
本論文第二部分將研究放在生成模型評(píng)估系統(tǒng)這一更大背景下,詳細(xì)說明了谷歌大腦提出的方法和其他方法相比的優(yōu)點(diǎn)和局限性。4.1 節(jié)初步證明了該方法適用于不能很好地表征為標(biāo)準(zhǔn)化圖像嵌入的數(shù)據(jù)集,例如未標(biāo)注數(shù)據(jù)集或自然圖像以外的形式。谷歌大腦研究者還展示了使用技能評(píng)分系統(tǒng)來總結(jié)錦標(biāo)賽結(jié)果,實(shí)現(xiàn)了在一場(chǎng)比賽中對(duì)所有參與者進(jìn)行技能評(píng)分,而無需進(jìn)行二次比賽。4.2 節(jié)展示了 GAN 判別器能成功地判斷哪些樣本來自于沒訓(xùn)練過的生成器,包括其他 GAN 生成器和其他類型的生成模型。4.3 節(jié)展示了該方法可以應(yīng)用于生成器近乎完美的情況下。
論文:Skill Rating for Generative Models
論文鏈接:https://arxiv.org/abs/1808.04888v1
摘要:我們利用評(píng)估人類選手在競(jìng)技游戲中表現(xiàn)的方法,探索了一種評(píng)估生成模型的新方式。我們通過實(shí)驗(yàn)展示了生成器和判別器之間的錦標(biāo)賽為評(píng)估生成模型提供了一種有效方式。我們介紹了兩種對(duì)比錦標(biāo)賽結(jié)果的方法:贏率和技能評(píng)定。評(píng)估在不同語境中都有用,包括監(jiān)控單個(gè)模型在訓(xùn)練過程中的進(jìn)展、對(duì)比兩個(gè)不同的完全訓(xùn)練模型的能力。我們展示了包含單個(gè)模型與其之前、之后版本比賽的錦標(biāo)賽可以有效輔助對(duì)訓(xùn)練進(jìn)展的衡量。包含多個(gè)單獨(dú)模型(使用不同隨機(jī)種子、超參數(shù)和架構(gòu))的錦標(biāo)賽提供了對(duì)不同訓(xùn)練 GAN 的有效對(duì)比?;阱\標(biāo)賽的評(píng)定方法在概念上與大量之前的評(píng)估生成模型方法不同,且具備互補(bǔ)的優(yōu)劣勢(shì)。
圖 1:實(shí)驗(yàn) 1 的 Within-trajectory 錦標(biāo)賽結(jié)果。圖 1a:左圖展示了原始比賽結(jié)果。每個(gè)像素表示來自實(shí)驗(yàn) 1 不同迭代的生成器和判別器之間的平均贏率。像素越亮表示生成器的性能越強(qiáng)。右圖對(duì)比了比賽的概括性指標(biāo)和 SVHN 分類器得分。該圖中比賽贏率指熱力圖中每列平均像素值。(注意:i=0 時(shí)分類器得分低于 4.0,遮擋了同一軸線上其余曲線的對(duì)齊,因此我們選擇忽略它。)圖 1b 展示了相同的數(shù)據(jù),不過它使用的是相距較遠(yuǎn)的迭代之間的比賽,如圖 1b 左圖褐色像素所示的部分。右圖展示了技能評(píng)定繼續(xù)追蹤模型的進(jìn)展,即使忽略了一些信息量最大的「戰(zhàn)斗」(早期生成器和晚期判別器,如圖左上角所示),而贏率不再具備信息。
圖 2:繪制蘋果圖片的 within-trajectory 技能評(píng)分。我們?cè)u(píng)估了在 QuickDraw 數(shù)據(jù)集上訓(xùn)練的 DCGAN。從左到右,主觀樣本(subjective sample)質(zhì)量隨著迭代次數(shù)的增加而提高。SVHN 分類器判斷這些樣本質(zhì)量的能力不強(qiáng),迭代 0 次時(shí)評(píng)成了最高分,此后提供了不穩(wěn)定且惡化的得分。SVHN Fréchet 距離擬合地更好,采樣質(zhì)量的評(píng)分穩(wěn)定增加,直到 1300 次迭代;但是,它會(huì)在 1300 上飽和,而主觀樣本質(zhì)量繼續(xù)增加。(注意 Fréchet 距離圖上的 y 軸是反轉(zhuǎn)的,這使得較低距離(更好質(zhì)量)在圖上位置更高)。within-trajectory 技能評(píng)分在 1300 次迭代以后繼續(xù)提升。
圖 3:多軌競(jìng)賽結(jié)果。我們組織了一個(gè)競(jìng)賽,其中包含 SVHN 生成器和具有不同種子、超參數(shù)和架構(gòu)的模型的判別器 snapshot(已在 4.2 節(jié)中提及)。我們利用 SVHN 分類器評(píng)分 (左)、SVHN Fréchet 距離 (中) 和技能評(píng)分方法(右;見 3.2 節(jié))對(duì)其進(jìn)行評(píng)估。每個(gè)點(diǎn)代表一個(gè)模型一次迭代的分?jǐn)?shù)。總體軌跡表明隨著訓(xùn)練次數(shù)增加,每個(gè)模型都得到了改進(jìn)。要注意 Fréchet 距離圖上的 y 軸是反轉(zhuǎn)的,這使得較短的距離(質(zhì)量較好)在坐標(biāo)圖上標(biāo)得更高。真實(shí)數(shù)據(jù)樣本的得分用黑線表示。6-auto 的分?jǐn)?shù)是根據(jù)單個(gè) snapshot 而非一條完整的訓(xùn)練曲線來計(jì)算的,并以灰線表示。技能評(píng)分生成的學(xué)習(xí)曲線與 Fréchet 距離生成的學(xué)習(xí)曲線大致相同,僅在條件模型 4-cond 和 5-cond 中與分類器得分的曲線不一致——我們?cè)?4.2 節(jié)中對(duì)此差異進(jìn)行了推測(cè)。
圖 4:完全訓(xùn)練的生成模型樣本。從每個(gè)訓(xùn)練模型中,我們展示了 64 個(gè)樣本(來自 GAN 的 200,000 次迭代和 6-auto 的 106 次 epoch),以及用于比較的真實(shí)數(shù)據(jù)。在每組樣本中,我們列出模型的 Glicko2 技能評(píng)分(SR)、SVHN 分類器分?jǐn)?shù)(CS)以及模型的 SVHN Fréchet 距離(FD)。我們的技能評(píng)分系統(tǒng)在實(shí)驗(yàn) 5-cond 中略遜于真實(shí)數(shù)據(jù),但優(yōu)于 runner-ups 4-cond 和 1,而分類器得分 5-cond 比真實(shí)數(shù)據(jù)好,F(xiàn)réchet 距離 5-cond 比 4-cond 和 1 都差。在其它情況下,我們系統(tǒng)的排名與 Fréchet 距離一致。
圖 5:用一個(gè)簡(jiǎn)單的任務(wù)來評(píng)估近乎完美的生成器。我們訓(xùn)練一個(gè)普通的 GAN 來模擬具有全協(xié)方差矩陣的高斯分布。迭代 8000 次以后的生成器已經(jīng)掌握了這個(gè)任務(wù)。迭代 8000 次以后的判別器不再產(chǎn)生有用的判斷(圖 5a),迭代 8000 次之后的 Chekhov GAN 判別器則仍可以判斷之前的生成器樣本(圖 5b)。圖 5c 對(duì)這些判別器的技能評(píng)分與普通生成器的真實(shí)性能進(jìn)行了比較,并將之衡量為生成器的協(xié)方差矩陣估計(jì)和數(shù)據(jù)協(xié)方差矩陣之間的平均絕對(duì)差。與 within-trajectory 比賽相比,Chekhov 判別器的技能評(píng)分更符合真實(shí)情況。