《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 學(xué)界 | 把醬油瓶放進(jìn)菜籃子:UC Berkeley提出高度逼真的物體組合網(wǎng)絡(luò)Compositional GAN

學(xué)界 | 把醬油瓶放進(jìn)菜籃子:UC Berkeley提出高度逼真的物體組合網(wǎng)絡(luò)Compositional GAN

2018-08-04

生成對(duì)抗網(wǎng)絡(luò)GAN)可以產(chǎn)生復(fù)雜且逼真到令人驚訝的圖像,但它會(huì)忽略可能存在于場(chǎng)景中的多個(gè)實(shí)體間的顯式空間交互。本文提出以 GAN 為框架、將目標(biāo)組合建模為自洽的組合-分解網(wǎng)絡(luò)。該模型以其邊緣分布的目標(biāo)圖像為條件,通過明確學(xué)習(xí)可能的交互,在聯(lián)合分布中產(chǎn)生逼真的圖像。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練后的模型可以在作為輸入的兩個(gè)給定的目標(biāo)域間捕獲潛在的交互關(guān)系,并以合理的方式在測(cè)試時(shí)輸出組合場(chǎng)景的新的實(shí)例。


1. 引言


生成對(duì)抗網(wǎng)絡(luò)(GAN)是在給定輸入的條件下生成圖像的一種強(qiáng)大方法。輸入的格式可以是圖像 [9,37,16,2,29,21]、文本短語(yǔ) [33,24,23,11] 以及類標(biāo)簽布局 [19,20,1]。大多數(shù) GAN 實(shí)例的目標(biāo)是學(xué)習(xí)一種可以將源分布中的給定樣例轉(zhuǎn)換為輸出分布中生成的樣本的映射。這主要涉及到單個(gè)目標(biāo)的轉(zhuǎn)換(從蘋果到橙子、從馬到斑馬或從標(biāo)簽到圖像等),或改變輸入圖像的樣式和紋理(從白天到夜晚等)。但是,這些直接的以輸入為中心的轉(zhuǎn)換無法直觀體現(xiàn)這樣一個(gè)事實(shí):自然圖像是 3D 視覺世界中交互的多個(gè)對(duì)象組成的 2D 投影。本文探索了組合在學(xué)習(xí)函數(shù)中所起到的作用,該函數(shù)將從邊緣分布(如椅子和桌子)采集到的目標(biāo)不同的圖像樣本映射到捕獲其聯(lián)合分布的組合樣本(桌椅)中。


由于不同對(duì)象間在相對(duì)縮放、空間布局、遮擋以及視角變換等方面可能存在復(fù)雜的交互關(guān)系,在自然圖像中對(duì)組合建模是一個(gè)極具挑戰(zhàn)的問題。近期的研究在 GAN 框架 [15] 中使用空間變換網(wǎng)絡(luò) [10],通過在幾何扭曲參數(shù)空間中進(jìn)行操作,找到前景對(duì)象的幾何糾正來分解該問題。但這種方法僅限于固定的背景,也并未考慮真實(shí)世界中更加復(fù)雜的交互關(guān)系。近期的另一項(xiàng)研究是以文本和場(chǎng)景圖為條件生成場(chǎng)景的,這項(xiàng)研究明確地對(duì)對(duì)象和其交互關(guān)系進(jìn)行了推理。


我們開發(fā)的這種方法可以對(duì)圖像中的目標(biāo)組合建模。我們將組合兩個(gè)輸入對(duì)象圖像的任務(wù)視為生成一個(gè)聯(lián)合圖像,該圖像可以捕獲這兩個(gè)對(duì)象在自然圖像中的聯(lián)合交互關(guān)系。例如,給定椅子和桌子的圖像,可以產(chǎn)生一張包含相同的成對(duì)桌椅的自然交互的圖像。一個(gè)可以正確捕捉組合特征的模型需要對(duì)遮擋排序(如桌子在椅子前面)和空間布局(如椅子在桌子內(nèi)滑動(dòng))有所了解。據(jù)我們所知,我們是第一個(gè)在沒有任何清晰的關(guān)于目標(biāo)布局的先前顯式信息的情況下,在圖像條件空間中解決該問題的組。


我們的工作重點(diǎn)是將兩個(gè)目標(biāo)組合的問題重構(gòu)為先組合好給定的目標(biāo)圖像以生成可以對(duì)目標(biāo)交互關(guān)系建模的聯(lián)合圖像,再將聯(lián)合圖像分解,以獲得單個(gè)目標(biāo)。這樣的重構(gòu)可以通過組合-分解網(wǎng)絡(luò)加強(qiáng)自洽約束 [37]。但在一些場(chǎng)景中無法用組合合成圖像對(duì)相同的目標(biāo)實(shí)例的成對(duì)樣例進(jìn)行訪問,例如,要根據(jù)給定桌子和椅子的圖像生成聯(lián)合圖像,除了指定的桌子外我們可能沒有任何有關(guān)指定椅子的樣例,但我們可能有其他桌子和椅子的圖像。我們?cè)诮M合分解層添加了修復(fù)網(wǎng)絡(luò),以處理這樣的不配對(duì)情況。


通過定性和定量實(shí)驗(yàn),我們?cè)趦蓚€(gè)訓(xùn)練場(chǎng)景中評(píng)估了我們提出的 Compositional-GAN 方法:(a)配對(duì):當(dāng)我們有權(quán)用相關(guān)組合圖像訪問單個(gè)對(duì)象圖像的成對(duì)樣例時(shí);(b)未配對(duì):當(dāng)數(shù)據(jù)集源于聯(lián)合分布且沒有與來自邊緣分布的任何一張圖進(jìn)行配對(duì)時(shí)。


聯(lián)合 GAN 代碼和數(shù)據(jù)集請(qǐng)參閱:https://github.com/azadis/ CompositionalGAN 



論文:Compositional GAN: Learning Conditional Image Composition



微信圖片_20180804201743.jpg


論文鏈接:https://arxiv.org/pdf/1807.07560v1.pdf


生成對(duì)抗網(wǎng)絡(luò)(GAN)可以產(chǎn)生復(fù)雜且逼真到令人驚訝的圖像,但它一般會(huì)從單個(gè)潛在源采樣建模,從而忽略可能存在于場(chǎng)景中的多個(gè)實(shí)體間的顯式空間交互。在相對(duì)縮放、空間布局、遮擋或視角轉(zhuǎn)移等情況下在不同目標(biāo)間捕獲復(fù)雜的交互關(guān)系是極具挑戰(zhàn)的問題。本文提出以 GAN 為框架、將目標(biāo)組合建模為自洽的組合-分解網(wǎng)絡(luò)。該模型以其邊緣分布的目標(biāo)圖像為條件,通過明確學(xué)習(xí)可能的交互,在聯(lián)合分布中產(chǎn)生逼真的圖像。我們?cè)趯?duì)單獨(dú)的目標(biāo)進(jìn)行配對(duì)和不配對(duì)的兩個(gè)場(chǎng)景中通過定性實(shí)驗(yàn)和用戶評(píng)估對(duì)模型進(jìn)行了評(píng)估,在訓(xùn)練過程中也給出了聯(lián)合場(chǎng)景。結(jié)果表明,訓(xùn)練后的模型可以在作為輸入的兩個(gè)給定的目標(biāo)域間捕獲潛在的交互關(guān)系,并以合理的方式在測(cè)試時(shí)輸出組合場(chǎng)景的新的實(shí)例。

微信圖片_20180804201819.jpg


圖 1:組合 GAN 對(duì)配對(duì)和未配對(duì)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的模型。黃色框指的是用于在給定第二對(duì)象被遮擋的情況下合成第一對(duì)象的新視角的 RAFN 步驟,該過程僅用于成對(duì)數(shù)據(jù)的訓(xùn)練過程。橙色框表示用未配對(duì)數(shù)據(jù)修復(fù)輸入分割的過程。對(duì)配對(duì)和未配對(duì)的情況而言模型的剩余部分相似,都包括 STN,再之后是自洽組合-分解網(wǎng)絡(luò)。

微信圖片_20180804201912.jpg

圖 2:使用配對(duì)或未配對(duì)數(shù)據(jù)訓(xùn)練桌椅組合任務(wù)的測(cè)試結(jié)果?!窷N」代表成對(duì)訓(xùn)練集中最接近的圖像,「NoInpaint」表示在沒有修復(fù)網(wǎng)絡(luò)的情況下未配對(duì)模型的結(jié)果。在配對(duì)和未配對(duì)情況中,c? before 和 c? after 分別表示在推理細(xì)化網(wǎng)絡(luò)之前和之后的生成器的結(jié)果。c? after s 表示細(xì)化步驟后的有遮掩的轉(zhuǎn)置輸入的總和。


4 實(shí)驗(yàn)

微信圖片_20180804201936.jpg


圖 3:用配對(duì)或未配對(duì)數(shù)據(jù)對(duì)籃子-瓶子組合任務(wù)訓(xùn)練后的測(cè)試結(jié)果。「NN」表示在配對(duì)的訓(xùn)練集中最近的圖像,「NoInpaint」表示在沒有修復(fù)網(wǎng)絡(luò)的情況下用未配對(duì)數(shù)據(jù)訓(xùn)練得到的模型。在配對(duì)和未配對(duì)情況中,c? before 和 c? after 分別表示在推理細(xì)化網(wǎng)絡(luò)之前和之后生成器的輸出結(jié)果。此外,c? after s 表示細(xì)化步驟之后遮掩情況下轉(zhuǎn)置輸入的總和。

微信圖片_20180804202005.jpg


表 1:AMT 用戶評(píng)估比較我們提出的模型的不同組件。第一列表示在未配對(duì)場(chǎng)景中推理(未細(xì)化)期間要細(xì)化的圖像的偏好百分比。第二列表示與未配對(duì)情況相比,通過配對(duì)數(shù)據(jù)訓(xùn)練策略生成的細(xì)化圖像的偏好百分比。

微信圖片_20180804201958.jpg


圖 4:面部-太陽(yáng)鏡組合任務(wù)的測(cè)試樣例。前兩行表示輸入的太陽(yáng)鏡圖像和面部圖像,第三行和第四行分別表示用配對(duì)和未配對(duì)數(shù)據(jù)訓(xùn)練的組合 GAN 的輸出。最后一行表示 ST-GAN 模型生成的圖像。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。