123,123

学界 | 把酱油瓶放进菜篮子：UC Berkeley提出高度逼真的物体组合网络Compositional GAN

日期： 2018-08-04

關鍵詞： 对抗网络显式空间交互 GaN

生成對抗網絡（GAN）可以產生復雜且逼真到令人驚訝的圖像，但它會忽略可能存在于場景中的多個實體間的顯式空間交互。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網絡。該模型以其邊緣分布的目標圖像為條件，通過明確學習可能的交互，在聯(lián)合分布中產生逼真的圖像。實驗結果表明，訓練后的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的交互關系，并以合理的方式在測試時輸出組合場景的新的實例。

1. 引言

生成對抗網絡（GAN）是在給定輸入的條件下生成圖像的一種強大方法。輸入的格式可以是圖像 [9，37，16，2，29，21]、文本短語 [33，24，23，11] 以及類標簽布局 [19，20，1]。大多數(shù) GAN 實例的目標是學習一種可以將源分布中的給定樣例轉換為輸出分布中生成的樣本的映射。這主要涉及到單個目標的轉換（從蘋果到橙子、從馬到斑馬或從標簽到圖像等），或改變輸入圖像的樣式和紋理（從白天到夜晚等）。但是，這些直接的以輸入為中心的轉換無法直觀體現(xiàn)這樣一個事實：自然圖像是 3D 視覺世界中交互的多個對象組成的 2D 投影。本文探索了組合在學習函數(shù)中所起到的作用，該函數(shù)將從邊緣分布（如椅子和桌子）采集到的目標不同的圖像樣本映射到捕獲其聯(lián)合分布的組合樣本（桌椅）中。

由于不同對象間在相對縮放、空間布局、遮擋以及視角變換等方面可能存在復雜的交互關系，在自然圖像中對組合建模是一個極具挑戰(zhàn)的問題。近期的研究在 GAN 框架 [15] 中使用空間變換網絡 [10]，通過在幾何扭曲參數(shù)空間中進行操作，找到前景對象的幾何糾正來分解該問題。但這種方法僅限于固定的背景，也并未考慮真實世界中更加復雜的交互關系。近期的另一項研究是以文本和場景圖為條件生成場景的，這項研究明確地對對象和其交互關系進行了推理。

我們開發(fā)的這種方法可以對圖像中的目標組合建模。我們將組合兩個輸入對象圖像的任務視為生成一個聯(lián)合圖像，該圖像可以捕獲這兩個對象在自然圖像中的聯(lián)合交互關系。例如，給定椅子和桌子的圖像，可以產生一張包含相同的成對桌椅的自然交互的圖像。一個可以正確捕捉組合特征的模型需要對遮擋排序（如桌子在椅子前面）和空間布局（如椅子在桌子內滑動）有所了解。據(jù)我們所知，我們是第一個在沒有任何清晰的關于目標布局的先前顯式信息的情況下，在圖像條件空間中解決該問題的組。

我們的工作重點是將兩個目標組合的問題重構為先組合好給定的目標圖像以生成可以對目標交互關系建模的聯(lián)合圖像，再將聯(lián)合圖像分解，以獲得單個目標。這樣的重構可以通過組合-分解網絡加強自洽約束 [37]。但在一些場景中無法用組合合成圖像對相同的目標實例的成對樣例進行訪問，例如，要根據(jù)給定桌子和椅子的圖像生成聯(lián)合圖像，除了指定的桌子外我們可能沒有任何有關指定椅子的樣例，但我們可能有其他桌子和椅子的圖像。我們在組合分解層添加了修復網絡，以處理這樣的不配對情況。

通過定性和定量實驗，我們在兩個訓練場景中評估了我們提出的 Compositional-GAN 方法：（a）配對：當我們有權用相關組合圖像訪問單個對象圖像的成對樣例時；（b）未配對：當數(shù)據(jù)集源于聯(lián)合分布且沒有與來自邊緣分布的任何一張圖進行配對時。

聯(lián)合 GAN 代碼和數(shù)據(jù)集請參閱：https://github.com/azadis/ CompositionalGAN

論文：Compositional GAN: Learning Conditional Image Composition

微信圖片_20180804201743.jpg

論文鏈接：https://arxiv.org/pdf/1807.07560v1.pdf

生成對抗網絡（GAN）可以產生復雜且逼真到令人驚訝的圖像，但它一般會從單個潛在源采樣建模，從而忽略可能存在于場景中的多個實體間的顯式空間交互。在相對縮放、空間布局、遮擋或視角轉移等情況下在不同目標間捕獲復雜的交互關系是極具挑戰(zhàn)的問題。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網絡。該模型以其邊緣分布的目標圖像為條件，通過明確學習可能的交互，在聯(lián)合分布中產生逼真的圖像。我們在對單獨的目標進行配對和不配對的兩個場景中通過定性實驗和用戶評估對模型進行了評估，在訓練過程中也給出了聯(lián)合場景。結果表明，訓練后的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的交互關系，并以合理的方式在測試時輸出組合場景的新的實例。

微信圖片_20180804201819.jpg

圖 1：組合 GAN 對配對和未配對訓練數(shù)據(jù)訓練得到的模型。黃色框指的是用于在給定第二對象被遮擋的情況下合成第一對象的新視角的 RAFN 步驟，該過程僅用于成對數(shù)據(jù)的訓練過程。橙色框表示用未配對數(shù)據(jù)修復輸入分割的過程。對配對和未配對的情況而言模型的剩余部分相似，都包括 STN，再之后是自洽組合-分解網絡。

微信圖片_20180804201912.jpg

圖 2：使用配對或未配對數(shù)據(jù)訓練桌椅組合任務的測試結果?！窷N」代表成對訓練集中最接近的圖像，「NoInpaint」表示在沒有修復網絡的情況下未配對模型的結果。在配對和未配對情況中，c? before 和 c? after 分別表示在推理細化網絡之前和之后的生成器的結果。c? after s 表示細化步驟后的有遮掩的轉置輸入的總和。

4 實驗

微信圖片_20180804201936.jpg

圖 3：用配對或未配對數(shù)據(jù)對籃子-瓶子組合任務訓練后的測試結果?！窷N」表示在配對的訓練集中最近的圖像，「NoInpaint」表示在沒有修復網絡的情況下用未配對數(shù)據(jù)訓練得到的模型。在配對和未配對情況中，c? before 和 c? after 分別表示在推理細化網絡之前和之后生成器的輸出結果。此外，c? after s 表示細化步驟之后遮掩情況下轉置輸入的總和。

微信圖片_20180804202005.jpg

表 1：AMT 用戶評估比較我們提出的模型的不同組件。第一列表示在未配對場景中推理（未細化）期間要細化的圖像的偏好百分比。第二列表示與未配對情況相比，通過配對數(shù)據(jù)訓練策略生成的細化圖像的偏好百分比。

微信圖片_20180804201958.jpg

圖 4：面部-太陽鏡組合任務的測試樣例。前兩行表示輸入的太陽鏡圖像和面部圖像，第三行和第四行分別表示用配對和未配對數(shù)據(jù)訓練的組合 GAN 的輸出。最后一行表示 ST-GAN 模型生成的圖像。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

学界 | 把酱油瓶放进菜篮子：UC Berkeley提出高度逼真的物体组合网络Compositional GAN

日期： 2018-08-04

相關內容