123,123,123

太赞了！英伟达又一突破，输入关键词就可以生成直逼摄影师的大片

日期： 2021-11-29

來(lái)源：CSDN

關(guān)鍵詞： 英伟达 GauGAN2 人工智能系统

　　英偉達(dá)又一次突破了，這么逼真的照片竟然不是來(lái)自攝影師或是設(shè)計(jì)師！

　　近日，英偉達(dá)官方推出 GauGAN2 的人工智能系統(tǒng)，它是其 GauGAN 模型的繼承者，它不僅能根據(jù)字詞生成逼真的風(fēng)景圖像，還能實(shí)時(shí)用文字P圖！

　　GauGAN2 將分割映射、修復(fù)和文本到圖像生成等技術(shù)結(jié)合在一個(gè)工具中，通過(guò)輸入文字和簡(jiǎn)單的繪圖來(lái)創(chuàng)建逼真的圖像。

　　Isha Salian 表示“與類似的圖像生成模型相比，GauGAN2 的神經(jīng)網(wǎng)絡(luò)能夠產(chǎn)生更多種類和更高質(zhì)量的圖像?！?/p>

　　英偉達(dá)的企業(yè)傳播團(tuán)隊(duì)在一篇博客文章中寫道?！坝脩魺o(wú)需繪制想象場(chǎng)景的每個(gè)元素，只需輸入一個(gè)簡(jiǎn)短的短語(yǔ)即可快速生成圖像的關(guān)鍵特征和主題，例如雪山山脈。然后可以用草圖定制這個(gè)起點(diǎn)，使特定的山更高，或在前景中添加幾棵樹，或在天空中添加云彩?！?/p>

　　例如輸入海浪打在巖石上，模型會(huì)根據(jù)生成的內(nèi)容逐漸進(jìn)行相應(yīng)的調(diào)整，以生成與描述匹配的逼真圖像。

　　GauGAN2 的生成模式

　　GauGAN2 有三種繪制模式，可以從不同的輸入生成逼真的圖像。

　　模式1：用涂鴉生成風(fēng)景照

　　模式2：輸入文本生成圖片

　　這種輸入文本生成匹配圖像的模式也是 GauGAN2 主要的創(chuàng)新，生成的圖像會(huì)根據(jù)逐漸輸入的文本不斷發(fā)生變化，最終生成和文本匹配最佳的圖像。

　　例如在下圖的示例中，文本首先輸入 sunshine（陽(yáng)光），生成的圖像中就只出現(xiàn)了一個(gè)太陽(yáng)；之后繼續(xù)輸入 a tall tree（高樹），圖像中就出現(xiàn)了樹（且為頂部樹枝，匹配高樹）；最后，輸入的全部文本是 sunshine in a tall tree forest ，意為透過(guò)森林的陽(yáng)光，GauGAN2 最終生成的圖像與之相匹配：

　　模式 3：輸入圖像并編輯部分內(nèi)容

　　如果想要抹掉移除的內(nèi)容，在生成的圖像中會(huì)保留剩余的部分，并自動(dòng)補(bǔ)全出多種新的完整圖像：

　　這三種模式也可以混合疊加使用，例如在用涂鴉繪畫等生成圖像后，輸入文本進(jìn)行相應(yīng)的修改，在下圖中就生成了一座浮在空中的城堡就出現(xiàn)了。

　　像像外媒ZDNet就惡搞出來(lái)了一種神奇的玩法，在已有的風(fēng)景上畫個(gè)人頭—，畫人頭。

　　在生成這一系列逼真的圖像背后用了什么原理呢？

　　如何實(shí)現(xiàn)？

　　從 2019 年開始，英偉達(dá)改進(jìn) GauGAN 系統(tǒng)，該系統(tǒng)由超過(guò)一百萬(wàn)個(gè)公共 Flickr 圖像的訓(xùn)練而成。與 GauGAN 一樣，GauGAN2 可以理解雪、樹、水、花、灌木、丘陵和山脈等物體之間的關(guān)系，例如降水類型隨季節(jié)而變化的事實(shí)。

　　GauGAN2 是一種稱為生成對(duì)抗網(wǎng)絡(luò) （GAN）的系統(tǒng)，由生成器和判別器組成。生成器用于獲取樣本，例如獲取與文本配對(duì)的圖像，并預(yù)測(cè)哪些數(shù)據(jù)（單詞）對(duì)應(yīng)于其他數(shù)據(jù)（風(fēng)景圖片的元素）。生成器試圖通過(guò)欺騙鑒別器來(lái)進(jìn)行訓(xùn)練，鑒別器則用于評(píng)估預(yù)測(cè)結(jié)果是否現(xiàn)實(shí)。雖然 GAN 的轉(zhuǎn)換最初的質(zhì)量很差，但隨著鑒別器的反饋二不斷改善。

　　與 GauGAN 不同的是，GauGAN2 是在 1000 萬(wàn)張圖像上訓(xùn)練而成——可以將自然語(yǔ)言描述成風(fēng)景圖像。輸入諸如“海灘日落”之類的短語(yǔ)會(huì)生成場(chǎng)景，而添加諸如“巖石海灘日落”之類的形容詞或?qū)ⅰ叭章洹碧鎿Q為“下午”或“下雨天”等形容詞會(huì)立即修改畫面。

　　GauGAN2 用戶可以生成分割圖，顯示場(chǎng)景中對(duì)象位置的高級(jí)輪廓。從那里，他們可以切換到繪圖，使用“天空”、“樹”、“巖石”和“河流”等標(biāo)簽通過(guò)粗略的草圖調(diào)整場(chǎng)景，并允許工具的畫筆將涂鴉融入圖像。

　　這是屬于更新迭代的過(guò)程，用戶在文本框中鍵入的每個(gè)詞都會(huì)為 AI 創(chuàng)建的圖像添加更多內(nèi)容，因而 GauGAN2 才能隨著輸入文本而不斷變換圖像。

　　結(jié)語(yǔ)

　　GauGAN2 與 OpenAI 的 DALL-E 沒(méi)有什么不同。

　　不過(guò)，這兩個(gè)模型生成的內(nèi)容其實(shí)不太一樣。

　　GauGAN2 專注于生成風(fēng)景照，DALL·E 則更多地生成具體的物體，例如一把椅子或者一個(gè)鬧鐘等。

　　英偉達(dá)聲稱，GauGAN 的第一個(gè)版本已經(jīng)被用于為電影和視頻游戲創(chuàng)作概念藝術(shù)。與它一樣，英偉達(dá) 計(jì)劃在 GitHub 上提供 GauGAN2 的代碼，同時(shí)在 Playground 上提供交互式演示，Playground 是英偉達(dá)人工智能和深度學(xué)習(xí)研究的網(wǎng)絡(luò)中心。

　　像 GauGAN2 這樣的生成模型的一個(gè)缺點(diǎn)是存在偏差的可能性。例如在 DALL-E 的案例中，OpenAI 使用了一種 CLIP 模型來(lái)提高生成圖像質(zhì)量，但在一項(xiàng)研究中發(fā)現(xiàn)，CLIP 對(duì)黑人照片的錯(cuò)誤分類率更高，并且存在種族和性別偏見(jiàn)問(wèn)題。

　　英偉達(dá)暫不會(huì)對(duì) GauGAN2 是否存在偏見(jiàn)給出回應(yīng)。英偉達(dá)發(fā)言人表示：“該模型有超過(guò) 1 億個(gè)參數(shù)，訓(xùn)練時(shí)間不到一個(gè)月（還在 demo 階段），訓(xùn)練圖像來(lái)自專有的風(fēng)景圖像數(shù)據(jù)集。因此 GauGAN2 只專注于風(fēng)景，研究團(tuán)隊(duì)還對(duì)圖像進(jìn)行審核以確保圖片中沒(méi)有包含人的場(chǎng)景?！边@將有助于減少 GauGAN2 的偏見(jiàn)。

　　目前，GauGAN2 已經(jīng)可以試完，有使用過(guò)或是想要去體驗(yàn)的可以在留言區(qū)談?wù)擉w驗(yàn)感受呦~

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

太赞了！英伟达又一突破，输入关键词就可以生成直逼摄影师的大片

日期： 2021-11-29

來(lái)源：CSDN

相關(guān)內(nèi)容