太贊了！輝達又一突破，輸入關鍵詞就可以生成直逼攝影師的大片

2021-11-24知識

輝達又一次突破了，這麽逼真的照片竟然不是來自攝影師或是設計師！

近日，輝達官方推出 GauGAN2 的人工智能系統，它是其 GauGAN 模型的繼承者，它不僅能根據字詞生成逼真的風景影像，還能即時用文字P圖！

GauGAN2 將分割對映、修復和文本到影像生成等技術結合在一個工具中，透過輸入文字和簡單的繪圖來建立逼真的影像。

Isha Salian 表示「與類似的影像生成模型相比，GauGAN2 的神經網絡能夠產生更多種類和更高質素的影像。」

輝達的企業傳播團隊在一篇網誌文章中寫道。「使用者無需繪制想象場景的每個元素，只需輸入一個簡短的短語即可快速生成影像的關鍵特征和主題，例如雪山山脈。然後可以用草圖客製這個起點，使特定的山更高，或在前景中添加幾棵樹，或在天空中添加雲彩。」

例如輸入海浪打在巖石上，模型會根據生成的內容逐漸進行相應的調整，以生成與描述匹配的逼真影像。

GauGAN2 的生成模式

GauGAN2 有三種繪制模式，可以從不同的輸入生成逼真的影像。

模式1：用塗鴉生成風景照

模式2：輸入文本生成圖片

這種輸入文本生成匹配影像的模式也是 GauGAN2 主要的創新，生成的影像會根據逐漸輸入的文本不斷發生變化，最終生成和文本匹配最佳的影像。

例如在下圖的範例中，文本首先輸入 sunshine（陽光），生成的影像中就只出現了一個太陽；之後繼續輸入 a tall tree（高樹），影像中就出現了樹（且為頂部樹枝，匹配高樹）；最後，輸入的全部文本是 sunshine in a tall tree forest ，意為透過森林的陽光，GauGAN2 最終生成的影像與之相匹配：

模式 3：輸入影像並編輯部份內容

如果想要抹掉移除的內容，在生成的影像中會保留剩余的部份，並自動補全出多種新的完整影像：

這三種模式也可以混合疊加使用，例如在用塗鴉繪畫等生成影像後，輸入文本進行相應的修改，在下圖中就生成了一座浮在空中的城堡就出現了。

像外媒ZDNet就惡搞出來了一種神奇的玩法，在已有的風景上畫個人頭：

在生成這一系列逼真的影像背後用了什麽原理呢？

如何實作？

從 2019 年開始，輝達改進 GauGAN 系統，該系統由超過一百萬個公共 Flickr 影像的訓練而成。與 GauGAN 一樣，GauGAN2 可以理解雪、樹、水、花、灌木、丘陵和山脈等物體之間的關系，例如降雨類別隨季節而變化的事實。

GauGAN2 是一種稱為生成對抗網絡 (GAN) 的系統，由生成器和判別器組成。生成器用於獲取樣本，例如獲取與文本配對的影像，並預測哪些數據（單詞）對應於其他數據（風景圖片的元素）。生成器試圖透過欺騙鑒別器來進行訓練，鑒別器則用於評估預測結果是否現實。雖然 GAN 的轉換最初的質素很差，但隨著鑒別器的反饋二不斷改善。

與 GauGAN 不同的是，GauGAN2 是在 1000 萬張影像上訓練而成——可以將自然語言描述成風景影像。輸入諸如「海灘日落」之類的短語會生成場景，而添加諸如「巖石海灘日落」之類的形容詞或將「日落」替換為「下午」或「下雨天」等形容詞會立即修改畫面。

GauGAN2 使用者可以生成分割圖，顯示場景中物件位置的高級輪廓。從那裏，他們可以切換到繪圖，使用「天空」、「樹」、「巖石」和「河流」等標簽透過粗略的草圖調整場景，並允許工具的畫筆將塗鴉融入影像。

這是屬於更新叠代的過程，使用者在文本框中鍵入的每個詞都會為 AI 建立的影像添加更多內容，因而 GauGAN2 才能隨著輸入文本而不斷變換影像。

結語

GauGAN2 與 OpenAI 的 DALL-E 沒有什麽不同。

不過，這兩個模型生成的內容其實不太一樣。

GauGAN2 專註於生成風景照，DALL·E 則更多地生成具體的物體，例如一把椅子或者一個鬧鐘等。

輝達聲稱，GauGAN 的第一個版本已經被用於為電影和影片遊戲創作概念藝術。與它一樣，輝達計劃在 GitHub 上提供 GauGAN2 的程式碼，同時在 Playground 上提供互動式演示，Playground 是輝達人工智能和深度學習研究的網絡中心。

像 GauGAN2 這樣的生成模型的一個缺點是存在偏差的可能性。例如在 DALL-E 的案例中，OpenAI 使用了一種 CLIP 模型來提高生成影像質素，但在一項研究中發現，CLIP 對黑人照片的錯誤分類率更高，並且存在種族和性別偏見問題。

輝達暫不會對 GauGAN2 是否存在偏見給出回應。輝達發言人表示：「該模型有超過 1 億個參數，訓練時間不到一個月（還在 demo 階段），訓練影像來自專有的風景影像數據集。因此 GauGAN2 只專註於風景，研究團隊還對影像進行稽核以確保圖片中沒有包含人的場景。」這將有助於減少 GauGAN2 的偏見。

目前，GauGAN2 已經可以試完，有使用過或是想要去體驗的可以在留言區談論體驗感受呦~

參考連結：

https:// venturebeat.com/2021/11 /22/nvidias-latest-ai-tech-translates-text-into-landscape-images/

https://www. zdnet.com/article/the-a bsurd-beauty-of-hacking-nvidias-gaugan-2-ai-image-machine/