密歇根大學聯合谷歌大腦提出，通過「推斷語義布局」實現「文本到圖像合成」

科技 01-30

原文來源：arXiv

作者：Seunghoon Hong、Dingdong Yang、Jongwook Choi、Honglak Lee

「雷克世界」編譯：嗯~阿童木呀

我們通過推斷語義布局（semantic layout）提出了一種新的文本到圖像合成（text-to-image synthesis）方法。我們的演算法不是對從文本到圖像的直接映射進行學習，而是將生成過程分解為多個步驟，首先，通過布局生成器從文本中構造出語義布局，然後由圖像生成器將布局轉換為圖像。所提出的布局生成器通過生成目標邊界框，並通過估算框內目標的形狀以細化每個方框，從而逐級地以一種由粗到細（coarse-to-fine）的方式構造語義布局。圖像生成器基於推斷語義布局，進而合成圖像，它提供了與文本描述相匹配圖像的有用的語義結構。我們的模型不僅能夠生成語義上更有意義的圖像，而且使得我們能夠通過修改生成的場景布局，實現生成圖像的自動注釋和用戶控制生成過程。我們的研究結果證明了所提出模型在挑戰MS-COCO數據集上的能力，並證明，相較於現有的方法，該模型能夠顯著地提高圖像的質量，輸出文本的解釋性，以及輸入文本的語義對齊。

可以這樣說，從文本描述中生成圖像一直都是計算機視覺領域一個非常活躍的研究課題。通過允許用戶用自然語言描述視覺概念，它為調節圖像生成提供了自然而靈活的界面。最近，基於條件生成式對抗網路（GAN）的方法已經在文本到圖像合成任務上顯示出了非常有前景的研究結果。在文本中對生成器和鑒別器進行調節，這些方法能夠生成與輸入文本不同且相關的非常逼真的圖像。基於條件GAN框架，最近的方法通過生成高解析度圖像或擴充文本信息的方式，從而進一步提高了預測質量。

本文所提出演算法的總體框架。給定一個文本描述，我們的演算法序列性地構造一個場景的語義結構，並生成一個基於推斷布局和文本的圖像。可以根據標註的顏色進行查看。

然而，對於現有方法來說，它們的成功主要局限於諸如鳥類和花朵等這些簡單的數據集，而像MS-COCO這樣複雜的、真實圖像的生成，對於它們來說仍然是一個很大的、公開性的挑戰。如圖1所示，從「人們騎在大象身上穿過一條河（people riding on elephants that are walking through a river）」這樣的通用句子中生成圖像，需要對各種視覺概念進行多種推理，諸如目標類別（人和大象）、目標的空間配置（騎著），場景環境（穿過一條河流）等等，這遠比在較簡單的數據集中生成單一的、大型的目標要複雜得多。現有的方法在為這種複雜的文本描述生成合理的圖像方面還沒有取得成功，因為從通用圖像中學習一個文本到像素的直接映射是非常複雜的。

本文所提出演算法的總體流水線。給定一個文本嵌入，我們的演算法首先通過使用邊框生成器放置一組目標邊界框以生成一個粗略的布局，並使用形狀生成器進一步細化每個邊框內的目標形狀。將邊框生成器和形狀生成器的輸出結合起來，就形成了一個定義場景語義結構的語義標籤映射。根據推斷的語義布局和文本，圖像生成器最終生成了一個像素級的圖像。

我們並不是學習從文本到圖像的直接映射，而是提出了一種替代方法，即將語義布局構造為文本與圖像之間中間表示。語義布局定義了基於目標實例的場景結構，並提供場景的細粒度信息（fine-grained information），如目標的數量、目標的類別、位置、大小、形狀等（圖1）。通過引入能夠明確地將圖像的語義結構與文本對齊的機制，所提出的方法可以生成與複雜文本描述相匹配的複雜圖像。另外，在語義結構上對圖像生成進行調節，使得我們的模型能夠生成語義上更有意義的圖像，且這些圖像更易於識別和具有可解釋性。

圖像生成器的體系結構。根據文本描述和由布局生成器生成的語義布局，生成器生成與兩個輸入匹配的圖像。

我們用於分層文本到圖像合成的模型由兩部分組成：一個是通過文本描述構造語義標籤映射的布局生成器，另一個是將涵蓋文本在內的估計布局轉換為圖像的圖像生成器。由於學習一個從文本到細粒度語義布局的直接映射仍然具有挑戰性，因此，我們將任務進一步分解為兩個可管理的子任務：首先，我們使用邊框生成器（box generator）估計圖像的邊界框布局，然後使用形狀生成器優化邊框內每個目標的形狀。再然後，使用生成的布局指導圖像生成器以進行像素級的合成。邊框生成器、形狀生成器和圖像生成器都是由獨立的神經網路實現的，並使用相應的監督進行並行訓練。

生成語義布局不僅提高了文本到圖像合成的質量，而且還帶來了一些潛在的好處。首先，語義布局為生成圖像提供了實例注釋，這可以直接用於數據擴充和場景分析。其次，它提供了一個用於控制圖像生成過程的交互界面，用戶可以通過刪除/添加目標、改變目標的大小和位置等來修改語義布局，從而生成期望中的圖像。

本文所取得的成就及作出的貢獻主要包括以下幾點：

?我們提出了一種從複雜的文字描述中合成圖像的全新方法。我們的模型從文本描述中明確地構造了語義布局，並且使用推斷的語義布局指導圖像的生成。

?通過在顯式布局預測上對圖像生成進行調節，我們的方法能夠生成語義上更為有意義的圖像，並且能夠與輸入描述保持良好的一致性。

?我們對具有挑戰性的MS-COCO數據集進行了大量的定量和定性評估，並證明，相較於現有研究的成果來說，我們的方法在生成質量上有了實質性的改善和提升。

使用我們方法的圖像生成結果。每列對應於根據（a）預測的邊框和掩碼布局，（b）對照標準邊框和預測的掩碼布局和（c）對照標準邊框和掩碼布局所生成的結果。處於說明的目的，類是顏色編碼的。

我們提出了一種文本到圖像合成的方法，它對語義布局進行明確的推斷，並將其作為從文本到圖像的中間表示。通過一系列生成器，我們的模型以一種由粗到精的方式，逐層地構造了語義布局。通過在顯式布局預測上對圖像生成進行調節，我們的方法能夠生成複雜的圖像，且能夠保留語義細節，並與文本描述高度相關。我們的研究結果還表明，預測的布局可以用來控制生成過程。我們相信，在未來，布局和圖像生成的端到端訓練將是一個有趣的研究方向。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※人工智慧在家居領域的應用與啟示

TAG:雷克世界 |