當前位置:
首頁 > 新聞 > 進階版神筆:只需一句話、一個故事,即可生成畫面

進階版神筆:只需一句話、一個故事,即可生成畫面

選自Microsoft

機器之心編譯

參與:高璇、路


微軟新研究提出新型 GAN——ObjGAN,可根據文字描述生成複雜場景。他們還提出另一個可以畫故事的 GAN——StoryGAN,輸入一個故事的文本,即可輸出「連環畫」。

進階版神筆:只需一句話、一個故事,即可生成畫面

如果讓你畫一幅幾個人穿著滑雪服在雪地上的圖,你很可能會先在畫布中間大致畫出三四個人的輪廓,然後畫他們腳下的滑雪板。雖然沒有具體說明,但你可能會給每個人畫上個背包。

最後,為了讓整個圖更加真實,更加貼近要求,你還會仔細補充細節,比如把他們的衣服塗成藍色,圍巾塗成粉色,背景填滿白色。最後,為了使場景更加生動,你甚至在雪白的背景中畫上一些棕色石頭,表示這些滑雪者正在山中。

現在一個網路就可以做到這一切。

微軟人工智慧研究院(Microsoft Research AI)開發的新 AI 技術可以理解自然語言描述、繪製草圖、合成圖像,然後根據草圖框架和文字提供的個別單詞細化細節。換句話說,這個網路可以根據描述日常場景的文字描述生成同樣場景的圖像。

相關研究論文《Object-driven Text-to-Image Synthesis via Adversarial Training》報告了行業標準測試結果,與之前最優的複雜日常場景文本到圖像生成技術相比,這種更為複雜的機制顯著提高了生成圖像的質量。

這篇論文已被 CVPR 2019 接收,論文作者為來自微軟人工智慧研究院的 Pengchuan Zhang、Qiuyuan Huang 和 Jianfeng Gao,來自微軟的 Lei Zhang,來自京東 AI 研究院的 Xiaodong He,以及來自紐約州立大學奧爾巴尼分校的 Wenbo Li 和 Siwei Lyu。

基於文本描述的繪圖網路主要面臨兩個主要挑戰。首先,日常場景中會出現多種物體,該網路需要能夠理解並繪製所有物體。以前的文本到圖像生成方法使用的是圖像-標題對,這種方法僅對單個物體的生成提供非常粗粒度的監督信號,限制了物體生成質量。

而在微軟這項新技術中,研究人員利用 COCO 數據集進行訓練,該數據集包含 80 個常見物體類別、150 萬個物體實例的標籤和分割圖,使網路能夠學習這些物體的特徵和外觀。這種用於目標生成的細粒度有監督信號顯著提高了這些常見物體類別的生成質量。

第二個挑戰是理解和生成場景中多個物體之間的關係。在為多個特定域生成僅包含一個主要目標(例如人臉、鳥類或常見物體)的圖像方面已取得了巨大成功。

然而,生成包含多個目標的複雜場景以及理解目標間的語義關係仍然是一個重大挑戰。微軟提出的新型繪圖網路學會了從 COCO 數據集中的共現模式中生成目標的排列布局,然後根據預生成的布局生成圖像。

進階版神筆:只需一句話、一個故事,即可生成畫面

ObjGAN 工作流程。

目標驅動的注意力圖像生成

微軟研究院的這個繪圖網路的核心是生成對抗網路(GAN)。

GAN由兩個機器學習模型組成,一個是根據文本描述生成圖像的生成器,另一個是使用文本描述判斷生成圖像真實性的判別器。生成器試圖利用假圖片「騙過」判別器;另一方面,判別器要做到「不被騙」。兩者協同工作,最後將生成器訓練到以假亂真的地步。

繪圖網路在包含 10 萬個圖像的數據集上進行訓練,每個圖像具有明顯的標籤和分割圖,以及五個讓模型感知物體以及物體之間語義關係的不同標題。例如,GAN 在對比圖片描述中有狗和沒有狗的圖像時,學習狗應該是什麼樣子。

進階版神筆:只需一句話、一個故事,即可生成畫面

圖 1:具有多個物體和關係的複雜場景。

GAN 在生成僅包含一個顯著目標(例如人臉、鳥或狗)的圖像時效果很好,但面對更複雜的日常場景時就顯得捉襟見肘了,比如描述為「戴頭盔的女人騎著馬」(見圖 1)。

這是因為該場景包含多個目標(女人、頭盔、馬)和豐富的語義關係(女人戴頭盔,女人騎馬)。網路首先必須理解這些概念並將它們轉化成有意義布局的圖像。之後,需要一個監督信號來指導目標生成和布局生成,以此實現語義理解和圖像生成任務。

在繪製這些複雜場景時,首先要確定繪製的主要目標,並在畫布上放置這些目標的邊界框,進行整體布局。然後通過反覆檢查描述該目標的相應單詞來關注每個目標。

為了學習這種人類特質,研究人員創造了一種叫作目標驅動注意力 GAN(Object-driven attentive GAN,ObjGAN)的網路,以數學建模的方式模擬人類以目標為中心的注意力機制。ObjGAN 通過將輸入文本分解為單個單詞,並將這些單詞與圖像中的特定目標進行匹配來實現這一點。

進階版神筆:只需一句話、一個故事,即可生成畫面

人類通常會從兩方面改進繪圖:單個目標的逼真程度和圖像塊的質量。ObjGAN 通過引入兩個判別器來模擬這一行為——一個目標判別器和一個圖像塊判別器。目標判別器判斷所生成的物體是否逼真,以及與句子描述是否一致。圖像塊判別器用來判斷圖像塊是否逼真,以及該圖像塊與句子描述是否一致。

相關工作:故事可視化

當前最優的文本到圖像生成模型可以基於單句描述生成逼真的鳥類圖像。然而,文本到圖像生成器遠遠不止僅對一個句子生成單個圖像。

在《StoryGAN: A Sequential Conditional GAN for Story Visualization》中,微軟研究院的 Jianfeng Gao,微軟 Dynamics 365 人工智慧研究院的 Zhe Gan、Jingjing Liu 和 Yu Cheng,杜克大學的 Yitong Li、David Carlson 和 Lawrence Carin,騰訊的 Yelong Shen,以及卡內基梅隆大學的 Yuexin Wu 進一步提出了一項名為「故事可視化」(Story Visualization)的新任務。

給定一個多句段落,生成一系列圖像,每個圖像對應一個句子,完整地可視化整個故事。這是一項具有挑戰性的任務,因為繪圖網路不僅需要構想出一個適合故事的場景,為故事中不同角色之間的交互建模,還必須能夠在動態場景和角色之間保持全局一致性。任何單個圖像或視頻生成方法都沒有解決這一挑戰。

進階版神筆:只需一句話、一個故事,即可生成畫面

圖 2:故事可視化 vs 簡單圖像生成

研究人員基於序列條件 GAN 框架提出了一種新型故事到圖像序列生成模型 StoryGAN。該模型的獨特之處在於它包含一個動態跟蹤故事流的深層上下文編碼器(Context Encoder),以及兩個故事級和圖像級的判別器,以提高圖像質量和生成序列的一致性。

StoryGAN 還可以自然地擴展到互動式圖像編輯,即輸入圖像可以根據文本指令進行順序編輯。在這種情況下,一系列用戶指令將作為「故事」輸入。因此,研究人員修改了現有數據集,創建了 CLEVR-SV 和 Pororo-SV 數據集,如圖 2 所示。

實際應用:一個真實的故事

文本到圖像生成技術可以作為畫家和室內設計師的草圖助手,或作為語音照片編輯工具。隨著算力的不斷提高,研究人員設想可以利用這項技術生成基於劇本的動畫電影,通過省去一些人工勞作來減少動畫電影製作的工作量。

目前,生成圖像仍無法媲美真實圖像。單個物體總是會有瑕疵,例如模糊的臉部或變形的汽車。這些缺陷清楚地表明,是計算機而非人類創造了圖像。儘管如此,ObjGAN 圖像的質量明顯優於之前的同類型最優 GAN 所生成的圖像,並且這是通向增強人類能力的通用人工智慧的里程碑。

AI 和人類要共享同一個世界,雙方就必須學會彼此的交互方式。語言和視覺是人類和機器交互的兩個最重要方式。文本到圖像生成是語言視覺多模態智能研究的重要任務之一。

ObjGAN 和 StoryGAN 已開源:

  • https://github.com/jamesli1618/Obj-GAN
  • https://github.com/yitong91/StoryGAN

之後,機器之心將詳細介紹 StoryGAN 的相關研究。

原文鏈接:https://www.microsoft.com/en-us/research/blog/a-picture-from-a-dozen-words-a-drawing-bot-for-realizing-everyday-scenes-and-even-stories/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Jurgen Schmidhuber新論文:我的就是我的,你的GAN還是我的
復旦大學提出中文分詞新方法,Transformer連有歧義的分詞也能學

TAG:機器之心 |