「文本轉圖」效果優化可多一步：物體關係描述

科技 04-07

Root 假裝發自凹非寺

量子位出品 | 公眾號 QbitAI

一個設計師拿到簡(mo)單(hu)需求的日常。

幫我做個海報吧。

我要個浪漫的場景，兩個人在海邊走，有日落，海浪，遠山那種。

「上輩子傷天害理，這輩子來做設計」

Source：人類關懷計劃

If有一款神器，可以根據文本生成圖像，快速做出一般客戶需求的海報，設計師們也許就可以把更多的時間用在創意上了。

文本轉圖像演算法

其實已經有了。李飛飛斯坦福團隊今年發表在CVPR論文Image Generation from Scene Graphs就和這個應用相關。

在計算機視覺領域，已經有了不少團隊造出能直接把文本轉成圖像的演算法。此前表現最好的是2017年在ICCV上露面的StackGAN，由港中大和百度研究院共同出品。

我們先來看看它的表現：

第一題：

This bird is white with some black on its head and wings, and has a long orange beak.

「畫一隻白鳥，頭部和翅膀帶點黑shaǐ，還有個很細長的橘黃色喙。」

效果驚人

再來看看第二題：

A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.

「畫兩隻羊站草原上，要有雲，遠方還有海，海上還得有隻船。對了羊後邊還要加棵樹。」

效果感人

對於語義簡單的句子，StackGAN還能hold住，可是句子中有多個物體且位置關係複雜的話，這個生成的圖像完全不能用了。

為了解決這個問題，李飛飛攜團隊，Justin Johnson和Agrim Gupta想出了一個辦法：先把文本處理一下，把句子中的物體及他們的相對位置用一個物體關係圖(Scene Graph)表示出來，然後再交給模型處理。

像這樣。

然後生成出來的圖果然好多了，更貼近真實世界（雖然還有點模糊）。

加一步，多面臨三重挑戰

為了生成更符合物理世界規律的圖像，生成過程中所用到素材必須取自真實世界的圖像。

因此，第一個挑戰就是要構建一個能處理真實圖像的輸入處理器。

除此之外，生成的每一個物體都必須看起來真實，而且能正確反映出多個物體的空間透視關係。

最後一個，就是整個圖中所有物體整合到一起，得是看起來是自然和諧不彆扭的。

訓練過程簡介

先是選Visual Genome和COCO兩個數據集里的圖片作為素材源。只挑那些含有3~8個物體的圖片。

然後把這些圖片人工地給出物體關係圖。像這樣：

然後用模型預測物體之間的位置，大概給出一個圖片元素的布局。

最後根據多個判別模型保證輸出的圖像是符合真實感知的。

整個訓練過程如下圖：

但圖像效果夠不夠真，自己不好說了算。

因此李飛飛團隊在Amazon Mechanical Turk平台上找了人幫忙做評估。和StackGAN相比，合成效果好了一倍。

最後，附論文地址：https://arxiv.org/abs/1804.01622

你可能感興趣

—完—

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: