「文本轉圖」效果優化可多一步:物體關係描述
Root 假裝發自 凹非寺
量子位 出品 | 公眾號 QbitAI
一個設計師拿到簡(mo)單(hu)需求的日常。
幫我做個海報吧。
我要個浪漫的場景,兩個人在海邊走,有日落,海浪,遠山那種。
「上輩子傷天害理,這輩子來做設計」
Source:人類關懷計劃
If有一款神器,可以根據文本生成圖像,快速做出一般客戶需求的海報,設計師們也許就可以把更多的時間用在創意上了。
文本轉圖像演算法
其實已經有了。李飛飛斯坦福團隊今年發表在CVPR論文Image Generation from Scene Graphs就和這個應用相關。
在計算機視覺領域,已經有了不少團隊造出能直接把文本轉成圖像的演算法。此前表現最好的是2017年在ICCV上露面的StackGAN,由港中大和百度研究院共同出品。
我們先來看看它的表現:
第一題:
This bird is white with some black on its head and wings, and has a long orange beak.
「畫一隻白鳥,頭部和翅膀帶點黑shaǐ,還有個很細長的橘黃色喙。」
效果驚人
再來看看第二題:
A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.
「畫兩隻羊站草原上,要有雲,遠方還有海,海上還得有隻船。對了羊後邊還要加棵樹。」
效果感人
對於語義簡單的句子,StackGAN還能hold住,可是句子中有多個物體且位置關係複雜的話,這個生成的圖像完全不能用了。
為了解決這個問題,李飛飛攜團隊,Justin Johnson和Agrim Gupta想出了一個辦法:先把文本處理一下,把句子中的物體及他們的相對位置用一個物體關係圖(Scene Graph)表示出來,然後再交給模型處理。
像這樣。
然後生成出來的圖果然好多了,更貼近真實世界(雖然還有點模糊)。
加一步,多面臨三重挑戰
為了生成更符合物理世界規律的圖像,生成過程中所用到素材必須取自真實世界的圖像。
因此,第一個挑戰就是要構建一個能處理真實圖像的輸入處理器。
除此之外,生成的每一個物體都必須看起來真實,而且能正確反映出多個物體的空間透視關係。
最後一個,就是整個圖中所有物體整合到一起,得是看起來是自然和諧不彆扭的。
訓練過程簡介
先是選Visual Genome和COCO兩個數據集里的圖片作為素材源。只挑那些含有3~8個物體的圖片。
然後把這些圖片人工地給出物體關係圖。像這樣:
然後用模型預測物體之間的位置,大概給出一個圖片元素的布局。
最後根據多個判別模型保證輸出的圖像是符合真實感知的。
整個訓練過程如下圖:
但圖像效果夠不夠真,自己不好說了算。
因此李飛飛團隊在Amazon Mechanical Turk平台上找了人幫忙做評估。和StackGAN相比,合成效果好了一倍。
最後,附論文地址:https://arxiv.org/abs/1804.01622
你可能感興趣
—完—
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※打車平台Lyft獲Magna 2億美元投資,攜手打造自動駕駛汽車
※史上最大規模機器人「面相」調查:157張臉背後的人類感受
TAG:量子位 |