當前位置:
首頁 > 新聞 > 微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」



新智元推薦

來源:微軟研究院AI頭條

【新智元導讀】還記得那個能自己寫詩的微軟小冰嗎?很多人看到小冰的詩之後驚嘆原來機器也有了創造力。最近,微軟亞洲研究院研發的DA-GAN技術讓機器繪畫創造也成為了可能,只要人們用文字描述一下自己想要的畫面,計算機便可以在幾毫秒之內生成多個與描述吻合的形象。也許在不久的將來,DA-GAN技術將開啟一個人人都是創造者的時代。

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

當人們用文字描述「我想要一隻腹部、胸部為白色,頭頂灰色,翅膀有白色翅斑的小鳥」時,計算機便可以通過DA-GAN在幾毫秒的時間內生成多個與文字描述高度吻合的形象(如下圖)。這些由計算機生成的鳥栩栩如生,完全符合人們期待的鳥的形象,不過它有可能是真實存在於現實世界中的,也有可能是系統根據鳥類特徵和文字描述「創造」出來的一隻「鳥」。

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

DA-GAN生成的「腹部、胸部為白色,頭頂灰色,翅膀有白色翅斑的鳥」(注意:該圖片中的鳥在現實世界中並不存在)


DA-GAN的最大創新——「隱空間」

DA-GAN研究團隊的技術突破得益於特徵表達技術的發展。以往的特徵表達工作,多是讓機器理解圖片並抽取特徵,然後再對圖片進行分類;而DA-GAN則有些反向思維的意味,在提取圖片特徵後,將特徵在人類的視覺空間中還原出來。

以上文所列舉的鳥為例,系統首先要能夠根據現實世界的鳥,總結出鳥的結構和特徵,然後再根據用戶的需求,輸出他們所需要的鳥。之所以選擇鳥類作為研究對象,是因為鳥類的特徵非常豐富,僅頭部就有幾十種特徵,鳥類專家就是利用這些細微的差別來判斷鳥的種類,而特徵豐富就意味著可以更好地去驗證模型的生成能力。

微軟亞洲研究院研究員傅建龍表示,「在訓練DA-GAN系統時,我們先讓它『見』過很多種類的鳥,就如同一個人認識了紅蘋果後,看到綠色的蘋果,也可以從它的外形中判斷出這是蘋果一樣。DA-GAN依據所接觸的鳥類圖片,學會了判斷鳥的經驗性常識。」

與傳統的數據訓練模式需要pair data(數據對)不同,DA-GAN不需要將文本與真實的鳥一一對應,而是將原始圖片分割成不同的部分(暫稱該部分的樣本為T),例如頭部、身體、尾巴、姿勢等,不同的部分分別投射到一個「隱空間」(暫稱該部分的生成樣本為T』),然後通過大量的圖片訓練,去驗證T-T』對應的精確程度,也就是去不斷驗證該「隱空間」的好壞,從而不斷迭代,確保從T-T』的過程並非隨機產生,而是保持一定的規則,進而讓「隱空間」的模型逐步趨於完善。這個過程可謂是DA-GAN系統最為核心的創新所在,也是它能夠更加智能、真正具有舉一反三學習能力的關鍵點。

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

DA-GAN深度注意力編碼流程圖

接下來,DA-GAN就可以基於該模型創作用戶想要的鳥類了,正如文章開頭所描述的,輸入你的需求,一隻栩栩如生的鳥就會相應生成。它可能是一隻自然界里真實存在的鳥,也可能是一隻擁有A種鳥類的頭部特徵、B種鳥類的身體特徵、C種鳥類的尾部特徵以及任意姿態的一隻「想像中的鳥」,而在現實世界裡並沒有這樣的鳥類,但它看上去就是一隻真正的「鳥」。

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

(a) 文字到圖像生成 (b) 物體類別變換

傅建龍表示,「目前,我們只將鳥類分成了4個部分,這是我們計算出來的映射相對合理,同時系統代價較小的可行的方式。當然也可以將鳥分為10個、30個部分,那樣模型會越來越精確,但系統代價可能也會成倍增加。」


開啟人人都是創造者的時代

除了鳥類,DA-GAN還可以用於任何與圖片相關的創作,例如此前風行的基於真實人臉生成卡通人臉的小程序,其實大部分只是將紋理附著到了原始照片上,如果利用DA-GAN,則可以做得更像是藝術家的現場漫畫寫生,它可以是梵高風格、莫奈風格、漫畫風格等等,用戶可以進行任意轉換。

對於DA-GAN來說,最重要的是早期的數據訓練,圖片越多質量越高。而且其解析度已經從其他相關技術能夠達到的64*64升級到了256*256,解析度的提高,意味著圖片每個部分所包含的細節信息更加完善,也正因為細節的豐富,才使得DA-GAN的表現在與真實世界的對比中優於同類技術。

與此同時,DA-GAN生成的眾多新的圖片,又可以反哺給該系統,從而讓它擁有更多的學習數據。也就是說,只要基於少量的原始數據,DA-GAN就可以產生更多「真實」的練習數據,大大改善某些領域真實數據缺乏的問題。利用DA-GAN的這一優勢,研究團隊實現了業內首次在鳥類數據集中增加生成數據,並將系統的準確度提升了兩個百分點。

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

數據增強結果

微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」

姿態變換任務 圖中每組圖片的第一列是source,第二列是target,第三列是DA-GAN生成的鳥

在可觸摸的未來,或許,DA-GAN技術將開啟一個人人都是創造者的時代。只要你的需求輸入它能夠讀懂,哪怕是你腦海中幻想出來的物體和場景,它都能「畫」出來。而由DA-GAN所描繪出來的虛擬世界,可能一點都不比文學家、藝術家創作出來的場景遜色。

不僅如此,讓已經滅絕的動植物,通過記載文字的描述重新躍然紙上;為安防領域提供更真實的犯罪嫌疑人畫像;幫助人們貼合自身的情況試穿網路售賣的衣物等等,還有更多DA-GAN技術的應用場景,等待大家去想像。同時,傅建龍也表示,未來隨著技術的不斷發展,更多可以生成逼真圖片和影像的技術將會誕生,如何辨別真偽也是需要科研人員以及大眾思考和解決的問題。

論文鏈接:

https://arxiv.org/pdf/1802.06454.pdf

本文經授權轉載自「微軟研究院AI頭條」,點擊閱讀原文查看原文

加入社群

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_1入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「Geoffrey Hinton傳奇」你我都是機器人
「中美無人超市大PK」Amazon Go遭遇中國對手(附評測報告)

TAG:新智元 |