李飛飛：在物體識別之後，計算機視覺還要多久才能理解這個世界

科技 09-28

雷鋒網 AI 科技評論按：9 月 26 日，機器人領域的頂級學術會議 IROS 2017 進入第二日。上午，著名華人計算機視覺專家、斯坦福副教授李飛飛，在溫哥華會議中心面向全體與會專家學者作了長達一小時的專題報告。

在昨天發布的雷鋒網文章上篇：「李飛飛：為什麼計算機視覺對機器人如此重要？ | IROS 2017」中，李飛飛介紹了視覺對生物的重要性，以及計算機視覺在物體識別任務中的飛速發展。在下篇中，李飛飛繼續與大家討論了計算機視覺的下一步目標：豐富場景理解，以及計算機視覺與語言結合和任務驅動的計算機視覺的進展和前景。場景理解和與語言結合的計算機視覺進一步搭起了人類和計算機之間溝通的橋樑，任務驅動的計算機視覺也會在機器人領域大放異彩。李飛飛介紹的自己團隊的工作也豐富多樣、令人振奮。

（2015年，李飛飛也在同一個會場面向著大海和聽眾進行過一次 TED 演講）

物體識別之後：豐富場景識別

（續上篇）在物體識別問題已經很大程度上解決以後，我們的下一個目標是走出物體本身，關注更為廣泛的對象之間的關係、語言等等。

在Visual Genome數據集之後，我們做的另一項研究是重新認識場景識別。

場景識別單獨來看是一項簡單的任務，在谷歌里搜索「穿西裝的男人」或者「可愛的小狗」，都能直接得到理想的結果。但是當你搜索「穿西裝的男人抱著可愛的小狗」的時候，就得不到什麼好結果。它的表現在這裡就變得糟糕了，這種物體間的關係是一件很難處理的事情。

比如只關注了「長椅」和「人」的物體識別，就得不到「人坐在長椅上」的關係；即便訓練網路識別「坐著的人」，也無法保證看清全局。我們有個想法是，把物體之外、場景之內的關係全都包含進來，然後再想辦法提取精確的關係。

如果我們有一張場景圖（graph），其中包含了場景內各種複雜的語義信息，那我們的場景識別就能做得好得多。其中的細節可能難以全部用一個長句子描述，但是把一個長句子變成一個場景圖之後，我們就可以用圖相關的方法把它和圖像做對比；場景圖也可以編碼為資料庫的一部分，從資料庫的角度進行查詢。

我們已經用場景圖匹配技術在包含了許多語義信息的場景里得到了許多不錯的量化結果，不過在座的各位可能邊聽就邊覺得，這些場景圖是誰來定義的呢？在Visual Genome數據集中，場景圖都是人工定義的，裡面的實體、結構、實體間的關係和到圖像的匹配都是我們人工完成的，過程挺痛苦的，我們也不希望以後還要對每一個場景都做這樣的工作。所以在這項工作之後，我們很可能會把注意力轉向自動場景圖生成。

比如這項我和我的學生們共同完成的CVPR2017論文就是一個自動生成場景圖的方案，對於一張輸入圖像，我們首先得到物體識別的備選結果，然後用圖推理演算法得到實體和實體之間的關係等等；這個過程都是自動完成的。

這裡涉及到了一些迭代信息傳遞演算法，我先不詳細解釋了。但這個結果體現出的是，我們的模型的工作方式和人的做法已經有不少相似之處了。

得到這樣的結果我們非常開心，這代表著一組全新的可能性來到了我們面前。藉助場景圖，我們可以做信息提取、可以做關係預測、可以理解對應關係等等。

當然了論文發表前我們也做了好看的數據出來。

我們相信Visual Genome數據集也能夠幫助很多的研究人員在研究關係和信息提取的演算法和模型實驗中施展拳腳。

場景識別之後還有什麼？

剛才說過了物體識別、關係預測這兩項場景理解難題之後，Jeremy 提到的最後一件事情就是，「場景中的gist的根本是三維空間中在物體間和物體表面上以一定形式擴散、重複出現的視覺元素」。不過由於我關注的並不是三維場景理解，我就只是簡單介紹一下斯坦福的同事們近期的研究成果。

左側是從單張圖片推測三維場景的布局，展現出其中物體的三維幾何特徵；右側是空間三維結構的語意分割。除了斯坦福的這兩項之外，三維場景理解還有很多的研究成果，包括使用圖片的和點雲的。我也覺得很興奮，將來也不斷地會有新東西來到我們面前，尤其是在機器人領域會非常有用。

這樣，我們就基本覆蓋全了場景的gist，就是看到場景的前150毫秒中發生的事情。視覺智慧的研究當然並不會局限於這150毫秒，之後要考慮的、我們也在期待的還有兩項任務。

我的研究興趣里，除了計算機科學和人工智慧之外，認知神經科學也佔了相當的位置。所以我想回過頭去看看我在加州理工學院讀博士的時候做的一個實驗，我們就讓人們觀察一張照片，然後讓他們儘可能地說出自己在照片中看到的東西。當時做實驗的時候，我們在受試者面前的屏幕上快速閃過一張照片，然後用一個別的圖像、牆紙一樣的圖像蓋住它，它的作用是把他們視網膜暫留的信息清除掉。

接下來我們就讓他們儘可能多地寫下自己看到的東西。從結果上看，有的照片好像比較容易，但是其實只是因為我們選擇了不同長短的展示時間，最短的照片只顯示了27毫秒，這已經達到了當時顯示器的顯示速度上限；有些照片顯示了0.5秒的時間，對人類視覺理解來說可算是綽綽有餘了。

我們得到的結果大概是這樣的，對於這張照片，時間很短的時候看清的內容也很有限，500毫秒的時候他們就能寫下很長一段。進化給了我們這樣的能力，只看到一張圖片就可以講出一個很長的故事。

計算機視覺+語言

我展示這個實驗想說的是，在過去的3年里，CV領域的研究人員們就在研究如何把圖像中的信息變成故事。

他們首先研究了圖像說明，比如藉助CNN把圖像中的內容表示到特徵空間，然後用LSTM這樣的RNN生成一系列文字。這類工作在2015年左右有很多成果，從此之後我們就可以讓計算機給幾乎任何東西配上一個句子。

比如這兩個例子，「一位穿著橙色馬甲的工人正在鋪路」和「穿著藍色襯衫的男人正在彈吉他」。這讓我想起來，2015年的時候我就是在這同一個房間里做過演講。兩年過去了，我們的演算法也已經不是最先進的了，不過那時候我們的研究確實是是圖像說明這個領域的開拓性工作之一。

我們沿著這個方向繼續做研究，迎來的下一個成果是稠密說明，就是在一幅圖片中有很多個區域都會分配注意力，這樣我們有可以有很多個不同的句子描述不同的區域，而不僅僅是用一個句子描述整個場景。在這裡就用到了CNN模型和邏輯區域檢測模型的結合，再加上一個語言模型，這樣我們就可以對場景做稠密的標註。

比如這張圖裡就可以生成，「有兩個人坐在椅子上」、「有一頭大象」、「有一棵樹」等等；另一張我的學生們的室內照片也標出了豐富的內容。

我們的稠密標註系統也比當時其它基於滑動窗口的方法表現好得多。

在最近的CVPR2017的研究中，我們讓表現邁上了一個新的台階，不只是簡單的說明句子，還要生成文欄位落，把它們以具有空間意義的方式連接起來。

這樣我們就可以寫出「一隻長頸鹿站在樹邊，在它的右邊有一個有葉子的杆子，在籬笆的後面有一個黑色和白色的磚壘起來的建築」，等等。雖然裡面有錯誤，而且也遠比不上莎士比亞的作品，但我們已經邁出了視覺和語言結合的第一步。

而且，視覺和語言的結合併沒有停留在靜止的圖像上，剛才的只是我們的最新成果之一。在另外的研究中，我們把視頻和語言結合起來，比如這個CVPR2017的研究，我們可以對一個說明性視頻中不同的部分做聯合推理、整理出文本結構。這裡的難點是解析文本中的實體，比如第一步是「攪拌蔬菜」，然後「拿出混合物」。如果演算法能夠解析出「混合物」指的是前一步里混合的蔬菜，那就棒極了。我的學生和博士後們也都覺得這是讓機器人進行學習的很重要的一步。

這裡的機會仍然是把視覺問題和語言結合起來，如果只用視覺的方法，就會造成視覺上的模糊性；如果只用語言學的方法，就會造成語言上的模糊性；把視覺和語言結合起來，我們就可以解決這些問題。

太細節的還是不說了，我們主要用了圖優化的方法在實體嵌入上解決這些模糊性。我們的結果表明，除了解決模糊性之外，我們還能對視頻中的內容作出更廣泛完善的推理。

任務驅動的計算機視覺

在語言之後，我想說的最後一個方向是任務驅動的視覺問題，它和機器人的聯繫也更緊密一些。對整個AI研究大家庭來說，任務驅動的AI是一個共同的長期夢想，從一開始人類就希望用語言給機器人下達指定，然後機器人用視覺方法觀察世界、理解並完成任務。

比如人類說：「藍色的金字塔很好。我喜歡不是紅色的立方體，但是我也不喜歡任何一個墊著5面體的東西。那我喜歡那個灰色的盒子嗎？」那麼機器，或者機器人，或者智能體就會回答：「不，因為它墊著一個5面體」。它就是任務驅動的，對這個複雜的世界做理解和推理。

最近，我們和Facebook合作重新研究這類問題，創造了帶有各種幾何體的場景，然後給人工智慧提問，看它會如何理解、推理、解決這些問題。這其中會涉及到屬性的辨別、計數、對比、空間關係等等。

我們在這方面的第一篇論文用了CNN+LSTM+注意力模型，結果算不上差，人類能達到超過90%的正確率，機器雖然能做到接近70%了，但是仍然有巨大的差距。有這個差距就是因為人類能夠組合推理，機器則做不到。

在一個月後的ICCV我們就會介紹新一篇論文中的成果，我們把一個問題分解成帶有功能的程序段，然後在程序段基礎上訓練一個能回答問題的執行引擎。這個方案在嘗試推理真實世界問題的時候就具有高得多的組合能力。

模型的實際表現當然不錯，所以論文被ICCV接收了。比如這個例子里，我們提問某種顏色的東西是什麼形狀的，它就會回答「是一個立方體」這樣，表明了它的推理是正確的。它還可以數出東西的數目。這都體現出了演算法可以對場景做推理。

我們也在嘗試環境模擬，我們用三維渲染引擎建立執行任務的環境，讓學習策略的機器人在其中學習動作，比如把籃球放進微波爐，也需要它把這個任務分解成許多步驟然後執行。

我們採用了一種深度語意表徵，然後用不同難度的任務測試它，中等難度的任務可以是從廚房裡多個不同的地方拿取多個不同的物體，然後把它們放在指定的地方；難的任務可以是需要策略讓它尋找之前從來沒有見過的新物體。

視覺相關的任務說了這麼多，我想把它們組織成這三類。

首先是除了物體識別之外的關係識別、複雜語意表徵、場景圖；

在場景gist之外，我們需要用視覺+語言處理單句標註、段落生成、視頻理解、聯合推理；

最後是任務驅動的視覺問題，這裡還是一個剛剛起步的領域，我相信視覺和邏輯的組合會在這個領域真正攜起手來。

人類視覺已經發展了很久，計算機視覺雖然在出現後的60年里有了長足的進步，但也仍然只是一門新興學科。我以前應該有提過我邊工作邊帶孩子，這也就是一張我女兒二十個月大時候的照片。

看著她一天天成長的過程，真的讓我覺得還有許許多多的東西等著我們去研究。視覺能力也是她的日常生活里重要的一部分，讀書、畫畫、觀察情感等等，這些重大的進步都是這個領域未來的研究目標。

謝謝大家！

（完）

雷鋒網 AI 科技評論報道。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 威鋒網2007 的精彩文章:

※威鋒早報：iOS11.1 B1發布「側邊重壓」回歸
※可以變形的機器人很酷如果它還會「蛻皮」呢
※iOS 11帶給你的不只有驚喜，可能還有一堆Bug
※蘋果iOS 11.1 beta究竟更新了什麼？十多項新功能與改變
※郭明池：iPhone 8銷量其實不錯/都在等X

TAG:威鋒網2007 |