當前位置:
首頁 > 新聞 > 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(下)

五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(下)

雷鋒網 AI 科技評論按:計算機視覺頂會 CVPR 2019 上舉辦了首屆「Computer Vision After 5 Years - CVPR Workshop」,領域內的多位知名學者受邀演講,和大家分享他們對於 5 年後的計算機視覺領域發展的看法。

在上篇中,雷鋒網 AI 科技評論已經介紹了?Cordelia Schmid、Alexei Efros 兩位的演講內容。這篇中我們繼續帶來其他幾位講者的內容。

演講三

Facebook 人工智慧研究院(FAIR)的研究科學家、目標檢測界的領軍人物 Ross Girshick 上午還在教學講座,下午就在這個研討會進行又一個演講。

就在 Ross Girshick 之前演講的Alexei Efros 說到有四件我們需要改變看法的事情,Ross 一開場也就說,他的演講相當於只針對其中的第四點數據集的一點想法。他的演講主題是「Big Little Data」。

目前在深度學習時代,可以說「大規模、類別均衡的數據集 手工標籤 神經網路=不錯的表現」,不過這也是我們唯一掌握的模式,所有不符合這個模式的都是還沒解決的問題。

在這個演講里,Ross 打算討論的是一個和這個模式非常類似,但是還沒被解決的問題。

從命名說起,人類和機器之間交流、機器和機器之間的交流會打開一個很大的新挑戰:實體命名。自然場景中的物體非常多非常細,對它們的命名是一個尚未得到充分研究的挑戰,這也將是未來的重要發展方向。

相比於當前的數據集、當前的對象識別任務中只檢測主要的一些物體,如果要檢測場景中的所有物體,這有一系列不同:首先需要大幅擴充辭彙庫,其次,如果希望能服務更豐富的行為的話也需要更豐富的表徵。實際上,要檢測所有的物體,其實並不僅僅是檢測更多類別而已,它會啟發很多全新的研究課題。

很明顯的,第一個問題:是要如何評價分類結果;第二個問題是,如何應對數據效率、長尾數據的狀況。

長尾數據的狀況其實遠比我們一般印象里的糟糕,他們統計了 COCO 數據集中的類別分布比例,並同步嘗試了用更少的數據訓練模型。在減少到只有 1k 訓練樣本時,超過 90% 的類別都仍然有至少 20 個樣本,甚至還沒有到小樣本學習的範疇,但模型的準確率已經出現了大幅下降。

而如果統計更大範圍的圖片內的類別分布,總的類別數目越大時,最後出現的罕見類別也就越多、每個類別樣本越少。

Facebook 探究這個問題的努力是設計了 LVIS 數據集。它基於的是 COCO 數據集中的圖像,數據總量很大,但是樣本量很小的數據類別也很多。非常多的實例分割標註,但是包含的長尾數據中也有數量很少的類別,這就是 Big Little 兩個詞的所指。

Ross 說道,構建數據集時就需要重新思考不少東西:過往的數據集構建時,做法都是先選定想要包含的類型(哪一千個類別),再通過關鍵詞搜索對應類別的圖片,然後添加到數據集中。這樣的結果就是模糊的類別少、類別總數目有限、不同類型的樣本分布過於平衡。這其實都是和更廣泛的圖像、生活中的圖像的特性不符的,也達不到檢測所有物體的目標。LVIS 的設計目標和方法都有所不同,所以不再有這些特點(也可以說是缺點)。

Ross 著重說了一下他們對「類別」概念的重新思考。目前的對象識別數據集中都有許許多多類別名,但是「類別名只是一種表達」,並不能真的等同於類別本身的定義。

實際上,類別就是具有靈活性和多義性的,比如玩具鹿可以同時屬於「玩具」類別和「鹿」類別,小汽車和卡車都可以屬於「交通工具」,以及同一個物體可以有不同的稱呼。一種直白的處理方式是把所有類別都列出來,然後每一個對象實例都要分別一一標註出它是否屬於某個類別。但類別和實例稍微多一點以後這種做法就是不行的。

除此之外,真實世界的物體分類很多時候也就是模糊的,比如 hotdog(熱狗)、taco(肉卷)、sandwich(三明治)三者之間的區別就很難說清,cereal(燕麥粥)和 soup(粥)也很類似。對於 toast 的理解就更是令人迷惑了。沒有準確的定義,類別間的區別非常模糊。這都說明了沒法做以往那樣的直白的標註。

Facebook 的解決方案是用聯邦數據集的概念,不做所有圖像中的實例的精細標註,而是把整個數據集看作許多個類別數據集的集合;其中每個類別數據集由出一定數量的正例和負例組成,除此之外的圖像都允許處於未知的狀態,不再逼迫分類器一定要給出某個結果。

對於數據效率問題,Ross 有一個有趣的說法:我們嘗試持續提升 AP 了這麼多年,是時候把它降下來了——需要讓大家知道這不是一個已經完全解決的問題。

數據中的長尾特性是不可能消除的,檢測不同類別對象的 mAP 有明顯的高低區別,而且 Ross 認為當前的小樣本學習根本就還沒發展到可以解決問題的程度。從小樣本中學習的能力真的是未來五年中的一個非常重要的課題。

Ross 並沒有介紹他們在這方面的新的成果,但是他們將在 ICCV2019 上舉辦比賽,就基於 LVIS 數據集,通過挑戰的過程吸引更多研究者關注長尾小樣本學習問題。

演講四

MIT 電子工程與計算機科學教授 Bill Freeman 的演講主題是「The future of CV told through seven classic rock songs」。

他說這個主題,用搖滾比喻計算機視覺,其實覺得挺貼切的。不過鑒於這些老歌曲國內讀者都不熟悉,這裡暫時把比喻都略去,只關注正題內容。

Bill Freeman 一開頭也諷刺了過去五年的論文發表模式:翻到計算機視覺教科書的隨便哪一頁,在那一頁講的課題前面加上「深度」,收集一個相關的數據集,仿照 AlexNet 的樣子訓練一個 CNN 模型,然後就可以發表在 CVPR 了。

最近幾年的一個新風潮是從人類的視覺感知系統獲得靈感發表論文,也許接下來五年的計算機視覺論文發表模式會變成:翻開 MIT 的《視覺科學》教科書,隨便翻到哪一頁,然後仔細地把這一頁的概念融入到自己設計的網路中,就可以把論文命名為「一個 xxxx 的架構設計」,然後補充內容以後發表到 CVPR 了。(這當然也是諷刺)

接下來 Bill Freeman 花時間和聽眾一起討論了許多視覺系統概念的辨析,大家交換了一下看法。鳥類能夠飛行,當時有人認為是因為鳥有羽毛,也有人認為是鳥有翅膀。現在當然公認翅膀才是對飛行來說真正重要的,羽毛不一定需要。他希望大家思考一下,後面的這些概念,對視覺系統來講哪些是翅膀、哪些是羽毛。也藉由這些討論,窺探未來計算機視覺研究有待探究的課題。

1 人類視覺系統中獨立的背側和腹側視覺通路,對類別和位置的分別表徵,大多數人認為是羽毛;

2,明確地表徵對象的邊界,應該是翅膀;3,邊界的重建能力,應該是翅膀;

4,Foveation,視野的中央部分最靈敏,Bill 認為這對學術研究來說是羽毛,對商業產品是翅膀(學術研究要研究視覺系統的本質,但商業產品有恰當的功能性就夠);

5,感知分類(認為上圖中是一個條形貫穿了方形和圓形),應該是翅膀;6,三色視覺,有待討論;7,高效率,低發熱,可移動性,對學術研究來說是羽毛,對商業產品是翅膀;

8,反向連接,大多數人認為應該是翅膀

在這些說完之後,Bill Freeman 告誡大家要多看看前人的成果,不要總是重複發明輪子。

演講五

第五位演講的是計算機視覺領域奠基人之一的 UC 伯克利教授 Jitendra Malik。

Malik 開場首先說了像繞口令一樣的一句話:科研的藝術,就是要找重要的、未解決的、但能解決的問題,去解決。

Malik 說,其實許多年前的演講中他就曾討論過未來:在 2004 年他就做過以《The Hilbert Problems of Computer Vision》的演講,提出了一些對於計算機視覺系統的問題,希望未來的研究可以給出答案;然後在 2015 年,他做了《The (new) Hilbert Problems of Computer Vision》的演講,為 2004 年提出的問題給出了一些回答,也提出了新的問題。他說他挺喜歡這個模式的,這個問答過程就是很好的預測和回顧,而且現在我們還可以回過頭看以前對更早的問題的回答,以此作為預測未來的參考。唯一的遺憾是,今天這次演講在 2019 年,距離上一次 2015 年的預測稍微近了點。

2004 年提出的對於早期視覺、靜態視覺、動態視覺三個板塊的問題,可以看作是在深度學習時代來之前對視覺領域的思考。在 2015 年時給出的回答分別是:

早期視覺問題

如何從圖像統計中獲得目前還不了解的信息?

在監督學習任務中訓練一個多層神經網路就可以獲得通用的圖像表徵

自底向上的圖像分割能發展到什麼水平?

可以產生一小組物體分割候選,然後可以用分類器添上標籤。滑動窗口已經不再需要了。

如何根據自然圖像中的陰影、紋理進行推理?

相比於對成像過程進行反向建模,我們可以進行學習。如果數據比較稀疏,我們需要給一些參數設定先驗的值;如果有足夠的數據,就可以直接用神經網路之類的非參數化方法學習。

靜態場景理解

分割和識別之間如何互動?

雙向信息流。

場景、物體、部件之間如何互動?

在感知域內能夠隱式地捕捉到一些聯繫,但還不是普遍的結構

識別系統中的設計和學習的角色如何?

盡量多地從數據中學習。不要設計特徵。要設計網路結構。

動態場景理解

在大範圍運動對應關係中,高階知識起到什麼樣的作用?

如何找到好的對應關係是可以通過學習得到的

如何找到並追蹤明確的結構?

重建人體形狀和動作方面已經有了巨大的進步

如何表徵動作?

這還是個開放性的問題,目前我們還不理解動作和活動之間的層次結構

2015 年提出的新問題和現在給出的回答則是

人、地點和物體

世界上的每一個地點建模

已經有了表現優秀的 SLAM、地點分類和視覺導航

對每個物體類別建模

已經有了表現優秀的實例分割、分類和形狀重建

用於社交感知的人類建模以及演算法

已經有了表現優秀的人類形狀、姿態、動作識別

不過對於社交感知的現狀,Malik 認為並不樂觀:今天的計算機的社交智慧少得可憐;當人類之間互動、人類和外部世界互動時,我們需要能夠理解人類的內部狀態,例子比如情感狀況、身體語言、當前目標

Malik 回憶了圖靈當年在圖靈機論文較為靠後的章節里對智慧的表述,然後說我們的視覺感知發展之路可以像人類小孩的學習一樣經歷六個方向的發展。

這六個方向是:多模態學習;漸進學習;物理交互學習;探索;社交學習;使用語言。對於體現不同階段的內建過程(以觀察為監督、以互動為監督、以文化為監督),他認為這是挺合適的思考結構。

最終,我們希望達到的效果是,看到這樣一張圖(街邊長凳上坐著一個演奏手風琴的人,邊上經過兩個路人),除了能識別出來圖中的凳子、識別出人的動作之外,還能推測路人是否會給演奏者留下一些錢。

雷鋒網 AI 科技評論總結:在這個研討會的演講中,大家關注的不再是發論文時候需要的非常具體的任務和條件限定(做實驗所必須的),而是關注整個領域裡未解決的問題需要我們如何思考,以及對計算機視覺、甚至就是視覺、自然世界的本質有全面的審視。用全局的、貼近自然世界的視角看過以後,也就更理解了 Ross Girshick 在演講中說到的這個成功的模式是「我們唯一掌握的模式」,現階段能在數據集上比較、能在論文中展示演算法表現的只是一部分具體刻畫後的任務,整個計算機視覺領域內尚未得出結論的問題還有很多,我們都需要用更長遠更開放的眼光去看待。到最後,預測五年後會發生什麼,遠不如提醒大家「我們還可以嘗試做什麼」來得重要。

雷鋒網 AI 科技評論現場參會報道。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

2019年將近過半,自動駕駛量產究竟處於什麼水平?| CCF-GAIR 2019
51VR牽手產研用,發布國內首部自動駕駛模擬藍皮書

TAG:雷鋒網 |