當前位置:
首頁 > 新聞 > CVPR 2019 程序主席發文潑冷水:計算機視覺的黃金時代靠的都是記憶

CVPR 2019 程序主席發文潑冷水:計算機視覺的黃金時代靠的都是記憶

對於計算機視覺研究者來說,這是一個激動人心但難以抗拒的時代。上周二,我有幸在 CVPR 2019 大會上向 9277 名與會者發表開幕詞。作為四個程序主席之一,我的工作是管理論文決策過程,這其中包括協調 132 個區域主席、2887 名審稿人和提交 5160 篇論文的 14104 名作者,以及規劃 1296 張海報的展示和 288 次演講。這是有史以來最大的計算機視覺會議,但在短短四個月內又將會有一次會議——ICCV 2019。如此多的事情正在發生——誰能跟上?

計算機視覺不再只是一種學術追求。數十億美元被用於從智能攝像頭到自動駕駛的計算機視覺應用程序中。大多數教授把至少一半的時間花在工業界的研究上,即使是初出茅廬的博士生,也能拿到六位數的豐厚薪水。但這是否是一場泡沫?我們如何將成熟的商業化突破與大肆宣傳的概念證明區分開來?

首先,讓我們簡單回顧一下我們是如何做到這一點的:

1963 年:Robert 的經典「Blocks World」論文使用精心設計的特徵和規則,從圖像構建三維對象。

1981 年:Lucas 和 Kanade 在僅僅長達六頁紙的論文中提出了有效的運動跟蹤和立體視覺演算法。隨之而來的是幾何視覺和圖像處理的進步。

1996 年:Rowley、Baluja 和 Kanade 描述了第一個現代物體檢測,即一個訓練用來檢測人臉的神經網路。數字圖像激增,數據取代了規則。

2012 年:數以百萬計的標記圖像和 GPU 處理為 Krizevsky、Sutskever 和 Hinton 提供了證明深度學習強大力量的基礎,相比原來的方法,深度學習方法的錯誤率降低了一半。數據取代了手工標記特徵。

2019 年:面部識別、身體追蹤和常見物體的檢測就像魔術一樣神奇。單張圖像的深度預測看起來很棒。但只有門外漢試圖解決標籤圖像少於 100000 張的問題。數據標註產業應運而生。

所以,這就是計算機視覺成功的秘密:它是記憶,而不是智力。讓我們以單視圖深度預測為例。2005 年,我苦苦鑽研這個問題,首次提出了從室外圖像自動創建 3D 模型的方法。它的關鍵是學習「識別」幾何圖形,將像素標記為地面、垂直物體和支撐物,並使用透視幾何規則構建場景幾何的簡單模型。這花費了大約 30% 的時間。

早期的單視圖 3D 重建方法:一點數據、手工設計的特徵和一些數學

單視圖構建 3D 模型是現在的一個熱門話題,僅在 CVPR 2019 上就有 35 篇論文。有一些方法可以從全景圖生成場景布局,從圖像生成對象網格,從一個視圖生成深度圖。然而,正如我們小組和 UCI 在 2018 年指出的,以及 Freiburg 和 Intel 的研究人員在 CVPR 2019 所指出的那樣,許多似乎解釋了幾何學的方法實際上只是在學習和檢索與輸入類似例子的記憶以做出預測。預測出來的的 3D 模型可能看起來不錯,但這些方法並不能推廣到新的形狀或場景中。

因此,讓我們考慮兩個非常有意思的問題:

圖像深度。如果你能在現場拍攝一張照片,並將其發送到辦公室進行 3D 測量和質量控制,這難道不是一件很棒的事情嗎?再見,昂貴的激光掃描儀和笨重的攝影測量儀!好了,夢做完了,現在睜開眼睛。Matterport 最近公布了 360 全景的深度預測,這是一個令人印象深刻的數據收集和機器學習壯舉。它的相對深度很好,邊緣也在正確的位置。Ricoh Theta 需要以已知的高度固定在三腳架上,這消除了由於未知的相機參數和姿勢而產生的一些變化。但是它在精度上仍然達不到可用的標準,它使用的編解碼器模式也只是一種記憶形式,因此,各種各樣不同的重建場景中的深度預測可能在接下來很長一段時間內都會容易出錯。我所在的 Reconstruct 公司最近推出了基於 360 度全景視頻的三維重建,由於它使用的是老式的相關性和優化方法,它工作起來非常可靠。目前,我覺得這種 3D 重建最好只用在無人機、視頻捕捉和掃描儀等。不過,即便我這麼說了,我還是對單視圖識別的深度方法與多視圖方法相結合來產生精確幾何的潛力感到非常興奮。」

自動化進度監控。在重建時,我們將點雲和圖像與 BIM 對齊,因此可以很容易地自動比較構建計劃和評估進度。我們有一些基本方法的專利和論文,但它們並不像看上去那麼簡單,而且,它們還沒有準備好迎接這個黃金時代。最大的挑戰是各種各樣的建築元素和任務、不完整的觀察結果、評估幾何和材料特性(例如,板岩與噴漆牆)、獲取標記數據的挑戰。有些人聲稱有自動進度監控,但由於缺乏數據和專業知識,我認為這些說法不可信,無法廣泛應用。但是,有了正確的數據以及最近在語義分割方面取得的進展,這可能在未來一兩年內實現,至少對於已經完成的粗略測量工作來說是如此。

總而言之,如果有人聲稱剛解決了一個很難的識別或預測的問題,那麼問問你自己:他們是否有足夠的數據,就像我關心的類型一樣,他們的方法能夠記住所有的答案?這就要求:

他們是否用了足夠多的數據,以至於他們的方法只需要記住所有的答案就夠了;

他們在標註上花費了數百萬美元,或者有一種自動化的方式來獲得監督(例如,Matterport 深度掃描儀);

預測問題足夠簡單,並且你的領域也足夠有限,以至於可能會被他們的數據和實驗室所覆蓋。數十億美元的圖像標註產業的存在是有原因的,到目前為止,還沒有什麼東西能代替數據。

雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

三星智能家居出新貨
華米發布兩款旗艦新品:均搭載AI晶元「黃山 1 號」

TAG:雷鋒網 |