用單張圖片推理場景結構:伯克利提出3D景深聯合學習方法
選自BAIR Blog
作者:Shubham Tulsiani、Tinghui Zhou
機器之心經授權編譯
參與:smith、蔣思源、李澤南
最近,UC Berkeley 的研究人員撰文介紹了他們在計算機視覺研究中的最新成果:利用單幅圖片進行 3D 推斷的計算模型。據介紹,新的方法可以在未經有標記數據訓練的情況下達成很好的表現。這種方法在無人駕駛汽車等領域具有很大潛力,同時,研究人員認為構建新模型的原則也可以應用到機器學習的其他領域中。目前,該研究相關的兩篇論文已經提交 CVPR2017 大會。
給定一張平面圖,人類很容易推斷出潛在場景豐富的三維結構。因為從平面圖推斷立體結構是一種模糊性的任務(如下圖左邊),我們必須依賴過去的視覺經驗。這些視覺經驗都是從三維世界在二維上的投影(視網膜上的投影)而獲得的。因此,我們的三維感知能力的學習信號可能就來源自在世界不同的角度間建立起一致性聯繫,從而獲取三維真實世界的信息。UC Berkeley 的研究人員提出了一種類人的方法,該方法可以構建三維場景的預測系統。
構建單幅圖片 3D 推斷的計算模型一直是計算機直覺中探討的問題。早期的 Blocks World(論文:Machine perception of three-dimensional solids)或 3D surface from line drawings(論文:Interpreting Line Drawings as Three-Dimensional Surfaces)等項目都是利用幾何線索的顯式推理來優化三維結構。近年來,利用監督學習方法可以獲得更加真實的設定和三維表徵的定性推斷(Hoiem et al.)或定量推斷(Saxena et al)。在真實設定中獲得優秀成果的趨勢已經隨著目前基於 CNN 實體(e.g. Eigen & Fergus, Wang et al.)的發展而進步,但它是以增加直接 3D 監督為代價的,所以這種範式相當有限。獲得這種大規模監督數據的成本是巨大的,因此我們希望我們的計算系統能像人一樣不需要 3D 監督而學習進行 3D 預測。
考慮到這一目標,我們的研究工作和其他最近的方法都在探索另外一種形式的監督:為學習單視角的三維結構而建的多視角觀察(multi-view observations)。有趣的是,這些不同的研究工作不僅分享了合并多視角監督這一目標,同時應用的方法都遵循共同的原則。這些方法的統一基礎是學習和幾何之間的相互作用,學習系統所進行的預測期望和多視角觀察得到「幾何一致性(geometrically consistent)」。因此,幾何學就成為了學習系統和多視角訓練數據間的橋樑。
通過幾何一致性(Geometric Consistency)進行學習
我們的目的是去學習一個預測器 P(通常是一個神經網路),它可以根據單幅 2D 圖像推斷出 3D 結果。在監督環境下,訓練數據包含不同視角的多種觀測結果。就像之前提示的那樣,幾何圖形就像一個橋樑,它使用訓練數據來學習預測器 P。這是由於我們清楚地知道在簡明的幾何方程的形式下,3D 表徵和對應的 2D 投影之間的關係。因此我們就可以通過訓練 P 來預測 3D 結果,此 3D 表徵和與其相關聯的 2D 觀察結果是保持幾何一致性的。
為了說明訓練過程,在預測器 P 和幾何輸出之間設置了一個簡單的策略網路,檢驗器 V。我們給 P 輸入一個單一的圖像 I,而且它預測出了一個 3D 形狀 S. V,然後此 3D 形狀 S. V 會被給予預測結果 S,和一個來此不同相機視角 C 的觀測結果 O,它會使用幾何方程來驗證這些結果是否是一致的。我們讓 P 去預測 S,從而能通過 V 的一致性檢測。其中的核心就是由於 P 不知道(O,C)將要用來驗證其預測結果,它將不得不去預測與所有可能觀察結果相一致的 S(與未知的真實值 Sgt 相似)。這就使我們要定義下面的訓練演算法,從而在僅使用多視角監督(multi-view supervision)的情況下來學習從 2D 到 3D 的預測結果。
選取一個隨機訓練圖像 I,此圖像與從視角 C 觀察到的結果 O 相關。
預測 S=P(I)。使用 V 來檢測(S,O,C)的一致性。
更新 P,使用梯度下降,使 S 與(O,C)更一致。
重複此過程直至其收斂。
近期使用多視角監督來推行單一視角預測的方法全部遵守此模板,差異就是被推行的 3D 預測形式(例如深度或形狀),和所需多視角觀察結果的種類(例如彩色圖像或者前景模板)。我們現在正在關注的兩篇論文可以推進多視角監督模型的發展。第一篇論文利用經典射線一致性公式引入了一個一般的檢驗器,可以測量 3D 形狀與不同種類觀測結果 O 間的一致性;而第二篇論文說明了進一步解放所需要的監督是具有可能性的,並且提出了一個方法來學習從 2D 到 3D 的預測結果,它甚至沒有利用訓練時所需的相機視角 C。
可微分射線一致性(Differentiable Ray Consistency)
在我們近期的論文中,我們制定了一個檢驗器 V 來測量 3D 形狀(表現為一個概率佔據網格)和 2D 觀察結果間的一致性。我們的通用性公式通過利用不同種類的多視角觀察結果來對體積式的 3D 預測結果進行學習,比如監測到的前景模板,深度,彩色圖像,語義等。定義 V 是因為觀察結果 O 中的每一個像素都對應一條有相關信息的射線。然後我們可以想像一下,一次一條射線,計算形狀 S 和射線 r 之間的一致性,這樣就不用計算觀察結果 O 和形狀 S 之間的幾何一致性了。
上圖描繪了形式化射線一致性的各方面成本。a) 我們測量一致性的三維形體預測和樣本射線。b,c) 我們通過三維形體和計算事件概率追蹤射線,即不同路徑上射線最終投影點的概率。d) 我們可以度量射線終止事件和該射線可用信息之間的不一致性成本。e) 通過間射線一致性成本定義為時間成本期望值,我們可以計算梯度以更新為更具一致性的預測。在這個案例中,我們可視化了一個深度觀察 O,我們方法的優勢在於它可以通過簡單定義相應的事件成本函數而允許合并多種觀察(如顏色圖片、前景等)。
使用我們的框架在不同設定中從二維預測三維的結果展示在下圖。注意,所有的可視化預測都是從預測器 P 訓練的單張 RGB 圖像中獲得,並且沒有使用 3D 監督。
在未監督視頻中學習深度和視角
請注意,在上述工作中,輸入驗證器 V 的內容是已知攝像頭視角的。這從具有感覺運動功能的智能代理(例如具有里程記錄設備的人或機器人)的角度來看是合理的,但在應用到更多非結構化數據源(例如視頻)時會面臨挑戰。在另一篇近期發表的論文《Unsupervised Learning of Depth and Ego-Motion from Video》中,研究人員展示了姿態要求也是不必要的,事實上我們可以使用單張圖片聯合學習進行 3D 預測。
更具體地說,驗證器 V 在這個例子中是基於可微分的深度視角合成器在源視角(即觀察者視角)的基礎上通過預測深度和像素輸出的目標視角。在這裡深度建圖和攝像頭視角都被預測,隨後通過合成的和實際目標視圖之間的像素重建誤差來定義一致性。通過聯合學習場景幾何和攝像頭姿態,我們能夠對未經標記的視頻剪輯進行系統訓練,無需任何有關深度或視角的直接監督。
讓驗證器形成深度視圖合成器,同時學習深度和圖像角度,可以讓我們在圖像未經直接監督標記深度和角度的情況下訓練整個系統。
研究人員在 KITTI 和 Cityscapes 數據集中訓練並評估了新系統的性能,其中包括汽車在市內行駛時駕駛員視角的視頻片段。下圖展示了我們的單視角深度網路逐幀(即時且平滑)預測的能力。
更多細節可以在項目頁面找到:https://people.eecs.berkeley.edu/~tinghuiz/projects/SfMLearner/
令人驚訝的是,儘管未經任何真值標籤的訓練,我們的單視角深度模型已經與一些基線監督模型達到同樣的效果了,而姿態估算模型也與建立完備的 SLAM 系統相當。
在最近發表的論文《Unsupervised Learning of Depth and Ego-Motion from Video》中,你可以找到其中的更多細節:https://arxiv.org/abs/1704.07813
在計算機視覺領域裡,學習單圖 3D 場景而不經過 3D 監督是一個激動人心的課題。使用幾何作為學習系統和多視角訓練數據的橋樑可以讓我們繞過獲取地面真值 3D 標籤繁瑣而昂貴的過程。更廣泛的說,人們可以將幾何一致性解釋為元監督的一種形式,不推測眼前的事物是什麼,而去推測它的行為是什麼樣的。UC Berkeley 的研究者們相信這種原則可以應用到其他領域中去,在訓練數據缺乏標記的情況下讓機器學習發揮作用。
※微軟創立全新人工智慧實驗室,將與 DeepMind、OpenAI 同台競技
※用單張圖片推理場景結構:UC Berkeley提出3D景深聯合學習方法
※當我想像未來的醫院時,我想到空中交通管制塔
※谷歌內建300M圖像數據集探索大規模數據的影響
※全新A8:奧迪強勢推出全球首台量產型Level3自動駕駛汽車
TAG:機器之心 |
※大理石暗門的結構繪圖方法與技巧
※學界 | 聯合學習離散句法結構和連續詞表徵的無監督方法
※聯合學習離散句法結構和連續詞表徵的無監督方法
※PID控制器的調諧方法和結構
※黑格爾《法哲學原理》的結構
※DBus#資料庫表結構變更處理方案
※荷蘭特溫特大學嘗試藉助激光技術研發3D列印微金屬結構
※圖文結合,解密不同結構的字書寫技法
※詳解石材暗門結構的繪圖技巧與方法
※媲美 Face ID?聯發科推出雙目結構光人臉識別方案
※新的深度學習方法從氨基酸序列預測蛋白質結構
※用深度學習從非結構化文本中提取特定信息
※管理模式之治理結構-股權結構
※構圖竅門!設計構圖法則與基本結構
※新方法!哈佛學者以基因突變探秘蛋白質3D結構
※利用知識圖譜技術,智能投研公司「文因互聯」對金融數據進行結構化提取和智能化分析
※自定心抗震結構體系——理論、試驗、模擬與應用
※Uber任命羅納德·舒格為獨立董事長!以完善公司治理結構
※科學實用的書法技法訓練:書法的字結構練習
※液體3D列印:科學家利用水和油創建複雜的全液態3D結構