當前位置:
首頁 > 最新 > 用於單目深度估計的深度有序回歸網路

用於單目深度估計的深度有序回歸網路

泡泡圖靈智庫,帶你精讀機器人頂級會議文章

標題:Deep Ordinal Regression Network for Monocular Depth Esitimation

作者:Huan Fu Mingming Gong Chaohui Wang Kayhan Batmanghelich Dacheng Tao

來源:CVPR 2018

編譯:尹雙雙

審核:楊健博

歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後台留言申請授權

摘要

大家好,今天為大家帶來的文章是——用於單目深度估計的深度有序回歸網路,該文章發表於CVPR 2018。

單目的深度估計作為理解3D場景幾何的重要部分,其求解是一個不適定問題。利用深度卷積神經網路(DCNNs)獲取的影像級信息和分層特徵,目前的解決方法已有很大進步。這些方法把深度估計建模為一個回歸問題,並且用均方差最小化來訓練回歸網路,但緩慢的收斂速度和不理想的局域解都會對其產生影響。另外,現有的深度估計網路採用重複空間池化,會導致不理想的低解析度特徵圖。為了獲得高分辨的深度圖,需要跳連接層或者多層去卷積的網路,這使得網路訓練變得複雜,消耗更多的計算量。為了消除或者至少很大程度地減少這些問題,本文引入一個空間增加離散化(SID)策略來離散化深度,再當作一個有序回歸問題來重塑深度深度網路學習。通過用一個有序回歸損失訓練網路,本文的方法可以同時取得更高的精度和更快的收斂。我們還採用了一個多尺度網路結構,避免了不必要的空間池化,平行地捕獲多尺度信息。提出的深度有序回歸網路(DORN)在KITTI,make3D和NYU Depth v2這3個數據集上的測試結果達到了最先進的水平。

主要貢獻

採用一個空間增加離散(SID)策略來將連續的深度值離散化為一些整數。

考慮離散深度值的等級,採用有序回歸損失來訓練深度卷積神經網路。

提出一個避免不必要子抽樣的網路框架,可以不用跳躍連接而更簡單地獲取多尺度信息。

演算法流程

圖1網路架構圖

包含一個密集特徵提取器,多尺度特徵學習(ASPP),跨通道信息學習(純1*1卷積分支),一個全影像編碼器和有序回歸優化器。Conv組成全是用1*1內核。ASPP模塊包含3個3*3內核的擴張卷積層,擴張比率分別是6,12和18。網路的監督信息是用SID策略離散化輸出的深度值。用一個端對端的有序回歸訓練損失優化整個網路。

第一步構建網路。

特徵提取器:移去DCNNs中最後幾個降採樣操作,在隨後的conv層的過濾中插入空洞,即擴張卷積來擴大過濾的視場。

場景理解模塊:3個組成部分,atrous空間金字塔池化,跨通道學習和全影像編碼。

圖2 全影像編碼器。

上:用純fc層(δ

首先用一個小內核和步長的平均池化層來降低空間維度,然後用一個fc層來獲得維度為C的特徵矢量,把它看做空間維度為1*1的C通道的特徵地圖,並加入一個內核大小1*1的卷積層來作為跨通道參數池化結構。最後我們沿著空間維度將特徵向量複製到F,這樣F的每個位置都對整個圖像有相同的理解。

第二步:Spacing-Increasing離散化。

圖3 離散間隔。

UD(中)和SID(下)把離散深度區段[α, β]分成5個子區段。

ti∈表示離散化閾值。本文中給α 和β都加了一個偏移值ξ來得到α?和β?,α?=α +ξ =1.0,在[α?, β?]區間應用SID。

第三步:學習和推理

獲得離散深度值後,將標準回歸問題直接轉化為一個序數回歸問題,採用softmax回歸損失學習在深度估計網路中的參數。

在獲得影像I上每個位置的有序標籤後,預測的深度值被解譯為:

主要結果

文章結果:

1. 數據集測試。

表1 KITTI上所有方法結果

表2 Make3D上的實驗結果

表3 NYU Depth v2上的實驗結果

圖4 在KITTI上的深度預測

圖5 在Make3D上的深度預測

2、深度離散化

表4 深度離散化和有序回歸。根據表中的得分可知,對連續深度的回歸訓練似乎比其他兩種方法收斂的更差,我們的有序回歸網路的性能最好。SID和UD離散化有很明顯的區別,且用BerHu代替我們的有序回歸損失時,DORN仍然能得到更高的分數。

3、全影像編碼器

表5 我們的全影像編碼器可以比fc類的編碼器有高一點的分數,但是顯著減少了參數量。

4、深度區間數

圖6 用SID將深度值離散化成多個區間,在40~120個區間中,DORN得分範圍為[0.908,0.915], δ

Abstract

Monocular depth estimation, which plays a crucial rolein understanding 3D scene geometry, is an ill-posed problem. Recent methods have gained signi?cant improvementby exploring image-level information and hierarchical features from deep convolutional neural networks (DCNNs).These methods model depth estimation as a regression problem and train the regression networks by minimizing meansquared error, which suffers from slow convegence and unsatisfactory local solutions. Besides, existing depth estimation networks employ repeated spatial pooling operations,resulting in undesirable low-resolution feature maps. To obtain high-resolution depth maps, skip-connections or multi-layer deconvolution networks are required, which complicates network training and consumes much more computations. To eliminate or at least largely reduce theseproblems, we introduce a spacing-increasing discretization(SID) strategy to discretize depth and recast depth networklearning as an ordinal regression problem. By trainingthe network using an ordinary regression loss, our methodachieves much higher accuracy and faster convergence insynch. Furthermore, we adopt a multi-scale network structure which avoids unnecessary spatial pooling and capturesmulti-scale information in parallel. The proposed deep ordinal regression network (DORN) achieves state-of-the-artresults on three challenging benchmarks, i.e., KITTI ,Make3D, and NYU Depth v2, and outperformsexisting methods by a large margin.

如果你對本文感興趣,想要下載完整文章進行閱讀,可以關注【泡泡機器人SLAM】公眾號


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 泡泡機器人SLAM 的精彩文章:

無監督方法的多姿態人物圖像合成

TAG:泡泡機器人SLAM |