優必選4篇CVPR 2018錄用論文摘要解讀
雷鋒網 AI 科技評論按:CVPR 2018 總投稿量超 4000 篇,最終錄取數超 900 篇,錄取率不到 23%。其中,優必選悉尼 AI 研究院有 4 篇論文被錄用為 poster。論文詳細解讀如下:
論文1:An Efficient and Provable Approach for Mixture Proportion Estimation Using Linear Independence Assumption
為了研究混合分布中各個組成分別的比例係數,假設各個組成分布滿足線性獨立的假設(即不存在一種組合係數,使得這些組成分布的線性組合所得到的分布函數處處為0),並且假設每個組成分布中都可以採樣到少量的數據。首先論證了組成分布線性獨立(組成分布不相同即可)的假設要弱於現有的估計其比例方法的各種假設。其次,提出先將各個分布嵌入到再生核Hilbert空間,再利用最大平均差異的方法求取各組成分布的比例係數。該方法能夠(1)保證比例係數的唯一性和可識別性;(2)保證估計的比例係數能夠收斂到最優解,而且收斂率不依賴於數據本身;(3) 通過求解一個簡單的二次規劃問題來快速獲取比例係數。這項研究擁有廣泛的應用背景,比如含有雜訊標籤的學習,半監督學習等等。
論文2:Deep Ordinal Regression Network for Monocular Depth Estimation
在3D視覺感知主題里,單目圖像深度估計是一個重要並且艱難的任務。雖然目前的方法已經取得了一些不錯的成績,但是這些方法普遍忽略了深度間固有的有序關係。針對這一問題,我們提出在模型中引入排序機制來幫助更準確地估計圖像的深度信息。具體來說,我們首先將真值深度(ground-truth depth)按照區間遞增的方法預分為許多深度子區間;然後設計了一個像素到像素的有序回歸(ordinal regression)損失函數來模擬這些深度子區間的有序關係。在網路結構方面,不同於傳統的編碼解碼 (encoder-decoder)深度估計網路, 我們採用洞卷積 (dilated convolution)型網路來更好地提取多尺度特徵和獲取高解析度深度圖。另外,我們借鑒全局池化和全連接操作,提出了一個有效的全局信息學習器。我們的方法在KITTI,NYUV2和Make3D三個數據集上都實現了當前最佳的結果。並且在KITTI新開的測試伺服器上取得了比官方baseline高出30%~70%的分數。
論文3:Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval
由於深度學習的成功,最近跨模態檢索獲得了顯著發展。但是,仍然存在一個關鍵的瓶頸,即如何縮小多模態之間的模態差異,進一步提高檢索精度。本文提出了一種自我監督對抗哈希(SSAH)方法。這種將對抗學習以自我監督的方式引入跨模態哈希研究,目前還處於研究早期。這項工作的主要貢獻是採用了一組對抗網路來最大化不同模態之間的語義相關性和表示一致性。另外,作者還設計了一個自我監督的語義網路,這個網路針對多標籤信息進一步挖掘高層語義信息,使用得到的語義信息作為監督來指導不同模態的特徵學習過程,以此,模態間的相似關係可以同時在共同語義空間和海明空間兩個空間內得以保持,有效地減小了模態之間的差異,進而產生精確的哈希碼,提高檢索精度。在三個基準數據集上進行的大量實驗表明所提出的 SSAH 優於最先進的方法。
論文4:Geometry-Aware Scene Text Detection with Instance Transformation Network
自然場景文字識別由於其文字外形、布局十分多變,是計算機視覺中具有挑戰性的問題。在本文中,我們提出了幾何感知建模方法(geometry-aware modeling)和端對端學習機制(end-to-end learning scheme)來處理場景文字編碼的問題。我們提出了一種新的實例轉換網路(instance transformation network),使用網內變換嵌入的方法學習幾何感知編碼,從而實現一次通過的文本檢測。新的實例變換網路採用了轉換回歸,文本和非文本分類和坐標回歸的端對端多任務學習策略。基準數據集上的實驗表明了所提方法在多種幾何構型下的有效性。
※速騰聚創 P3 激光雷達感知方案亮相GTC 2018: 一台32線+兩台16線,為L3自動駕駛而生
※北美安全大師薦讀:可關注感測器、深度學習安全等這些研究
TAG:雷鋒網 |