CVPR 2018 最酷的十篇論文
本文為 AI 研習社編譯的技術博客,原標題 :
The 10 coolest papers from CVPR 2018
作者 | George Seif
翻譯 | Vincents 校對 | 鄧普斯?傑弗
審核 | 永恆如新的日常 整理 | Pita
原文鏈接:
https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49
2018年計算機視覺和模式識別會議(CVPR)上周在美國鹽湖城舉行。該會議是計算機視覺領域的世界頂級會議。今年,CVPR 收到3300篇主要會議論文並且最終被接收的論文多達 979 篇。超過6,500人參加了會議,這可以說是史詩級的大規模! 6500人在下圖的會議廳參會:
打開今日頭條,查看更多圖片CVPR2018大會會場
每年,CVPR都會帶來優秀的人才以及他們很棒的研究; 並且總能看到和學習到一些新的東西。當然,每年都有一些論文發表新的突破性成果,並為該領域帶來一些很有用的新知識。 這些論文經常在計算機視覺的許多子領域帶來最先進的前沿技術。
最近,喜聞樂見的是那些開箱即用的創意論文!隨著深度學習在計算機視覺領域的不斷應用,我們仍然在探索各種可能性。許多論文將展示深度網路在計算機視覺中的全新應用。 它們可能不是根本上的突破性作品,但它們很有趣,並且可以為該領域提供創造性和啟發性的視角,從它們呈現的新角度經常可以引發新的想法。總而言之,它們非常酷!
在這裡,我將向您展示我認為在2018年CVPR上的10篇最酷論文。我們將看到最近才使用的深度網路實現的新應用,以及其他的一些提供了新的使用方法和技巧的應用。您可能會在此過程中從中獲得一些新想法;)。話不多說,讓我們開始吧!
使用合成數據訓練深度網路:通過域隨機化彌合現實差距
本文來自Nvidia,充分利用合成數據來訓練卷積神經網路(CNN)。 他們為虛幻引擎4創建了一個插件,該插件將生成綜合訓練數據。 真正的關鍵是他們隨機化了許多訓練數據中可以包含的變數,包括:
對象的數量和類型
干擾物的數量,類型,顏色和尺度
感興趣的對象和背景照片的紋理
虛擬相機相對於場景的位置
相機相對於場景的角度
點光源的數量和位置
他們展示了一些非常有前景的結果,證明了合成數據預訓練的有效性; 達到了前所未有的結果。 這也為沒有重要數據來源時提供了一種思路:生成並使用合成數據。
圖片來自論文:使用合成數據訓練深度網路:通過域隨機化彌合現實差距
WESPE:用於數碼相機的弱監督照片增強器
這篇非常精妙!研究人員訓練了一個生成對抗網路(GAN),能夠自動美化圖片。最酷的部分是,它是弱監督的,你不需要有輸入和輸出的圖像對!想要訓練網路,你只需要擁有一套「好看」的圖片(用於輸出的正確標註)和一套想進一步調整的「粗糙」的圖片(用於輸入圖像)。生成對抗網路被訓練成輸出輸入圖像更符合審美的版本,通常是改進色彩和圖片的對比度。
這一模型非常簡單並且能快速上手,因為你不需要精確的圖像對,並且最終會得到一個「通用的"圖片增強器。我還喜歡這篇論文的一點是它是弱監督的方法,非監督學習看起來很遙遠。但是對計算機視覺領域的許多子類來說,弱監督似乎是一個更可靠更有希望的方向。
圖片來自論文:WESPE:用於數碼相機的弱監督照片增強器
用Polygon-RNN ++實現分段數據集的高效互動式標註
深度網路能夠良好運行的一個主要原因是有大型的經過標註的可用的數據集。然而對很多機器視覺任務來說,想獲得這樣的數據會很耗費時間並且成本高昂。特別是分割的數據需要對圖片中的每個像素進行分類標註。所以對大型數據集來說,你可以想像......標註任務永遠不可能標完!
Polygon-RNN++能夠讓你在圖中每個目標物體的周圍大致圈出多邊形形狀,然後網路會自動生成分割的標註!論文中表明,這一方法的表現非常不錯,並且能在分割任務中快速生成簡單標註!
圖片來自論文:用Polygon-RNN ++實現分段數據集的高效互動式標註
從時尚圖片創造膠囊衣櫃
「嗯......今天我該穿什麼?」 如果某人或某個東西能夠每天早上為你回答這個問題,那麼你不必再去問這個問題,會不會很好?這樣的話你就不用了嗎?那麼我們就跟膠囊衣櫃(Capsule Wardrobes)打個招呼吧!
在這篇論文中,作者設計了一個模型,給出候選服裝和配件的清單,可以對單品進行組合,提供最大可能的混合搭配方案。它基本上使用目標函數進行訓練,這些目標函數旨在捕獲視覺兼容性,多功能性和用戶特定偏好的關鍵要素。 有了膠囊衣櫃,您可以輕鬆地從衣櫃中獲得最適合您的服裝搭配!
圖片來源論文:從時尚圖片中創造膠囊衣櫃
Super SloMo:視頻插值中多個中間幀的高質量估計
你曾經是否想過以超慢的動作拍攝超級酷炫的東西呢?Nvdia 的這項研究 Super SloMo 就能幫你實現!研究中他們使用 CNN 估計視頻的中間幀,並能將標準的 30fps 視頻轉換為 240fps 的慢動作!該模型估計視頻中間幀之間的光流信息,並在這些信息中間插入視頻幀,使慢動作的視頻看起來也能清晰銳利。
一顆子彈穿過一個雞蛋,Super SloMo!
是誰放狗出去?用視覺數據構建狗的行為模型
這可能是有史以來最酷的研究論文!這項研究的想法是試圖模擬狗的思想和行為。研究人員將許多感測器連接到狗的四肢以收集其運動和行為數據。此外,他們還在狗的頭部安裝一個攝像頭,以便看到和從狗的第一人稱視角所看到的世界相同。然後,將一組 CNN 特徵提取器用於從視頻幀獲取圖像特徵,並將其與感測器數據一起傳遞給一組 LSTM 模型,以便學習並預測狗的動作和行為。這是一項非常新穎而富有創造性的應用研究,其整體的任務框架及獨特的執行方式都是本文的亮點!希望這項研究能夠為我們未來收集數據和應用深度學習技術的方式帶來更多的創造力。
圖片來自論文:用視覺數據構建狗的行為模型
學習分割一切
在過去的幾年裡,何凱明團隊 (以前在微軟研究院,現就職於 Facebook AI Research) 提出了許多重大的計算機視覺研究成果。他們的研究最棒之處在於將創造力和簡單性相結合,諸如將 ResNets和 Mask R-CNN 相結合的研究,這些都不是最瘋狂或最複雜的研究思路,但是它們簡單易行,並在實踐中非常有效。 這一次也不例外。
該團隊最新的研究 Learning to Segment Every Thing 是 MaskR-CNN 研究的擴展,它使模型準確地分割訓練期間未出現的類別目標!這對於獲取快速且廉價的分割數據標註是非常有用的。事實上,該研究能夠獲得一些未知目標的基準分割效果,這對於在自然條件中部署這樣的分割模型來說是至關重要的,因為在這樣的環境下可能存在許多未知的目標。總的來說,這絕對是我們思考如何充分利用深層神經網路模型的正確方向。
圖片來自論文: 學習分割一切
桌上足球
本文的研究是在 FIFA 世界盃開幕時正式發表的,理應獲得最佳時機獎!這的確是 CVPR 上在計算機視覺領域的「更酷」應用之一。簡而言之,作者訓練了一個模型,在給定足球比賽視頻的情況下,該模型能夠輸出相應視頻的動態 3D 重建,這意味著你可以利用增強現實技術在任何地方查看它!
本文最大的亮點是結合使用許多不同類型的信息。使用視頻比賽數據訓練網路,從而相當容易地提取 3D 網格信息。在測試時,提取運動員的邊界框,姿勢及跨越多個幀的運動軌跡以便分割運動員。接著你可以輕鬆地將這些 3D 片段投射到任何平面上。在這種情況下,你可以通過製作虛擬的足球場,以便在 AR 條件下觀看的足球比賽!在我看來,這是一種使用合成數據進行訓練的聰明方法。無論如何它都是一個有趣的應用程序!
圖片來自論文:桌上足球
LayoutNet:從單個 RGB 圖像重建 3D 房間布局
這是一個計算機視覺的應用程序,我們可能曾經想過:使用相機拍攝某些東西,然後用數字 3D 技術重建它。這也正是本文研究的目的,特別是重建3D 房間布局。研究人員使用全景圖像作為網路的輸入,以獲得房間的完整視圖。網路的輸出是 3D 重建後的房間布局,具有相當高的準確性!該模型足夠強大,可以推廣到不同形狀、包含許多不同傢具的房間。這是一個有趣而好玩、又不需要投入太多研究人員就能實現的應用。
圖片來自論文:LayoutNet:從單個 RGB 圖像重建 3D 房間布局
學習可遷移的結構用於可擴展的圖像識別任務
最後要介紹的是一項許多人都認為是深度學習未來的研究:神經架構搜索 (NAS)。NAS 背後的基本思想是我們可以使用另一個網路來「搜索」最佳的模型結構,而不需要手動地設計網路結構。這個搜索過程是基於獎勵函數進行的,通過獎勵模型以使其在驗證數據集上有良好的表現。此外,作者在論文中表明,這種模型結構比起手動設計的模型能夠獲得更高的精度。這將是未來巨大的研究方向,特別是對於設計特定的應用程序而言。因為我們真正關注的是設計好的 NAS 演算法,而不是為我們特定的應用設計特定的網路。精心設計的 NAS 演算法將足夠靈活,並能夠為任何特定任務找到良好的網路結構。
圖片來自論文:學習可遷移的結構用於可擴展的圖像識別任務
結語
感謝您的閱讀! 希望您學到了一些新的有用的東西,甚至可能為你自己的工作找到了一些新的想法!如果您覺得不錯,請分享給更多人可以看到這篇文章,並與我們一起跳上學習的列車!
想要繼續查看該篇文章相關鏈接和參考文獻?
長按鏈接點擊打開或點擊【CVPR 2018 最酷的十篇論文】:
https://ai.yanxishe.com/page/TextTranslation/1306
AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網雷鋒網雷鋒網
盤點圖像分類的竅門深度學習目標檢測演算法綜述生成模型:基於單張圖片找到物體位置注意力的動畫解析(以機器翻譯為例)等你來譯:
如何在神經NLP處理中引用語義結構(Python)用Mask R-CNN檢測空閑車位高級DQNs:利用深度強化學習玩吃豆人遊戲深度強化學習新趨勢:谷歌如何把好奇心引入強化學習智能體
※這些代表了未來出行的交通工具,你注意到了嗎?
※暗網賣家:過年囤的6.2億用戶信息都在這了
TAG:雷鋒網 |