當前位置:
首頁 > 知識 > 爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計

爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計

本文來自:Robin.lyAI研習社經授權轉載,請勿二次轉載。Robin.ly 是立足矽谷的視頻內容平台,服務全球工程師和研究人員,通過與知名人工智慧科學家、創業者、投資人和領導者的深度對話和現場交流活動,傳播行業動態和商業技能,打造人才全方位競爭力。

2019年計算機視覺頂會CVPR前不久剛在美國長灘閉幕。Robin.ly在大會現場獨家採訪20多位熱點論文作者,為大家解讀論文乾貨。本期三篇爆款文章包括:

1. CVPR滿分文章、最佳學生論文獎、結合強化學習和自監督模仿學習的視覺-語言導航方法:

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

2. 最佳論文榮譽提名、Google Research 基於Youtube「假人挑戰」數據集的深度預測研究:

Learning the Depths of Moving People by Watching Frozen People

3. 斯坦福大學幾何計算研究組6D姿態及尺寸估計研究:

Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation

問Robin.ly獲取更多CVPR訪談實錄

1

「最佳學生論文獎」視覺語言導航

CVPR 2019「最佳學生論文獎」論文「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」,在評審中得到3個Strong Accept,總分排名第一。文章第一作者王鑫現在是加州大學聖巴巴拉分校在讀博士生、微軟研究院實習生,從事計算機視覺、自然語言處理和機器學習三個領域的交叉研究。以下是他在CVPR大會現場接受Robin.ly訪談的視頻實錄:

王鑫在美國長灘CVPR2019大會接受Robin.ly專訪

Wenli:今天我們邀請到了 CVPR 「最佳學生論文獎」獲得者, UC Santa Barbara 攻讀博士學位的王鑫。首先恭喜你獲獎。能不能給我們介紹一下這篇論文?

Xin Wang:

謝謝!這篇論文的主題是視覺語言導航,關於如何在 3D 環境中引導智能體遵循自然語言指令。這是我暑期在微軟研究院開展的合作項目。我在回到學校之後繼續完善了這項工作,並寫成論文提交給了CVPR。

Wenli:你是怎麼想到這篇論文選題的?

Xin Wang:

我做視覺和語言相關的研究有兩三年的時間了,一直致力於讓機器學會描述視覺世界。我的目標是讓機器人不僅能夠描述靜態場景,還能夠與物理世界進行交互。我對視覺語言導航的數據集非常感興趣,覺得這是我真正想做的東西。所以我決定和我的導師以及微軟研究院的合作者一起解決這個問題。

Wenli:你的論文對這個研究領域最大的貢獻是什麼?

Xin Wang:

這項工作的一個局限就是無法準確區分成功的信號。這種信號相當粗糙,只要智能體到達了目的地,就會被視為一次成功的行為,無論在這個過程中是否遵循了自然語言指令。例如,你可以在房間里按照隨機的路線到達目的地,仍然可以被視為成功。但這不是我們想要的。我們希望智能體能夠在理解自然語言的基礎上遵循指示做出行動。我們在這篇文章中提出了一種強化跨模態匹配方法 (Reinforced Cross-Modal Matching),利用一個匹配度評估器來評估原始指令在生成的軌跡中重建的完整度,強化智能體按照指令行動的能力。

王鑫論文圖示,圖片來源:王鑫

這項工作的另一個關鍵挑戰是泛化的能力。智能體通常是在一些它見過的環境中進行訓練,並在沒見過的環境中進行測試。所以它在見過和沒見過的環境之間的表現會有非常大的差別。但是對於一些實際情況,例如,我們有一個家用機器人,我們希望這個機器人能夠熟悉它所部署的房屋環境。我們因此提出一種自我監督的模仿學習方法,讓機器人通過自我監督來探索沒見過的環境,從而使它的行為更加適應這些新的環境。這樣一來,智能體在見過和沒見過的環境之間的表現就會更加接近。

Wenli:你下一步的工作計劃是什麼?

Xin Wang:

我還會繼續在這個重要的方向深入研究,將視覺、語言和機器人技術結合起來,教會機器人觀察世界、描繪世界,甚至與世界互動。

王鑫在CVPR2019現場接受Robin.ly採訪

Wenli:你畢業後打算進入工業界嗎?人們一直在談論學術界和工業界的不同之處。你認為哪邊的資源和環境更有優勢?

Xin Wang:

一開始我對工業界更感興趣,但是最近我改變了想法,也會考慮找一個學術界的職位。我認為如果單純做研究,學術界是最理想的場所,有更自由的環境。同時我也很喜歡指導學生。

我認為工業界的一大優勢是資源和數據。你擁有足夠的GPU資源來訓練模型,能夠獲得大量的內部和外部數據,也能跟很多志同道合的人一起工作。我認為這些都非常重要。(完)

論文信息

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

作者:Xin Wang, Qiuyuan Huang, Asli Celikyilmaz,Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William Yang Wang, and Lei Zhang

研究機構:Universityof California, Santa Barbara,Microsoft Research, Duke University

文章鏈接:

https://arxiv.org/abs/1811.10092

2

最佳論文榮譽提名:基於「假人挑戰」的運動視頻深度預測

Mannequin Challenge(「假人挑戰」)曾在2016年底風靡網路,它要求視頻中被拍攝者要像人體模型一樣靜止不動、保持一個定格動作,由攝影師通過鏡頭的移動技巧來進行拍攝。Google Research 利用2000個YouTube的「假人挑戰」視頻作為訓練數據集,創建了能從運動視頻中進行深度預測的AI模型,並在CVPR發表了論文「Learning the Depth of Moving People by Watching Frozen People」,獲得最佳論文榮譽提名。

該文第一作者Zhengqi Li,是康奈爾大學Noah Snavely教授組的第三年博士生,在Google Research實習期間合作完成了這項研究。他在CVPR 2019 poster session現場為我們介紹了這項研究成果:

這項研究的目標是在攝像機和場景中的人都在隨機自由移動的情況下進行密集的深度預測。我們知道經典的幾何移動立體演算法不能應用於移動中的人,而我們使用數據驅動的方法解決了這個問題。我們從互聯網上的一個培訓數據源獲得了一個名為 Mannequin Challenge 數據集,其中包含了一群人在模仿人體模特的一系列YouTube視頻。場景中的所有人都是靜態的,有一個手持攝像機在巡視這些場景。針對場景中的靜態人物,我們可以使用經典的Structure from Motion(SfM)和 Multi View Stereo(MVS)演算法來獲得相機姿態和深度信息。但是互聯網視頻的內容非常雜亂,包括失真和模糊的鏡頭,所以我們要先刪除數據集中的視頻異常幀,用新的數據集來訓練我們的模型。

下一步的問題就是如何利用靜態的人物來訓練模型,並且在推理階段把這個模型應用於移動的人物身上,但這兩種情況是非常不同的。我們能夠想到的最簡單的辦法就是輸入單個 RGB 圖像,也就是將單個 RGB 幀輸入網路,然後回歸得到多視圖立體深度信息。但是這個方法忽略了 3D 信息在視頻序列的相鄰幀中的重要性。我們提出的方法是,除了單個 RGB 圖像,我們還把運動視差的深度作為附加信息一起輸入網路。我們使用 mask-RCNN 演算法來計算人類掩膜(human masks)。針對所關注的幀,計算出 t - delta 作為關鍵幀,再一幀一幀的計算光流信息,然後使用三角測量法將光流轉換成深度數據。

Zhengqi Li在CVPR現場講解論文Poster

同時,我們還可以計算光流和相機姿態的置信度,再將在運動視差中獲得的帶有人類掩膜深度的 RGB 圖像和置信度數據輸入到網路中。我們希望網路能夠利用這些額外的信息來更好的預測整個場景的深度。

我們在不同的數據集上測試了這個方法。在 Mannequin Challenge 測試數據集上,我們把完整的模型與只包含 RGB 的單視圖深度預測方法進行了比較。結果表明,與單視圖深度預測基線方法相比,我們提出的模型能夠獲得更準確的深度預測結果。在標準TUM RGBD 數據集中,我們測試了攝像機和人物在同一場景中同時移動的情況,還和其他最前沿的移動立體視覺演算法,比如 DeMoN,以及單視圖深度預測方法 DORN 進行了比較。這些結果都證明了我們的完整模型可以利用剛性場景的運動視差進行預測,其結果明顯優於其他基線方法和前沿方法。跟從感測器中獲取的真實信息進行定性比較後也可以發現,我們在有人和無人的場景中所獲得的結果都比前人所提出的方法要準確得多。

標準TUM RGBD數據集的結果比較,圖片來源:ZhengqiLi

我們的深度預測方法還可以應用於增強現實下的各種視覺效果中,比如視頻散焦和對象插入,甚至當人和攝像機同時移動時,還能夠將人物從場景中移除。

基於深度的視覺效果,圖片來源:Zhengqi Li

論文信息

Learning the Depths of Moving People by Watching Frozen People

作者:Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, and William T. Freeman

研究機構:Google Research

文章鏈接:https://arxiv.org/abs/1904.11111

3

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

CVPR 2019開幕與頒獎儀式:最佳論文完成不可能的任務,上萬參會者共建全球化盛會
如何得到穩定可靠的強化學習演算法?微軟兩篇頂會論文帶來安全的平滑演進

TAG:AI研習社 |