當前位置:
首頁 > 知識 > CVPR 2019審稿排名第一滿分論文:讓機器人也能「問路」的視覺語言導航新方法

CVPR 2019審稿排名第一滿分論文:讓機器人也能「問路」的視覺語言導航新方法

選自arXiv

作者:Xin Wang、Qiuyuan Huang等

機器之心編譯

參與:Panda、思源

CVPR 2019 將於 6 月 15 日 – 6 月 21 日在加利福尼亞州長灘舉辦,會議論文錄取結果也已於近日公布。其中,來自加州大學聖塔芭芭拉分校王威廉組的王鑫(第一作者)在微軟研究院實習期間的研究項目以滿分成績獲「審稿得分排名第一」。該論文提出的新方法結合了強化學習和自監督模仿學習兩者之長,在視覺-語言導航任務上取得了顯著的進步。

來源:UC Santa Barbara 計算機科學系助理教授王威廉微博。因 CVPR 2019 論文評審並非 open review,得分以及排名無法確認。

論文講了什麼

「向右轉,到達廚房後再左轉,轉過桌子進入走廊……」使用新技術後的機器人可以根據這樣的路線指令行事了,就像人類一樣。

這篇論文主要解決的是視覺-語言導航(VLN)問題,即研究如何通過自然語言告訴智能體該怎麼運動,智能體需要像問路者那樣根據自然語言導航至目的地。因為自然語言是完整路徑的指導,而智能體只能觀察到當前局部視野,因此重要的是智能體需要知道當前局部視覺對應著語言指導的哪一步。為了解決視覺-語言導航中出現的各種問題,這篇論文提出結合強化學習(RL)和模仿學習(IL)的解決方案。

如下圖 1 所示為 VLN 任務的示例,左側的 Instruction 是用於指導智能體該怎麼走的自然語言,除了接收指令外,智能體只能看到 Local visual 所示的局部圖像視野。因為智能體並不能獲取全局軌跡的俯視圖,所以它只能將自然語言指令「想像」成全局的視覺軌跡,然後再根據局部視野一點點探索並導航至目標。

圖 1:VLN 任務演示。圖中展示了指令、局部視覺場景和俯視圖的全局軌跡,智能體並不能獲取俯視圖信息。路徑 A 是遵照指令的演示路徑,路徑 B 和 C 是智能體執行的兩個不同路徑。

在這篇論文中,作者主要通過增強型跨模態匹配(RCM)和自監督模仿學習(SIL)處理 VLN 任務。其中 RCM 會決定當前智能體應該關注自然語言中的哪一個子指令,以及局部視野哪個畫面與之相對;同時 RCM 還會評估已走的路徑到底和自然語言指令相不相匹配。而 SIL 主要是探索未見過的環境,從而模仿過去的優良經驗而走向目的地。

論文:用於視覺-語言導航的增強型跨模態匹配和自監督模仿學習

地址:https://arxiv.org/abs/1811.10092

摘要:視覺-語言導航(VLN/vision-language navigation)是引導具身智能體(embodied agent)在真實三維環境中執行自然語言指令的任務。在這篇論文中,我們研究的是如何解決這一任務的三大關鍵難題:跨模態基礎標對(cross-modal grounding)、不適定反饋(ill-posed feedback)和泛化(generalization)問題。首先,我們提出了一種全新的增強型跨模態匹配(RCM)方法,能夠通過強化學習(RL)在局部和全局增強跨模態基礎標對。尤其需要指出,我們使用了一個匹配度評估器(matching critic)來提供一種內部獎勵,以激勵指令和軌跡之間的全局匹配;我們還使用了一個推理導航器,以在局部視覺場景中執行跨模態基礎標對。我們在一個 VLN 基準數據集上進行了評估,結果表明我們的 RCM 模型在 SPL 任務上顯著優於已有方法(超過 10%),並實現了新的當前最佳水平。為了提升所學到的策略的泛化能力,我們進一步引入了一種自監督模仿學習(SIL)方法,可通過模仿自己過去的優良決策來探索未曾見過的環境。我們表明,SIL 可以近似得到更好更有效的策略,能極大地縮小在見過的和未見過的環境中的成功率差距(從 30.7% 到 11.7%)。

引言

近段時間來,基於視覺-語言的具身智能體受到了越來越多的關注 [32, 22, 7],原因是它們在家用機器人和個人助手等很多有趣的現實應用中都有廣泛的使用。同時,通過置身於使用第一人稱視覺的主動學習場景中,這樣的智能體也能推進視覺和語言的基礎發展。尤其值得提及的是視覺-語言導航(VLN),該任務是指通過自然語言指令引導智能體在真實環境中運動。VLN 需要深度理解語言語義和視覺感知,最重要的是要實現這兩者的對齊。智能體必須推理與視覺-語言動態相關的信息,以移動到根據指令推斷出的目標。

VLN 有一些獨特的挑戰。第一,根據視覺圖像和自然語言指令進行推理可能很困難。如圖 1 所示,為了到達目標點,智能體需要將指令「落地」到局部視覺場景中,還要將這些用詞序列表示的指令匹配成全局時間空間中的視覺軌跡。第二,除了嚴格遵照專家演示之外,反饋是相當粗糙的,因為「成功」反饋僅在智能體到達目標位置時提供,而完全忽視該智能體是遵照了指令(比如圖 1 中的路徑 A)還是採用了一條隨機路徑到達目標(比如圖 1 中的路徑 C)。如果智能體停止的時間比應該的略早一些(比如圖 1 中的路徑 B),即使匹配指令的「好」路徑也可能被認為是不成功的。不適定的反饋有可能會偏離最優策略學習。第三,已有的研究成果深受泛化問題之苦,使得智能體在見過的和未見過的環境中的表現會有很大差距。

在這篇論文中,我們提出結合強化學習(RL)和模仿學習(IL)的能力來解決上述難題。首先,我們引入了一種全新的增強型跨模態匹配(RCM)方法,可通過通過強化學習在局部和全局增強跨模態基礎標對。尤其要指出,我們設計了一種推理導航器,可在局部視覺場景與文本指令中學習跨模態基礎標對,這樣能讓智能體推斷應該關注哪個子指令以及應該看哪裡。從全局的角度看,我們為智能體配備了匹配度評估器(matching critic),可以根據由路徑重建原始指令的概率來評估所執行的路徑,我們稱之為循環重建獎勵(cycle-reconstruction reward)。局部而言,這種循環重建獎勵能提供一種細粒度的內部獎勵信號,可鼓勵智能體更好地理解語言輸入以及懲罰與指令不匹配的軌跡。舉個例子,如果使用我們提出的這種獎勵,則路徑 B 被認為優於路徑 C(見圖 1)。

使用來自匹配度評估器的內部獎勵和來自環境的外部獎勵進行訓練,推理導航器可以學習將自然語言指令「落地」到局部空間視覺場景和全局時間視覺軌跡上。我們的 RCM 模型在 Room-to-Room(R2R)數據集上顯著優於已有的方法並實現了新的當前最佳表現。

我們的實驗結果表明模型在見過的和未見過的環境中的表現差距很大。為了縮小這一差距,我們提出了一種有效的解決方案,即使用自監督來探索環境。這項技術很有價值,因為它可以促進終身學習以及對新環境的適應。舉個例子,家用機器人可以探索其到達的新家庭,並通過學習之前的經歷迭代式地提升導航策略。受這一事實的啟發,我們引入了一種自監督模仿學習(SIL)方法,以探索不含有標註數據的未見過的環境。智能體可以學習模仿自己過去的優良經歷。具體而言,在我們的框架中,導航器會執行多次 roll-out,其中優良的軌跡(由匹配度評估器確定)會被保存在重放緩衝區中,之後導航器會將其用於模仿。通過這種方式,導航器可以近似其最佳行為,進而得到更優的策略。總結起來,我們有四大貢獻:

我們提出了一種全新的增強型跨模態匹配(RCM)框架,能讓強化學習同時使用外部獎勵和內部獎勵;其中我們引入了一種循環重建獎勵作為內部獎勵,以強制執行語言指令和智能體軌跡之間的全局匹配。

我們的推理導航器可學習跨模態的背景,基於軌跡歷史、文本背景和視覺背景來做決策。

實驗表明 RCM 能在 R2R 數據集上達到新的當前最佳表現,在 VLN Challenge 的 SPL 方面(該任務最可靠的指標)也優於之前的最佳方法,排名第一。

此外,我們引入了一種自監督模仿學習(SIL)方法,可通過自監督來探索未曾見過的環境;我們在 R2R 數據集上驗證了其有效性和效率。

增強型跨模態匹配(RCM)

這裡我們研究的是一種具身智能體,它們需要學習通過遵循自然語言指令而在真實的室內環境中導航。如圖 2 所示,RCM 框架主要由兩個模塊構成:推理導航器和匹配度評估器。給定起始狀態和自然語言指令(一個詞序列),推理導航器要學習執行一個動作序列,這些序列會生成一個軌跡,以便到達由指令指示的目標位置。導航器在智能體執行動作過程中會與環境交互以及感知新的視覺狀態。為了提升泛化能力以及增強策略學習,我們引入了兩個獎勵函數:一個由環境提供的外部獎勵和一個源自我們的匹配度評估器的內部獎勵。其中外部獎勵度量的是每個動作的成功信號和導航誤差,內部獎勵度量的是語言指令與導航器軌跡之間的對齊情況。

圖 2:RCM 框架概況

圖 3:在步驟 t 的跨模態推理導航器

圖 4:提供循環重建內部獎勵的跨模態匹配度評估器

自監督模仿學習(SIL)

這一節將介紹可用於通用的視覺-語言導航任務的有效的 RCM 方法,其標準設置是在已見過的環境中訓練智能體,然後在未探索過的未見過的環境中測試它。在這一節,我們會討論一種不同的設置,即允許智能體在沒有基本真值演示的條件下探索未見過的環境。這種做法是有實際價值的,因為這有助於終身學習和對新環境的適應。

為此,我們提出了一種自監督模仿學習(SIL)方法,可模仿智能體自己過去的優良決策。如圖 5 所示,給定一個無相應的演示的自然語言指令和基本真值的目標位置,導航器會得到一組可能的軌跡並將其中最佳的軌跡(由匹配度評估器確定)保存到重放緩衝區中。

圖 5:用於探索無標註數據的 SIL

匹配度評估器會使用之前介紹的循環重建獎勵來評估軌跡。然後通過利用重放緩衝區中的優良軌跡,智能體確實能使用自監督優化目標。這裡的目標位置是未知的,因此沒有來自環境的監督。

與匹配度評估器配對後,SIL 方法可與多種學習方法結合,然後通過模仿自己之前的最佳表現來近似得到更優的策略。

實驗和分析

表 1:在 R2R 測試集上的結果比較。我們的 RCM 模型顯著優於 SOTA 方法,尤其是在 SPL 上(SPL 是導航任務的主要指標)。此外,使用 SIL 模仿在訓練集上的自己可以進一步提升其效率:路徑長度縮短了 3.25m。注意使用波束搜索(beam search)時,智能體在測試時間執行了 K 個軌跡並選擇了最有信心的軌跡作為最終結果,這得到了一個非常長的路徑並受到了 SPL 的極大懲罰。

表 2:在見過的和未見過的驗證集上的 ablation 研究。我們報告了沒有波束搜索的 speaker-follower 模型的表現作為基準。第 1-5 行展示了通過從最終模型連續移除每個單個組件來展示其影響。第 6 行展示了 SIL 在使用自監督探索未見過的環境的結果。

圖 6:在見過的和未見過的驗證集上的內部獎勵的可視化

圖 7:來自未見過的驗證集的定性示例,(a)是一個成功案例,(b)一個失敗案例

總結

我們在這篇論文中提出了兩種全新方法 RCM 和 SIL,從而結合了強化學習和自監督模仿學習兩者的優勢來解決視覺-語言導航任務。不管是在標準測試場景中,還是在終身學習場景中,實驗結果都表明了我們方法的有效性和效率。此外,我們的方法在未見過的環境中的泛化能力也很強。請注意,我們提出的學習框架是模塊化的,而且與具體模型無關,這讓我們可以分別各自改進各個組件。我們還相信這些方法可以輕鬆泛化用於其它任務。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

彩雲天氣:用神經網路「看見」北京的下一場雪
出身清華姚班,斯坦福博士畢業,她的畢業論文成了「爆款」

TAG:機器之心 |