一文縱覽 Vision-and-Language 領域最新研究與進展
雷鋒網 AI 科技評論按:本文作者為阿德萊德大學助理教授吳琦,去年,他在為 AI 科技評論投遞的獨家稿件中回顧了他從跨領域圖像識別到 vision-to-language 相關的研究思路,今年,他又一次介紹了 vision-and-language 任務的最新進展。正文如下。
前言:
去年寫過一篇《萬字漫談 vision-language-action》,主要介紹總結了我們組圍繞 vision-language 的一些思路和工作。這次去 VALSE 參會,很多同學和老師都提起那篇文章,說受到很多啟發。同時這次剛好有幸在 VALSE 上做關於 vision-and-language 2.0 的年度進展報告,於是就有了把報告變成文字的想法,供各位閱讀參考。這篇文章主要介紹了一些 2018 年的這個領域比較受關注的文章,之所以叫 vision-and-language 2.0, 是因為這些文章都是在圍繞一些新的 vision-and-language 的任務展開的。
正文:
首先先做一些背景介紹,什麼是 vision-and-language?我們知道 Computer Vision(計算機視覺)和 Natural Language Processing (自然語言處理)一直是兩個獨立的研究方向。計算機視覺是一門研究如何使機器 「看」的科學,而自然語言處理是人工智慧和語言學領域的分支學科,主要探索的是如何使機器」讀」和「寫」的科學。他們相通的地方是,都需要用到很多機器學習,模式識別等技術,同時,他們也都受益於近幾年的深度神經網路的進步,可以說這兩個領域目前的 state-of-art,都是基於神經網路的,而且很多任務,比如 CV 里的物體識別檢測,NLP 里的機器翻譯,都已經達到了可以實用的程度。於是從 2015 年開始,有一個趨勢就是將視覺與語言進行一定程度的結合,從而產生出一些新的應用與挑戰。比如 image captioning,visual question answering 等比較經典的 vision-and-language 任務。
隨著這些工作的提出,vision-and-language 也變成了一個越來越熱門和主流的研究領域。這張圖顯示的是 2019 年 CVPR paper submission 的統計,我們可以看到 vision-language 佔了所有 submission 的 4%,甚至比比較傳統的 tracking,action recognition 都要高。說明越來越多的人在關注並且研究這個方向。
圍繞 image captioning 和 VQA,有很多經典的方法被提出,比如從 machine translation 借鑒來的 sequence-to-sequence model,也就是 cnn-rnn 模型,再到引入 attention(注意力機制),以及我們提出的以 attributes 作為中間層去生成更準確的 caption 和答案,再到後來的 MCB,modular network 以及 CVPR 18 年的 bottom-up attention,都是非常經典並且有效的方法。但是我們也發現,儘管方法越來越多,模型越來越複雜,帶來的 improvement 卻非常有限。比如在 MS COCO image captioning 的 leader board 上,基本上在 bottom-up attention 之後,就沒有什麼大的提升。再看 VQA,每年都有 VQA-challenge,我們可以看到對比 17 年和 18 年的結果,排在第一的隊伍相差也幾乎不到兩個點。當然拋開這兩個數據本身存在的問題不談(VQA 數據 bias 比較大,captioning 準確的 evaluation 比較難),很多研究者開始意識到 vision-language 不僅僅是只圍繞 caption 和 VQA 的,由於任務和數據的限制,可挖掘的空間已經變得越來越小。
從 17 年開始,我們就陸續看到一些新的 vision-language 的任務被提了出來,比如被研究比較多的 referring expression comprehension,也叫做 visual grounding,雖然 14 年就有類似的概念被提出,但基本上從 17 年開始相關的方法才多了起來。在這個任務當中,給出一副圖像以及一段 expression,也就是自然語言的描述,我們期望得到一個區域,這個區域能夠準確地對應到這個描述。
還有 visual dialog,視覺對話,需要機器能夠圍繞一張圖片展開問答形式的對話。還有像 text to image/video generation,是把 image caption 反過來做,通過語言去生成對應的圖像和視頻。雖然這些任務看起來都很『fancy』,但是其實也都是 image captioning 和 VQA 的變體。比如 referring expression,就是 image region – sentence matching。Visual dialog 就是一個 multi-round VQA。從本質上來講變化並不大,所以我們看到,在 image captioning 和 VQA 上能 work 的方法,在這些任務上也都表現很好。
但是從 18 年開始,vision-language 領域出現一些不一樣的任務,使我們在方法上能有進一步的突破。我把這些新的任務稱為 vision-and-language 2.0。這些新的任務大致可以分成三個方面。第一個任務主要是圍繞 image captioning 方面展開的。過去的 image captioning 基本是直來直去的,給一副圖像,生成一個 caption,至於生成的這個 caption 是關注圖像當中哪個物體,是什麼風格的 caption,是由訓練數據的樣式來決定的,無法自由的控制。現在我們希望能夠生成 diverse 甚至是 controllable 的 caption。所謂 diverse,就是我們希望生成不受訓練數據約束的 caption,比如最近受關注的 novel object captioning,就是被描述的物體在訓練集當中從未出現過的情況。而所謂 controllable,就是我們希望我們能夠控制生成的 caption,比如 style (幽默/正式/口語等等)以及被描述的重點物體與區域,比如我們可以決定生成的 caption 是描述圖像背景還是描述前景中某個物體的,也可以決定其描述的詳細程度。
另外一個方向是 reasoning,也就是視覺推理。我們知道在 VQA 裡面,最常見的做法還是通過 feature embedding(比如cnn-rnn),end-to-end 的方式訓練一個神經網路,這就導致中間的過程是一個黑箱,我們並不知道具體的推理過程是什麼。即使我們有了 attention (注意力機制),也只是使得部分過程有了一定程度的可解釋性,比如 attention 可以反映出模型在回答問題時聚焦在圖像中哪些物體上。但是對於 VQA 這樣的應用,推理的過程是至關重要的。所以針對這個方向,近期就有了一些新的數據和任務,比如 CLEVR 數據集,Visual Commonsense Reasoning 數據,以及最近 Chris Manning 提出的一個新的 GQA 的數據集。
第三個方向我把它總結為 『embodied『,也就是將 vision-language 具體化到一些場景當中,不再是基於靜態的圖片或者無法交互的視頻,而是一些可以交互的真實或者虛擬的場景。比如,在 18 年提出的 embodied QA 和 interactive QA,就是把 VQA 的問題放在了某一個場景下,回答問題需要 agent 在場景中移動甚至是交互。同時,我們組在 18 年提出了一個基於視覺-語言的導航任務 (Vision-and-Language Navigation),以及最近剛剛提出的一個 Remote Embodied Referring Expression 的任務,都是將 vision-language 放在了一個具體的場景當中去。
接下來我們就從這三個方面對一些去年的具有代表性的工作進行介紹,來看看這些任務和方法與過去有什麼不同。
1. Novel Object Captioning
這裡想給大家介紹的第一個工作來自於 Georgia Tech,他們提出了一個新的數據以及任務,叫做 novel object captioning。與傳統的 image captioning 不同的是,他這裡做了一個限制,就是限制在測試集當中出現的物體,在訓練集當中從沒有被描述過。這個概念其實類似於 zero-shot learning 的理念。在這個工作中,他們把數據分成了三個部分,分別是 in-domain,near-domain 和 out-of-domain,能夠方便的對 image captioning 模型進行比較全面的測試。In domain 就是物體在訓練集當中已經出現過,即經典的 image captioning 問題。Near-domain 是指圖片中最顯著的物體是 novel object,即沒有在訓練集中出現過,而其他物體則有可能在訓練數據中被描述過。Out-of-domain 是最難的,圖片中的所有物體都沒有在訓練集當中出現過。其實之前也有過類似的 setting,但是大部分都是從 coco image captioning 數據中分出不同的 split。而這個數據提供了新的標註,同時提供了不同的測試 domain,能夠更全面的分析一個 image captioning 模型。
針對這個任務,也有一些新的方法被提出,其中,neural baby talk 就是比較好的一個工作。這個工作同樣來自於 Georgia Tech,是由 Jiasen Lu 提出的,是 CVPR 2018 年的一篇 paper。在這個工作當中,受到之前 Babytalk 當中模板+填空的 captioning 生成方式的啟發,他們把 novel-object image captioning 分成了兩個步驟:第一個步驟是模板生成。但是與早期 Babytalk 中使用提前定義好的模板不同,這裡的模板是根據圖像自動生成的。就是在每生成一個詞的時候,他做了一個判斷,判斷這個詞應該是來自於文本還是來自於圖像。來自於文本的詞就組成了模板,比如下面這張圖中,生成模板就是 A
然後他的第二步叫做 Filling in the slots,也就是填空。他用一個外部訓練的分類器去對上面的那些區域進行分類識別,然後將識別的結果填到上一步生成的 template 裡面。所以這個時候,caption 的生成其實是不依賴於目標物體是否被描述過,而是依賴於一個外部訓練的分類器,也就是只要這個分類器見過足夠多的物體就可以,不需要有對應的 caption 數據。比如上面這個 region-17 識別的結果是 puppy,最後生成的 caption 就是 A puppy is sitting at a table with a cake。
另外一個思路是由 ANU 的 Peter Anderson 提出的,叫做 constrained beam search。在 image captioning 裡面常用的一個 trick 就是 beam search。就是說我們在選擇下一個生成詞的時候,不是只選擇概率最大的那一個,而是選擇概率最大的 b 個作為候選,b 就是 beam 的大小,然後再沿著這 b 個 candidate,繼續尋找接下來的 b 個最佳的候選詞。這裡這個工作提出了一個 constrained beam search,就是在做 beam search 之前,他會先從圖像當中提取一些 tag 出來。這個 tag 當然是可以外部訓練的,可以是一些在 image captioning 訓練集當中沒有出現過的 tag。然後他利用這些標籤建立了一個有限狀態機(Finite-state machine),然後按照有限狀態機的路線進行 beam search,使得生成的 caption,既能符合合適的語法結構,又能夠包含所需的 tag。
2. Visual Reasoning
介紹完關於 novel object captioning 的工作,我們這裡再介紹幾個與 visual reasoning 相關的工作。說到 visual reasoning,就不得不提到 17 年的 CLEVR (Compositional Language and Elementary Visual Reasoning),這是第一個專門針對視覺推理任務建立的數據集。這個數據中的圖片主要由是一些不同大小、顏色、形狀、材質的幾何體組成,雖然圖像成分簡單,但是問題本身卻比較複雜,需要做比較複雜的推理。比如這裡圖中的第一個問題就是 『大物體和金屬球的數量是一樣的嗎?』,為了能回答這個問題,我們首先需要找出大的物體還有金屬球(通過視覺),然後要分別計算各自的數量,最後判斷兩者的數量是不是相等,也就是為了回答這麼一個問題,我們需要三步的推理。
CLEVR 數據除了提供圖片-問題-答案這樣的標註之外,也提過了邏輯推理過程(叫做 function)的標註,比如上面這個問題需要三步的推理過程,就會有一個標註是將三個 function 連接成一個推理鏈。也就是提供了推理的 ground-truth,我們不僅能夠檢驗模型是否回答對問題,還能夠真正的評價一個模型是否具有足夠強的推理能力。這篇文章也發現在傳統 VQA 數據上表現很好的模型(比如 MCB)在 CLEVR 上表現並不好,說明傳統的 VQA 結構並沒有辦法通過 End-to-End 的訓練來具備推理能力,需要有新的模型能夠完成相應的推理。
這個數據提出以後,也有很多新的方法被提出來,比如像 Modular Network 在這項任務上表現就很好。我們這裡挑選其中比較有名一個叫做 MAC(Memory,Attention and Composition)的方法進行介紹。MAC 是由 NLP 領域裡的巨擘 Chris Manning 提出的,是 ICLR18 的一篇文章。
MAC 提供了一種全可微的模塊式的推理結構。一個 MAC 網路主要分成了三個部分,輸入部分主要負責把圖像和問題進行編碼。MAC recurrent unit 部分主要是通過對 MAC 基本單元的堆疊以及排列進行多次的推理。最後的輸出部分是結合推理後的特徵得出答案。這裡的關鍵部分就是一個所謂的 MAC 神經元。MAC 神經元又由三個運算元串聯運行組成:控制單元更新控制狀態,以便在每次迭代中參與待解答問題的一些部分; 讀取單元在控制狀態和記憶狀態的引導下,提取信息; 寫入單元將這些檢索得到的信息整合進記憶狀態,迭代計算答案。這個模型的好處是整個『推理』過程利用了 soft attention 機制對圖像信息進行多輪的提取,整個過程全可微,壞處就是整個過程還是『黑箱』,無法提供 explicit reasoning 的過程。
在最近的 CVPR19 上,Chris Manning 組又提出了一個新的數據叫做 GQA,可以看作是 CLEVR 的一個真實圖像的版本。因為 CLEVR 當中的物體都是一些簡單的幾何體,形式比較單一。GQA 使用了真實的常見圖像作為輸入,問題的類型和 CLEVR 很類似,都需要很強的視覺推理能力才能夠完成。比如這裡這個問題是:『拿漢堡的那個小女孩兒的左邊的紅色物體上的食物是什麼顏色的,黃色還是棕色?』。 回答這個問題,需要很強的空間以及邏輯推理能力。同樣的,類似於 CLEVR,這個數據也提供了所需邏輯推理鏈的標註。
另外一個和 reasoning 相關的工作,也是將出現在 CVPR19 上的最新的工作,叫做 VCR,Visual Commonsense Reasoning。
這個工作很有意思,它會給圖片、給區域、給問題,模型必須在選擇題中選出一項正確答案。但是在選擇正確答案的同時,還需要選擇出給出這個答案的原因。他們把這種能力稱之為 Cognition,就是認知能力。比如這副圖當中,問題是,為什麼 person 4 指著 person 1。正確答案是,他正告訴 person 3 是 person 1 點了 pancake。而選擇這個答案的原因是,Person 3 正在給這張桌子上餐,她可能不知道這個是誰點的。我們可以看到,回答這個問題不僅僅需要視覺的感知能力,還需要常識,以及推理等認知能力。是非常有挑戰性的。這篇文章也提供一個簡單的 baseline。整個模型分為三個步驟,(1)grounding,理解問題和答案的意思;(2)contextualizing,結合圖像、問題、答案進行進一步理解,如弄清楚指代對象;(3)reasoning,推理視覺區域之間的內在聯繫。我們組其實一直都在關注如何將 common sense 引入到 vision-language 裡面來,比如 17 年提出的 FVQA。這個工作很有前瞻性,但是我個人認為這個任務對於目前的 vision-language 還是太難了,因為我們目前並沒有一個非常完整的 common sense 的知識庫,而這個數據的規模也不足以讓我們學習到所需的 common sense,即使學習到,也是一種 overfitting。我認為目前的推理,應該是最好拋開 common sense 甚至是 domain knowledge,只在 visual 上去做,類似於CLEVR和GQA。
3. Embodied Vision-and-Language
在上一篇《萬字漫談vision-language-action》里我們就提到過,將 vision-language 和 action 結合起來是一個非常熱門並且 promising 的方向,包括我們組在內,很多大組都在這個方向上有所動作。
首先我們介紹一下 embodied VQA。 這個任務是融合多模態信息,通過向放置在一個虛擬環境中的 agent 提出基於文本的問題,需要其在虛擬的空間環境中進行路徑規劃(Navigation)和探索,以到達目標位置並回答問題。比如這裡的一個問題是,汽車是什麼顏色的?但是這個 agent 在當前位置並看不到汽車,他就要先進行路徑規劃,到達汽車所在的位置,從而進一步的給出答案。這就需要 agent 能夠理解他們所處的環境,具有一定的路徑規劃和探索能力,同時又能夠回答問題。然後在 CVPR19 的一篇文章,是 Licheng Yu 他們提出的,是基於 Embodied VQA,把問題又提高了一個難度,叫做 MT-EQA。 在這個任務當中,問題不是關於單一的物體,而是涉及到不同房間的不同物體,比如這裡這個問題是卧室里的梳妝台和衛生間的盥洗台是一個顏色么?
另外一個非常值得關注的方向就是我們在 18 年 CVPR 上提出的 Vision-and-Language Navigation (https://bringmeaspoon.org/)。在這個任務當中,我們提供一個基於真實拍攝室內場景的虛擬環境,這些環境裡面包含不同的房間(比如廚房,卧室,客廳)和物品。將一個 agent 放置在這個環境當中後,我們會給出一段基於自然語言的詳細的導航指令,比如離開某個房間,去到某個房間,遇到什麼物體向哪個方向拐,停在哪裡等等。然後我們需要這個 agent 能夠跟隨這個指令,按照指令所描述的路徑,到達對應的目的地。這就需要模型對語言和圖像同時進行理解,把語言當中描述的位置以及關鍵點,定位到真實場景圖像當中,然後執行相對應的動作。這個數據在發布之後也受到很大的關注,我們也舉辦了相應的 challenge。
我們知道人工智慧的一個長期目標就是建立一個能夠觀察理解周圍環境,並且與人類交流,執行相關命令的智能機器人。Computer vision 主要是教會機器人去感知,去看周圍的環境,而 NLP 賦予了機器人理解以及產生語言的能力。Referring expression 可以當作是一種最簡單的 vision-language-action 模式,vision 是靜態的圖片,language 就是輸入的 query,action 就是一個簡單的 pointing 或者 detecting 的操作。而 vision-language navigation 會稍微複雜一些,視覺的輸入變成了動態的環境,language 變成了一個很長的導航指令,動作也變成了一系列的前後左右移動的動作。但是這個任務其實仔細想的話並不是特別符合實際,就是我們為什麼要給機器人一個這麼複雜的指令幫助他去規劃路徑呢。而 referring expression 也並不是很切合實際,就是為什麼我們明明可以看到圖片中的這個物體,還需要機器人幫我們指出來呢?在現實當中,我們其實想要的是一個簡單的帶有目的性的指令,比如讓機器人去某個目的地去找某個他現在還觀察不到的物體,也就是 remote objects。比如,Bring me a cushion from the living room 就非常能夠切入到實際場景當中去。
於是今年,基於上面提出的關於 navigation 的任務, 我們又提出了一個將 navigation 和 referring expression 相結合的一個任務,叫做 RERERE: Remote Embodied Referring Expressions in Real indoor Environments。在這個任務當中,同樣我們會將 agent 放置於場景中的一個起始點,與上一篇中給一個很長的 navigation guidance 不同的是,我們這裡指令更加精鍊,並且同時包含了兩個任務,一個是導航到目的地,一個找到所描述的對應的物品。比如,圖中這個例子 『Go to the stairs on level one and bring me the bottom picture that is next to the top of stairs.』, 我們只給出了物品所在的目的地,而沒有給出具體的路徑,這個更加符合我們人類的習慣。而對於目的地的物體,我們也會以自然語言的形式,給出描述,從而能夠使其區別於其他物體。
同時,在這個工作當中,我們也提出了一個將 navigation 與 referring expression 結合的 navigator-pointer 模型。當然,與人的 performance 相比,還有一定的差距。
總結:
最後總結一下,首先我們看到在經典的 vision-language 任務上,比如 image captioning 和 VQA,能夠增長的空間已經很小,已經過了暴力的通過數據去學習的階段。真正的挑戰其實是一些細分的領域,比如多樣性、可控性、推理以及如何將 vision-language 應用在真實的場景當中。18 年我們提出了很多有趣的、有挑戰性的新的任務,相信接下來幾年會有很多新的方法被提出,來解決這些新的挑戰。也歡迎大家能夠關注我們的 embodied visual-navigation + referring expression 任務,在這些新數據和任務上提出並研究新的演算法。
最後,打個廣告,我們組有兩個 vision-and-language 方向的全獎 PhD 名額,如果對這個方向感興趣,可以與我聯繫(Dr. Qi Wu, qi.wu01@adelaide.edu.au)。
作者簡介:
吳琦博士現任澳大利亞阿德萊德大學(University of Adelaide)高級講師(助理教授),澳大利亞機器視覺研究中心(Australia Centre for Robotic Vision)Associate Investigator(副課題組長),澳大利亞國家傑出青年基金項目獲得者 (Australian Research Council DECRA Fellow),澳大利亞科學院羅素獎(JG Russell Award)獲得者, 2018 NVIDIA Pioneering Research Award 獲得者。吳琦博士於 2015 年在英國巴斯大學獲得博士學位,致力於計算機視覺領域研究,尤其關注於 Vision-Language 相關領域的研究,包括 image captioning,visual question answering,visual dialog 等。目前已在 CVPR,ICCV,ECCV,AAAI,TPAMI 等會議與刊物上發表論文三十餘篇。擔任 CVPR,ICCV,ECCV,NIPS,TPAMI,IJCV,TIP,TNN 等會議與期刊審稿人。
※希迪智駕自動駕駛落地新思路:V2X + L4級自動駕駛貨車,「落地」才是要務
※放射科醫生可零門檻調用AI演算法:美國放射學會發布人工智慧開放平台
TAG:雷鋒網 |