當前位置:
首頁 > 知識 > UC伯克利提出新型視覺描述系統,物體描述無需大量樣本

UC伯克利提出新型視覺描述系統,物體描述無需大量樣本

選自BAIR

作者:Subhashini Venugopalan、Lisa Anne Hendricks

機器之心經授權編譯

參與:路雪

現在的視覺描述只能描述現有的訓練數據集中出現過的圖像,且需要大量訓練樣本。近日,UC 伯克利提出一種新型視覺描述系統,無需成對的新物體圖像和語句數據就可描述該物體。

給出一個圖像,人類可以輕鬆推斷出其中最明顯的實體,並有效描述該場景,比如,物體所處地點(在森林裡還是在廚房?)、物體具備什麼屬性(棕色還是白色?),以及更重要的一點:一個物體如何與其他物體互動(在地上跑,還是被一個人抓著等等)。視覺描述的任務旨在開發為圖像中的物體生成語境描述的視覺系統。視覺描述正面臨挑戰,因為它不僅需要識別物體(熊),還要識別其他元素,如動作(站立)和屬性(棕色),並構建一個流暢的句子來描述物體、動作和屬性在圖像中的關係(如一頭棕熊站在森林裡的一塊岩石上)。

視覺描述的現狀

LRCN [Donahue et al. "15]:一頭棕熊站在綠色的地面上。

MS CaptionBot [Tran et al. "16]:一頭大棕熊穿行在森林中。

LRCN [Donahue et al. "15]:一頭黑熊站在草地中間。

MS CaptionBot [Tran et al. "16]:一頭熊在吃草。

以上為目前描述生成器(captioner)對兩幅圖片生成的描述。第一幅是訓練數據中出現的物體(熊)圖像,第二幅是模型在訓練過程中未見過的物體(食蟻獸)圖像。

當前的視覺描述或圖像字幕生成模型效果已經很好,但是它們只能描述現有的圖像字幕訓練數據集中出現過的物體,且需要大量訓練樣本來生成好的描述。要學習如何在語境中描述類似「豺」或「食蟻獸」的物體,大多數視覺描述模型需要大量帶有對應描述的豺或食蟻獸樣本。但是,當前的視覺描述數據集,如 MSCOCO,不包含對所有物體的描述。與之相反的是,近期使用卷積神經網路(CNN)的目標識別工作能夠識別出數百種類別的物體。儘管目標識別模型能夠識別豺和食蟻獸,但是描述模型不能生成這些識別動物在語境中的準確描述語句。我們構建的視覺描述系統克服了這一難題,該系統無需成對的新物體圖像和語句數據就可描述該物體。

任務:描述新物體

這裡,我們正式地定義一下我們的任務。給定一個包含成對圖像和描述(圖像-句子對數據,如 MSCOCO)的數據集以及帶有物體標籤但沒有描述的圖像(非成對圖像數據,如 ImageNet),我們希望能夠學習如何描述在圖像-句子對數據中未出現的物體。為此我們必須構建一個模型,該模型能夠識別不同的視覺要素(如豺、棕色、站立和地面),並用新的方式將其組合成流暢的描述。以下是我們的描述模型的關鍵模塊。

我們的目標是描述訓練圖像中的多種物體。

使用數據的外部資源

為了給圖像-字幕訓練數據之外的多種物體生成描述,我們利用了外部數據源。具體來說,我們使用帶物體標籤的 ImageNet 圖像作為非成對圖像的數據源,將沒有標註的文本語料庫(如 Wikipedia)中的句子作為我們的文本數據源。它們分別用於訓練我們的視覺識別 CNN 和語言模型。

在外部資源上進行高效訓練

捕捉語義相似度

我們希望能夠描述在圖像-句子對訓練數據中未見過但與之類似的物體(如 ImageNet 中的物體)。我們使用密集詞嵌入(dense word embedding)來達到該目的。詞嵌入是詞密集的高維表徵,意義接近的詞在嵌入空間中比較接近。在我們之前的工作「深度合成字幕(Deep Compositional Captioning,DCC)」[1] 中,我們首次在 MSCOCO 成對圖像-字幕數據集上訓練字幕模型。然後,為了描述新物體,我們對於每一個新物體(如霍加狓鹿)都使用詞嵌入方法來確定一個在 MSCOCO 數據集所有物體中與新物體最相似的物體(在此案例中該物體是斑馬)。之後,我們將該模型學得的參數從已見過的物體傳輸(複製)到未見過的物體(即將斑馬對應的網路權重複制到霍加狓鹿)。

新物體字幕生成

DCC 模型能夠描述多個未見過的物體類別,而將參數從一個物體複製到另一個物體可以創造符合語法的句子,如物體「網球拍」,模型從「網球」複製權重至「網球拍」,生成句子如「一個男人在球場打網球拍」。在我們近期的工作 [2] 中,我們直接將詞嵌入納入我們的語言模型。具體來說,我們在語言模型的輸入和輸出中使用 GloVe 嵌入。這使得該模型在描述未見過的物體時悄悄地捕捉語義相似度,進而生成句子,如「一個網球運動員揮舞球拍擊球」。另外,直接將詞嵌入納入網路使我們的模型可以進行端到端的訓練。

將密集詞嵌入納入語言模型以捕捉語義相似度。

字幕模型和神經網路中的遺忘問題

我們將視覺網路的和語言模型的輸出與字幕模型聯合起來。該模型與現有的 ImageNet 預訓練字幕模型相似。但是,我們觀察到儘管該模型在 ImageNet 上接受預訓練,當該模型在 COCO 圖像-字幕對數據集上進行訓練/微調時,它傾向於遺忘之前見過的物體。蒙特利爾和 Google DeepMind 的研究者也觀察到了神經網路中的遺忘問題。我們在研究中,使用聯合訓練策略可以解決遺忘問題。

在不同的數據/任務上共享參數、聯合訓練,以克服「遺忘」問題

具體來說,我們的工作包含三個部分:一個視覺識別網路、一個字幕模型和一個語言模型。這三個部分共享參數,共同訓練。在訓練過程中,每一批輸入包含部分帶標註的圖像、一系列圖像-描述對,以及部分句子。這三種輸入訓練網路的三個部分。由於三個部分共享參數,所以該網路接受聯合訓練,以識別圖像中的物體、生成圖像字幕和句子。聯合訓練幫助該網路克服遺忘問題,使模型能夠對很多新的物體類別生成描述。

未來會怎樣?

我們的模型中最常見的一個錯誤是無法識別物體,一種緩解方式是使用更好的視覺特徵。另一個常見錯誤是生成的句子不夠流暢(A cat and a cat on a bed)或不符合「常識」(如:「A woman is playing gymnastics」不完全正確,因為一個人無法「play」gymnastics,動詞搭配不當)。提出這些問題的解決辦法應該會很有趣。儘管我們在該研究中提出把聯合訓練作為克服遺忘問題的策略,但是在大量不同任務和數據集上訓練模型並不總能夠實現。另一種解決方法是構建一個基於視覺信息和物體標籤生成描述的模型。這樣的模型還能夠在計算機運行中集成物體,即當我們在選中的物體集合上對模型進行預訓練時,我們還應該思考如何漸進地在具備新概念的新數據上訓練模型。解決這些問題可以幫助研究者開發出更好、更魯棒的視覺描述模型。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

斯坦福CS231n 2017春季課程開放全部視頻
以柔克剛,軟體機器人的崛起
10大深度學習架構:計算機視覺優秀從業者必備(附代碼實現)
研學社架構組|實時深度學習的推理加速和連續學習
陸奇:人工智慧技術商業化的最佳途徑就是構建人工智慧生態系統

TAG:機器之心 |

您可能感興趣

「文本轉圖」效果優化可多一步:物體關係描述
【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
描述特徵
阿里提出新圖像描述框架,解決梯度消失難題
格里芬的言論本意描述媒體製造不良氛圍,而非指責詹姆斯
讓你在VR中購物 沃爾瑪專利描述詳細的VR零售環境
讓你在VR中購物,沃爾瑪專利描述詳細的VR零售環境
TOPIK寫作範文練習:試寫描述自己的想法3
描述一種事物的虛妄
TOPIK寫作範文練習:試寫描述自己的想法4
《自然》發表研究稱量子力學仍無法描述宏觀系統
TOPIK寫作範文練習:試寫描述自己的想法1
TOPIK寫作範文練習:試寫描述自己的想法2
黑洞形象被重新定義,科學家:以往的描述有誤差,真實樣貌像食物
亞馬遜專利描述了比特幣用戶數據的市場
經典之作《演算法精解·C語言描述》
難道火星上真的存在生物?美國CIA文件也有相關描述
世界四大「怎麼長這樣」系列物種,看圖吧,用話語有些難以描述
語文課本上描述的杜甫,真實歷史上可不是這樣的
結合相對論和量子力學模型中描述的新星