從文本匹配到圖文匹配：所見所想所找-基於生成模型的多模態檢索

知識 03-24

互聯網存在大量的文本和圖像數據。目前，文本匹配是搜索引擎非常重要的一個組成。而文本匹配也是自然語言處理中一個重要的基礎問題。

例如，我們搜索一個網頁，則是網頁內容和用戶搜索查詢的一個相關性匹配問題。然而，我們不僅僅需要文本，有時候我們需要檢索圖像。比如，我需要檢索「一個戴著帽子並穿著紅色裙子的小女孩躺在一片長滿鮮花的草地上」。檢索這樣一張圖片，簡單的文本和圖像屬性匹配已經很難做到了。

這樣一個問題不僅僅需要理解文本還需要對圖片理解，該技術是多個模式識別任務的核心演算法。傳統的方法是對文本和圖像進行特徵提取，然後對high-level特徵進行匹配。然而，這種方法會陷入對屬性的匹配，而沒有考慮的圖片的空間關係，例如，」女孩」，」帽子」和」草地」它們之間是有空間關係的，僅僅進行高層次特徵匹配，顯然無法考慮這點。

給定一段文字描述，我們想要檢索到最符合描述的圖像，一名畫家可以比普通人找到更符合的圖像，那是因為訓練有素的畫家知道預期的圖片是什麼樣；同樣，給一幅圖片讓我們檢索最恰當的文字描述，一名作家也往往會給出比普通人更好的描述，因為作家具備更強的文字表達能力。我們把這種對檢索目標有預期的過程稱為--」Imagine」。基於這種思想，我們提出了一種基於生成模型的跨模態檢索模型，我們取名為」所看所想所找」。

所看，我們看了圖片或文字，並理解；

所想，我們腦補可能的匹配結果；

所找，我們根據腦補的結果和實際的結果去找需要的。

基於「文本匹配」及NLP的相關話題，AI慕課學院邀請了來自新加坡南洋理工大學的玖強博士3月27日（周二，晚8:30）為大家帶來一次主題分享！

公開課主題

從文本匹配到圖文匹配:

所見所想所找－基於生成模型的多模態檢索

內容大綱

1. 單模態檢索技術到多模態檢索

什麼是單模態檢索

什麼是多模態檢索

多模態檢索問題的挑戰

2. 所見所想所找

所見：基於深度模型的圖像和文本特徵提取

所想：基於生成模型的「腦補」

a.從圖像生成預期文本

b.從文本生成預期圖像

所見：全局和局部雙重匹配

講師介紹

玖強博士，新加坡南洋理工大學博士，精通演算法，軟硬兼修，目前主要研究方向是計算機視覺和自然語言處理結合，例如，圖像/視頻理解, 圖像/視頻自動描述生成，人機對話，多模態檢索。

在演算法和神經網路方面，側重卷積神經網路，遞歸神經網路，增強學習，對抗學習，無監督學習等。

發表多篇人工智慧及計算機視覺頂級會議和期刊，包括CVPR(Spotlight), ICCV、AAAI(Oral)、PR等，並為多個會議和期刊審稿人。

上課時間

3月27日（周二）晚上20:30-21:30

如何報名

直播平台：騰訊課堂

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章:

※一起來塗鴉吧！用風格遷移把iPhoneX的照片變成藝術畫
※Must Know！數據科學家們必須知道的 5 種聚類演算法

TAG:AI研習社 |