當前位置:
首頁 > 知識 > 從文本匹配到圖文匹配:所見所想所找-基於生成模型的多模態檢索

從文本匹配到圖文匹配:所見所想所找-基於生成模型的多模態檢索

互聯網存在大量的文本和圖像數據。目前,文本匹配是搜索引擎非常重要的一個組成。而文本匹配也是自然語言處理中一個重要的基礎問題。

例如,我們搜索一個網頁,則是網頁內容和用戶搜索查詢的一個相關性匹配問題。然而,我們不僅僅需要文本,有時候我們需要檢索圖像。比如,我需要檢索「一個戴著帽子並穿著紅色裙子的小女孩躺在一片長滿鮮花的草地上」。檢索這樣一張圖片,簡單的文本和圖像屬性匹配已經很難做到了。

這樣一個問題不僅僅需要理解文本還需要對圖片理解,該技術是多個模式識別任務的核心演算法。傳統的方法是對文本和圖像進行特徵提取,然後對high-level特徵進行匹配。然而,這種方法會陷入對屬性的匹配,而沒有考慮的圖片的空間關係,例如,」女孩」,」帽子」和」草地」它們之間是有空間關係的,僅僅進行高層次特徵匹配,顯然無法考慮這點。

給定一段文字描述,我們想要檢索到最符合描述的圖像,一名畫家可以比普通人找到更符合的圖像,那是因為訓練有素的畫家知道預期的圖片是什麼樣;同樣,給一幅圖片讓我們檢索最恰當的文字描述,一名作家也往往會給出比普通人更好的描述,因為作家具備更強的文字表達能力。我們把這種對檢索目標有預期的過程稱為--」Imagine」。基於這種思想,我們提出了一種基於生成模型的跨模態檢索模型,我們取名為」所看所想所找」。

所看,我們看了圖片或文字,並理解;

所想,我們腦補可能的匹配結果;

所找,我們根據腦補的結果和實際的結果去找需要的。

基於「文本匹配」及NLP的相關話題,AI慕課學院邀請了來自新加坡南洋理工大學的玖強博士3月27日(周二,晚8:30為大家帶來一次主題分享!

公開課主題

從文本匹配到圖文匹配:

所見所想所找-基於生成模型的多模態檢索

內容大綱

1. 單模態檢索技術到多模態檢索

什麼是單模態檢索

什麼是多模態檢索

多模態檢索問題的挑戰

2. 所見所想所找

所見:基於深度模型的圖像和文本特徵提取

所想:基於生成模型的「腦補」

a.從圖像生成預期文本

b.從文本生成預期圖像

所見:全局和局部雙重匹配

講師介紹

玖強博士,新加坡南洋理工大學博士,精通演算法,軟硬兼修,目前主要研究方向是計算機視覺和自然語言處理結合,例如,圖像/視頻理解, 圖像/視頻自動描述生成,人機對話,多模態檢索。

在演算法和神經網路方面,側重卷積神經網路,遞歸神經網路,增強學習,對抗學習,無監督學習等。

發表多篇人工智慧及計算機視覺頂級會議和期刊,包括CVPR(Spotlight), ICCV、AAAI(Oral)、PR等,並為多個會議和期刊審稿人。

上課時間

3月27日(周二) 晚上20:30-21:30

如何報名

直播平台:騰訊課堂


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

一起來塗鴉吧!用風格遷移把iPhoneX的照片變成藝術畫
Must Know!數據科學家們必須知道的 5 種聚類演算法

TAG:AI研習社 |