從文本匹配到圖文匹配:所見所想所找-基於生成模型的多模態檢索
互聯網存在大量的文本和圖像數據。目前,文本匹配是搜索引擎非常重要的一個組成。而文本匹配也是自然語言處理中一個重要的基礎問題。
例如,我們搜索一個網頁,則是網頁內容和用戶搜索查詢的一個相關性匹配問題。然而,我們不僅僅需要文本,有時候我們需要檢索圖像。比如,我需要檢索「一個戴著帽子並穿著紅色裙子的小女孩躺在一片長滿鮮花的草地上」。檢索這樣一張圖片,簡單的文本和圖像屬性匹配已經很難做到了。
這樣一個問題不僅僅需要理解文本還需要對圖片理解,該技術是多個模式識別任務的核心演算法。傳統的方法是對文本和圖像進行特徵提取,然後對high-level特徵進行匹配。然而,這種方法會陷入對屬性的匹配,而沒有考慮的圖片的空間關係,例如,」女孩」,」帽子」和」草地」它們之間是有空間關係的,僅僅進行高層次特徵匹配,顯然無法考慮這點。
給定一段文字描述,我們想要檢索到最符合描述的圖像,一名畫家可以比普通人找到更符合的圖像,那是因為訓練有素的畫家知道預期的圖片是什麼樣;同樣,給一幅圖片讓我們檢索最恰當的文字描述,一名作家也往往會給出比普通人更好的描述,因為作家具備更強的文字表達能力。我們把這種對檢索目標有預期的過程稱為--」Imagine」。基於這種思想,我們提出了一種基於生成模型的跨模態檢索模型,我們取名為」所看所想所找」。
所看,我們看了圖片或文字,並理解;
所想,我們腦補可能的匹配結果;
所找,我們根據腦補的結果和實際的結果去找需要的。
基於「文本匹配」及NLP的相關話題,AI慕課學院邀請了來自新加坡南洋理工大學的玖強博士3月27日(周二,晚8:30)為大家帶來一次主題分享!
公開課主題
從文本匹配到圖文匹配:
所見所想所找-基於生成模型的多模態檢索
內容大綱
1. 單模態檢索技術到多模態檢索
什麼是單模態檢索
什麼是多模態檢索
多模態檢索問題的挑戰
2. 所見所想所找
所見:基於深度模型的圖像和文本特徵提取
所想:基於生成模型的「腦補」
a.從圖像生成預期文本
b.從文本生成預期圖像
所見:全局和局部雙重匹配
講師介紹
玖強博士,新加坡南洋理工大學博士,精通演算法,軟硬兼修,目前主要研究方向是計算機視覺和自然語言處理結合,例如,圖像/視頻理解, 圖像/視頻自動描述生成,人機對話,多模態檢索。
在演算法和神經網路方面,側重卷積神經網路,遞歸神經網路,增強學習,對抗學習,無監督學習等。
發表多篇人工智慧及計算機視覺頂級會議和期刊,包括CVPR(Spotlight), ICCV、AAAI(Oral)、PR等,並為多個會議和期刊審稿人。
上課時間
3月27日(周二) 晚上20:30-21:30
如何報名
直播平台:騰訊課堂
※一起來塗鴉吧!用風格遷移把iPhoneX的照片變成藝術畫
※Must Know!數據科學家們必須知道的 5 種聚類演算法
TAG:AI研習社 |