自監督對抗哈希SSAH：當前最佳的跨模態檢索框架

最新 04-14

選自arXiv

作者：Chao Li等

機器之心編譯

參與：Pedro、劉曉坤

近日，西安電子科技大學、優必選和騰訊 AI Lab 聯合提出了一種新型跨模態哈希方法：SSAH 模型框架。該框架將自監督語義學習和對抗學習結合，可以更有效地保留不同模態之間的語義相關性和表徵一致性。在三個基準數據集上進行的大量實驗表明 SSAH 優於當前最先進的方法。該研究的論文已被 CVPR 2018 大會接收。

簡介

隨著來自不同種類搜索引擎和社交媒體的多媒體數據的爆炸式增長，近年來跨模態檢索已經成為了一個人們急需面對的議題 [20, 21, 22, 23, 24, 25, 29, 35, 36, 41, 42, 45]。跨模態檢索的主要目標是用一種模態（比如：文本）的查詢請求來檢索具有相似語義但處於其他模態（比如：圖片) 的內容。考慮到在實際應用場景中對於低存儲消耗和快速響應查詢的要求，哈希演算法可以通過給相似的跨模態內容賦予相似的哈希碼的方式，將高維的多模態數據映射到一個公共的哈希碼空間，因而在跨模態檢索領域獲得了廣泛的關注。考慮到不同模態的內容在特徵表示和分布上存在著極大的差異（即模態鴻溝），如何探索不同模態的語義關聯的足夠多細節繼而打破模態鴻溝就顯得十分必要了。目前大多數的淺層跨模態哈希方法（不論是無監督方法 [2, 10, 14, 18] 還是有監督方法 [7, 17, 19, 26, 30, 40, 33]）都試圖在公共的哈希空間中捕捉語義的關聯。而相比無監督方法，有監督方法能夠充分利用語義標籤或者關聯信息提取跨模態之間的相關性，從而獲得更好的性能。然而，幾乎所有的已有淺層跨模態哈希方法都基於手工編寫的特徵，這就一定程度上限制了實例的可區分性表徵，繼而降低了學習到的二進位哈希碼的準確率。

近年來，深度學習已經在不同應用中的高可區分性特徵學習上獲得了成功。然而，儘管深度學習可以更有效地捕捉不同模態內容之間的非線性相關性，目前將深度學習應用到跨模態哈希上的工作相對還比較少 [3, 9, 12, 31, 43]。此外，值得一提的是，目前的深度跨模態哈希方法中仍然存在著一些常見缺陷。首先，這些方法僅僅直接使用單類別標籤來度量不同模態內容之間的語義相關性。而事實上，在標準的跨模態基準數據集比如 NUS-WIDE [6] 和 Microsoft COCO [15] 中，一幅圖像可以分配不同類別的標籤。由於這種方式可以更準確地描述不同模態內容之間的語義相關性，因而它是非常有益的。其次，這些方法往往通過使用特定預定義的損失函數來限制相關的哈希碼從而強制減少模態鴻溝 [4]。其中使用的哈希碼往往小於 128 位。這意味著大多數有用的信息都被消除了，使得哈希碼無法捕捉到不同模態之間的內在一致性。相比而言，高維的特定模態的特徵往往包含著有助於打破模態鴻溝的更多冗餘信息。因此，如何促進獲得更多的冗餘語義相關信息，並建立更準確的模態關聯，對於在真實應用中獲得可觀的性能顯得尤為重要。

圖 1: 本文提出的 SSAH 模型框架。

在這篇論文中，研究者提出了一個全新的自監督對抗哈希（SSAH）方法來幫助解決跨模態檢索問題。具體來說，作者使用兩個對抗網路來聯合學習高維特徵和它們在不同模態下的對應哈希編碼。同時，一方面使用對抗學習來有監督地最大化不同模態之間語義關聯和特徵分布一致性；另一方面無縫添加一個自監督的語義網路，來發現多標籤標註中的語義信息。該模型的主要亮點如下：

本文提出了一個新型的用於跨模態檢索的自監督對抗哈希模型。據作者介紹，這是第一批嘗試將對抗學習應用到跨模態哈希問題的工作之一。

本文將自監督語義學習和對抗學習結合，以儘可能保留不同模態之間的語義相關性和表徵一致性。使用這種方式可以有效地打破模態鴻溝。

基於三個評測數據集的大規模實驗結果，表明本文提出的 SSAH 明顯優於當前最好的基於傳統方法和深度學習方法的跨模態哈希演算法。

本文提出的 SSAH

在不丟失通用性的同時，研究者聚焦於雙模態（即圖像和文本）上的跨模態檢索。圖 1 的流程圖可以很好地展示 SSAH 方法的一般原則。這個方法主要由三個部分組成，包括了一個自監督語義生成網路（LabNet）和兩個分別用於圖像和文本的對抗網路（ImgNet 和 TexNet）。

具體來說，LabNet 的目標設定使它可以從多標籤標註中學習到語義特徵。然後，它可以被視為用於監督兩個階段的模態特徵學習的公共語義空間。第一個階段，在公共的語義空間中將來自不同生成網路的模態特定的特徵聯繫起來。考慮到深度神經網路的每個輸出層都包含了語義信息，在公共的語義空間中將模態特定的特徵聯繫起來，可以幫助提高模態之間的語義相關性。第二個階段，把語義特徵和模態特定的特徵同時饋送進兩個判別網路。因此，在相同語義特徵的監督下，兩個模態的特徵分布最終會趨於一致。

表 2：不同方法在不同基準上的 MAP 結果。加粗內容為最高的準確率。基線方法基於 CNN-F 特徵。

表 3：不同方法在不同基準上的 MAP 結果。加粗內容為最高的準確率。基線方法基於 vgg19 特徵。

論文：Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval（用於跨模態檢索的自監督對抗哈希網路）

論文地址：https://arxiv.org/abs/1804.01223

摘要：由於深度學習的成功，最近跨模態檢索獲得了顯著發展。但是，仍然存在一個關鍵的瓶頸，即如何縮小多模態之間的模態差異，進一步提高檢索精度。本文提出了一種自監督對抗哈希（SSAH）方法。這種將對抗學習以自監督的方式引入跨模態哈希的研究，目前還處於研究早期。這項工作的主要貢獻是採用了兩個對抗網路來最大化不同模態之間的語義相關性和表徵一致性。另外，我們還設計了一個自監督的語義網路，這個網路針對多標籤信息進一步挖掘高層語義信息，使用得到的語義信息作為監督信息來指導不同模態的特徵學習過程，以此，模態間的相似關係可以同時在共同語義空間和 Hamming 空間內得以保持，有效地減小了模態之間的差異，進而產生精確的哈希碼，提高檢索精度。在三個基準數據集上進行的大量實驗表明所提出的 SSAH 優於最先進的方法。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※英特爾開源nGraph編譯器：從多框架到多設備輕鬆實現模型部署

TAG:機器之心 |