當前位置:
首頁 > 新聞 > 「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

新智元譯介

在介紹論文內容之外,我們特別講述了研究的緣起以及研究背後中英兩方團隊的協作方式,相信能為您帶來一定的啟發。

在新智元微信公眾號回復「IRGAN」下載論文。【新智元獨家首發】

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

作為信息檢索領域頂級學術會議,將於 8 月 7 日—11 日在東京舉行的 SIGIR 2017 上,有一篇華人研究者提交的論文以三個 strong accept 的滿分錄取,高居 362 篇論文之首。

這篇論文的題目是《IRGAN:大一統信息檢索模型的博弈競爭》(IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models)。第一作者是倫敦大學學院(UCL)長期做信息檢索(IR)方面基礎研究的汪軍教授,他學生時代的導師是 IR 界的泰斗 Stephen Robertson(概率排序原則的發明人)和當前最有影響力的教授之一 Arjen de Vries。另一位通訊作者張偉楠則主持了實驗工作,他是汪軍教授的學生,目前已在上海交大任教。這篇論文從提出設想到展開實驗,直至團隊迭代完成論文撰寫,都是中英雙方團隊通力協作的結果。在介紹了論文內容後,我們拿出了專門的篇幅,為你講述這篇論文背後的故事,希望能給中國研究者一些借鑒和激勵。

提要

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

本文提供了信息檢索建模中兩種思維流派的統一描述:聚焦於對給定查詢的相關文檔生成檢索模型,以及重點在於預測查詢文檔的相關性的判別檢索模型。我們提出了一個博弈理論式的極小化極大演算法來迭代地優化這兩個模型。一方面,旨在從標記和未標記數據中挖掘有效信號的判別模型,為訓練生成模型提供了指導,以適應在給定查詢的文檔上隱含的相關性分布。另一方面,作為現有判別模型攻擊者的生成模型,通過最小化其判別目標,以對抗的方式,生成對於判別模型來說高難度的樣本。

隨著這兩種模型之間的競爭,我們論證了,統一框架利用了兩種思維方式:(i)生成模型通過判別模型的信號學習適應文檔的相關性分布;(ii)判別模型能夠利用生成模型選擇的未標記數據來實現對文檔排序的更優評估。我們的實驗結果展現出顯著的性能優化,在網頁搜索、推薦和問答系統等各種應用中,在 Precision@5 和 MAP 上分別超越強基準演算法 23.96% 和 15.50%。

概述

信息檢索(IR)的典型方法是提供給定查詢的文檔(排序)列表。它具有廣泛的應用,僅舉幾例,如文本檢索、網頁搜索、推薦系統、問答和個性化廣告。談到 IR理論和建模,一般認為有兩個主要的思維流派。

經典的思維流派是假設在文檔和信息需求(由查詢可知)之間存在著一個獨立的隨機生成過程。在文本檢索中,信息檢索的經典相關模型聚焦在描述如何從給定的信息需求生成(相關)文檔:q → d,其中 q 是查詢(例如關鍵字、用戶信息、問題,取決於具體的 IR 應用程序),d 是其相應的文檔(例如文本文檔、商品、答案),箭頭表示生成方向。值得注意的例子包括 Robertson 和 Sparck Jones 的二進位獨立模型,其中每個單詞標記都是獨立生成的,以形成相關文檔。

文本檢索的統計語言模型考慮從文檔到查詢的逆生成過程:d → q,通常從文檔生成查詢詞(即查詢似然函數)。在詞嵌入的相關工作中,辭彙標記是從他們的上下文辭彙生成的。在推薦系統應用中,我們還看到,可以從已知的上下文項目中生成/選擇推薦的目標項目(在原始文檔標識空間中)。

現代的 IR 思想流派認識到了機器學習的力量,並轉向了從標記的相關判斷或其代表事件(如點擊或評級)中學習判別(分類)解決方案。它將文檔和查詢聯合考慮為特徵,並從大量訓練數據中預測其相關性或排序順序標籤:q + d → r,其中 r 表示相關性,符號+ 表示特徵的組合。網頁搜索的一個重大進展是學習排序(learning to rank,LTR),這是一系列機器學習技術,其中訓練目標是提供給定查詢(或上下文)的文檔列表的正確排序。

學習排序的三個主要模式是逐點的(pointwise)、成對的(pairwise)和列表的(listwise)。對於每個文獻的相關性,逐點法通過學習,逐漸逼近人類評價出的相關性;成對法旨在從任何文檔對中識別更相關的文檔。列表法學習優化每個查詢在整個排名列表上定義的(平滑)損失函數。此外,推薦系統的最新研究進展是矩陣分解,其中用戶特徵和項目特徵的交互模式通過向量內積被利用來進行相關性的預測。

雖然信息檢索的生成模型在為特徵建模(例如文本統計、文檔標識符空間分布)方面理論堅實,非常成功,但它們在利用來自其他渠道的相關性信號(如鏈接,點擊等等)方面遇到了很大的困難,這主要可以在基於互聯網的應用中觀察到。雖然諸如學習排序的信息檢索判別模型能夠從大量的標記/未標記數據中隱式地學習檢索排序函數,但是它們目前缺乏從大量未標記數據中獲取有用特徵或收集有用信號的原則性方法,特別是從文本統計(源自文檔和查詢兩方面)或從集合內相關文檔的分布中。

在本文中,我們認為生成和判別檢索模型是同等重要的,就像同一枚硬幣的兩面。受機器學習中生成對抗網路(GAN)的啟發,我們提出了一個博弈理論式的極小化極大演算法來結合上述兩種思維方式。具體來說,我們為兩個模型定義一個共同的檢索函數(例如基於判別的目標函數)。一方面,判別模型 pφ(r | q,d)旨在通過從標記數據中學習來最大化目標函數。它自然地提供了超越傳統對數似然性的生成檢索模型的替代性指導。另一方面,生成檢索模型 pθ (d |q, r ) 充當挑戰者,不斷地將判別器推向其極限。它為判別器迭代地提供最困難的情況,判別器通過對抗地最小化目標函數來重新訓練自身。

以這種方式,兩種類型的檢索模型在極小化極大演算法中扮演了比賽中的雙方,都會在每一場比賽中努力提高自己以「打敗」對手。請注意,我們的極小化極大演算法,和現有的博弈理論式的 IR 方法有根本性的不同。因為現有的方法通常是試圖為用戶與系統之間的交互建模,而我們的方法旨在統一生成式和判別式 IR 模型。

在實踐中,我們已經在三個典型的IR 應用中實現了提出的極小化極大檢索框架:網頁搜索、項目推薦和問答。在我們的實驗中,我們發現極小化極大演算法達到了不同的均衡,因此在不同的環境設定下,有不同的統一效果。通過逐點對抗訓練,生成檢索模型可以通過判別檢索模型的訓練獎勵來顯著提高。在 Precision@5 上,和幾個強基準相比,得到的模型在網頁搜索中提高了 22.56%,在項目推薦中提高了 14.38%。我們還發現,通過新的成對對抗訓練,判別檢索模型在很大程度上得到了生成檢索模型所選擇的樣本的推動,和所選擇的強力演算法相比,在Precision@5 網路搜索上提高了 23.96%,而在 Precision@1 問答任務中提高了 3.23%。

方法簡述

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

演算法1

我們提出的IRGAN解決方案的總體邏輯總結在演算法1 中。在對抗訓練之前,生成器和判別器可以通過其常規模型初始化。之後,在對抗訓練階段,生成器和判別器在等式(5)和(3)中以另外的方式訓練。

判別器和生成器是如何相互幫助的?對於positive的文檔,無論是否被觀察到了,它們由判別器 fφ(q,d) 和條件概率密度 pθ(d| q,r) 給出的相關性分數可能在一定程度上正相關。在每個訓練階段,生成器試圖產生接近判別器決策邊界的樣本,以對下一輪訓練造成迷惑,而判別器則努力對生成的樣本進行判別。由於在 positive 但 unobserved(即 true-positive)的樣本和(部分)觀察到的 positive 樣本之間存在正相關,和其他帶有來自判別器信號的樣本相比,生成器應該能夠學習更快地上推這些positive 但不可觀察的樣本。

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

圖1

為了進一步解釋這個過程,讓我們用水中的肥皂打個比方,如圖1 所示。在未觀察到的 positive 肥皂與觀察到的 positive 肥皂之間存在著潛在的連接線(即正相關性),觀察到的 positive 肥皂永久漂浮在水面(即判別器的判定邊界)上。判別器起著將浮在水面上的未觀察到的肥皂敲下水面的作用,而生成器充當選擇性地將肥皂浮上水面的水。即使生成器不能完全適應條件數據分布,也仍然可能存在動態平衡,這是在水的不同深度下,positive 和 negative 的未觀察肥皂的分布取得穩定時獲得的。由於未觀察到的 positive 肥皂與水面上的觀察到的 positive 肥皂相連接。因此總體而言,它們最後應該能夠達到比(未觀察到的)negative 肥皂更高的位置。

實驗簡述

我們的實驗對應於我們提出的 IRGAN 的三個現實世界的應用,即網頁搜索、推薦系統和問答系統。由於三個應用程序中的每一個都有自己的背景和基線演算法,所以我們的實驗分為三個子部分。我們首先在網頁搜索的單個任務中測試 IRGAN-pointwise 和 IRGAN-pairwise 方法; 然後在排序偏差不太關鍵的項目推薦任務中進一步對 IRGAN-pointwise 進行了研究。我們又在排序偏差更為關鍵(通常只有一個答案是正確的)的問答任務中對 IRGAN-pairwise 進行了測試。

結論

在本文中,我們提出了 IRGAN 框架,通過在極小化極大演算法中的對抗性訓練來統一兩種信息檢索方法學派,即生成模型和判別模型。這種對抗性訓練框架利用了兩個學派的方法學:(i)生成式檢索模型受從判別檢索模型獲得的信號引導,這使得它比非學習方法或最大似然估計方案更有利;(ii)可以通過策略性地讓生成器的提供 negative 樣本,增強判別式檢索模型,從而更好地為文檔排序。總體而言,IRGAN 提供了一個更加靈活和有原則的訓練環境,結合了這兩種檢索模型。在四個現實世界數據集上,對三個典型的 IR 任務(即網路搜索、項目推薦和問答)進行了廣泛實驗。在每組實驗中都觀察到了顯著的性能提升。

儘管 GAN 的實踐取得了巨大的成功,但仍有許多問題需要研究人員回答。 例如,現在還「不完全清楚」為什麼 GAN 可以產生比其他技術更清晰的逼真圖像。我們在提出的 IRGAN 框架中對信息檢索的對抗性訓練的探索表明,根據任務和設定,最終可以達到不同的均衡。在 IRGAN 的逐點(pointwise)方法版本中,生成檢索模型比判別檢索模型得到了更多改進,但在 IRGAN 的成對(pairwise)方法中我們得到了相反的觀察。 這肯定有待進一步研究。

未來,我們將進行更多的基於實際數據集的進一步實驗。我們還計劃擴展我們的框架,並對詞標記的生成進行測試。一個可能的研究方向是探索從 IRGAN 生成檢索模型中學習詞加權方案,然後在此基礎上導出新的特徵排序。此外,語言模型可以隨著GAN 訓練重新定義,其中可能會出現新的有用的詞模式。

滿分論文背後的故事

1.生成式和判別式,信息檢索兩大學派

信息檢索界一直有兩大學派。經典的方法以生成模型為主,大名鼎鼎的概率排序原則(Probabilistic Ranking Principle)和 搜索語言模型(IR Language Model),以及汪軍教授(本文的第一作者)的組合排序原則(Portfolio Ranking Principle),其實都是需要生成模型具體量化每個文檔對檢索關鍵字的相關度。受機器學習影響,近年有利用大量數據集,通過判別模型訓練排序的方法,其中包括,learning to rank 和神經網路的方法。但是兩大學派都有優缺點,怎樣提供一個大一統的方法一直是沒有解決的問題。

2012 年的 9 月底,張偉楠提著行囊遠赴英國倫敦汪軍教授處求學。汪軍教授在倫敦大學學院(UCL)長期做信息檢索(IR)方面的基礎研究,他學生時代的導師則是 IR 界的泰斗 Stephen Robertson(概率排序原則的發明人)和當前最有影響力的教授之一 Arjen de Vries。

其實關於 IRGAN 的大致思想,汪軍和張偉楠很早就已經討論過。因為通過生成器作為一個很強的帶策略的負採樣器,肯定能夠幫助判別式的排序模型提高頭部文檔的排序效果,這個現象在他們撰寫一篇 SIGIR 2013 的文章時,兩人就已經明確發現。GAN 出來以後,汪軍一注意到這個對抗訓練框架,就立馬想到 GAN 可能用來幫助生成式的 IR 模型直接挑選文檔(不用做文檔排序),甚至生成新的文檔,從而達到了統一生成模型和判別模型的目的。不過這個點子一直處在初步思考中,並未成熟。

2.中英團隊的合作速度

2016 年 12 月初,已經在上海交大任教的張偉楠突然接到汪軍的電話,此時他遠在西班牙出席當年的 NIPS,聽了 Ian Goodfellow 的 GAN tutorial。一時間,關於用 GAN 來融匯 IR 界的兩大派別的解決方案清晰地出現在他的腦中,並且推導出來。理解了 IRGAN 的思路之後,張偉楠立即聚集了交大致遠工科的大三學生於瀾濤和計算機系研三學生龔禹開展實驗工作。龔禹其實已經加入阿里巴巴徐盈輝博士的研究團隊。為了能加強交流,張偉楠直接讓他倆搬進了自己的辦公室,開始了快速迭代開發。後來汪軍又聯繫了天津大學的張鵬教授和他的學生王本友加入項目,團隊兵分三路分別在網頁排序、個性化推薦、問答系統方面驗證 IRGAN 的有效性。而在英國的汪軍和 Dell Zhang 教授則著手開始論文的撰寫工作。

汪軍說:「現在做計算機的研究再也不能單兵作戰了,需要一個強大的團隊做支撐,工程和數學都要擅長。我不得不說,我們中國研究團隊是十分優秀並且令人佩服的。於瀾濤和龔禹同學之前都已發表過 AAAI 論文,而王本友同學也在 IR 領域有多篇 SCI 以及 CIKM 論文。這些科研經驗讓他們在快速迭代 IRGAN 的實驗中做出了更好的判斷。更讓我感到吃驚的是,他們的工作勤奮到令人不敢想像的程度。正是因為他們的勤懇,IRGAN 繁重的實驗工作才能在 4 周內全部完成。」

偉楠補充道,「作為小老闆的我們也絲毫沒有懈怠。我和瀾濤龔禹朝夕相處,快速迭代實驗開發以及論文的撰寫。徐盈輝博士則直接從杭州趕到上海交大和我們詳談了論文和實驗的每個細節。在無數次電話會議中就明顯感到,徐博士是 hard-core 的 IR 資深研究者,在建模方面為我們出了很多力。天大張鵬教授長期研究 IR 和 QA 方面的課題,他保證了 QA 這一路的實驗推進順利,並和我們配合修改了論文。」

SIGIR 的截稿日期在 1 月 25 日,兩天後就是大年除夕。在拼到最後幾天的時候,校園裡早已是人去樓空,學生們開始有些急躁,張偉楠則和他們在交大咖啡廳喝下午茶,忙裡偷閒地把心靜下來。而張鵬教授則直接幫學生買好了回家的機票,讓他們沒有後顧之憂。

汪軍說,「中英團隊之間的 8 小時時差對我們快速迭代是有利的,英國的工作在深夜結束後,直接提交給中國的團隊(已經是中國的第二天清晨)。中國的團隊結束後,又可以交給英方。我們基本上是 24 小時不停的快速迭代,保證工作的質量和速度。」

「SIGIR2017滿分論文」IRGAN:大一統信息檢索模型的博弈競爭

圖2

整個團隊8個人在 bitbucket 上面提交論文 latex 修改,藉助 git 強大的修改 merge 功能,我們總是能多人並行迭代論文工作。在最後的 1 月 24 日那一天,我們的提交次數就超過了 200 次,這個項目的總提交數則在 550 次。

3. 論文接收與後記

在 2017 年 4 月的一天, IRGAN 論文以三個 strong accept 的滿分錄取,高居 362 篇論文之首。IRGAN 的微信群自然也是歡聲笑語一片。

IRGAN 的成功錄用只是研究的開始。之前汪軍和張偉楠課題組已經合作發表了一篇生成離散文本序列的 SeqGAN 工作。汪軍說:「GAN 算是一個雙智體群體智能,以對抗為主。我們之前在離散數據的判別和生成方面有一定的研究基礎。離散數據的生成方面很可能需要藉助強化學習,這激發我們往多智體強化學習方向進一步探索。」

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

新智元創始人楊靜:中國人工智慧超美?遠著呢
貝葉斯生成對抗網路(GAN):當下性能最好的端到端半監督/無監督學習
蘋果押寶無人車和增強現實,開發神經引擎AI專用晶元
UC 伯克利為 AI 植入好奇心,探索能力超過 AlphaGo 蒙特卡洛樹搜索
CMU機器學習新星王宇翔加盟聖巴巴巴拉加州大學計算機系任助理教授

TAG:新智元 |

您可能感興趣

為損失函數定個框架,碼隆CVPR 2019提出圖像檢索新範式
SIFT與CNN的碰撞:萬字長文回顧圖像檢索任務十年探索歷程
GPDR條例和視頻檢索論文閱讀
Google AI地標檢索識別競賽雙料獲勝方案 | 飛槳PaddlePaddle開源
解密美圖大規模多媒體數據檢索技術 DeepHash
韓國專利檢索系統之KIPRIS檢索系統
《ProduceX101》「曹承衍」等成韓青少年實時檢索熱詞
Creative Commons搜索引擎正式上線 可檢索超3億張圖片
J-Plat Pat檢索系統界面操作
翻譯記憶庫檢索與交換平台「Tmxmall」獲1800萬元A輪融資 思科爾投資領投
AI醫療開創性研究:深度學習進行病變檢索和匹配(31 PPT)
SCI檢索方法及SCI分區情況查看
16歲Kaggle老兵奪冠Kaggle地標檢索挑戰賽!
哈希檢索之Feature Learning based DPSH with Pairwise Labels
如何在 MacOS的Dropbox里Spotlight 全文檢索 epub 電子書
Chrome擴展推薦:瀏覽器第二大腦,全文檢索已瀏覽過的網頁
微軟公布全球第一個自動DNA數據存儲和檢索系統
「EXO」「分享」190723 伯賢是愛麗私生實錘,只要聯網一定先去檢索自己的名字
Hibernate複習之Hibernate 檢索策略
機器之心論文解讀:可用於十億級實時檢索的循環二分嵌入模型(RBE)