人工智慧告訴你如何組隊發文章?KDD 2018論文提出多元多類型集合的表徵學習方法
雷鋒網 AI 科技評論按:在即將召開的數據挖掘頂會 ACM SIGKDD 2018 上,聖母大學計算機系 DM2 研究團隊(DM2 Laboratory, CSE, University of Notre Dame)的論文《Multi-Type Itemset Embedding for Learning Behavior Success》被主會錄用。本文作者為聖母大學計算機系 DM2 研究團隊三年級博士生王達恆,導師是聖母大學計算機系助理教授蔣朦。
Multi-Type Itemset Embedding for Learning Behavior Success(ACM SIGKDD 2018)
DM2 Laboratory, CSE, University of Notre Dame (聖母大學計算機系DM2研究團隊)
引出問題
對於博士學生來說,如何提高科研質量和產量一直是學術生涯里的中心話題。相較於高年級的博士生而言,剛踏入科研領域的低年級博士生往往由於缺乏足夠的知識積澱與經驗,對於估計論文中稿的可能性與找出提高中稿率的辦法顯得力不從心。我自己作為一名剛剛跨過第二個學年的博士生,對這一點的體驗格外深刻。
理想情況下,當我們開始一個新的以論文發表為導向的研究項目的時候,我們希望擁有合適的研究團隊(其中包含多個技能互補的學者與專家),足夠清晰的研究問題,科學合理的研究方法,以及定位恰當的目標會議。但在現實中,我們往往很難在一開始就達到這樣的配置。那麼我們能否利用人工智慧來從大量的成功經驗(以往成功發表的論文)當中建立起預測模型來幫助我們判斷呢?更進一步地,我們是否能夠讓人工智慧演算法給我們推薦能夠提高論文中稿率的辦法呢?是否邀請自己院系當中的另外一位教授參與進來就能夠大大地提高項目成功的可能性?或者說有哪些優秀的文章值得一讀、甚至必須一讀,以提高論文中稿率?這些都是非常實用且有趣的問題。
問題難點
客觀上來說,每一篇學術論文都是一個非常複雜的行為產物,包含了多種不同類型的上下文信息。常見的成功發表論文一般會有多個作者,一些框定研究領域和具體問題的關鍵詞,大量的文獻引用,以及發表的會議信息。因此,準確地判斷一篇論文在目標會議上的命中率也是一個尤為困難的問題。而從數據中千千萬萬的備選中找出最具備技能互補性的研究者來推薦給我們,更是困難。我們需要的是一個能夠有效地表示論文行為以及其上下文信息的載體。
傳統的方法是利用矩陣或者張量分解來得到低維度的數據對象表示。也就是說,我們可以構建一個巨大的矩陣,其中包含了所有論文以及上下文項的信息,然後通過分解這個矩陣來得到論文與上下文項的低維度表示。但這這並不適用於多個上下文項屬於同一種類型的情況,例如在一篇論文中有多個作者與引用。而當我們的數據量變得更大的時候,用單個龐大的矩陣來表示整個數據集顯然也不是個高效的選擇。
表徵學習的方法為我們提供了一些較好的思路:如果我們能夠學習到論文以及其包含的上下文項的向量表徵的話,我們關心的預測以及推薦問題將會迎刃而解。值得提到的是近兩年比較流行網路嵌入學習。這些方法基於保存節點與節點之間鄰近度的思路,能夠將網中的節點快速地學習成向量表徵。當擁有了節點的向量表徵之後,我們能夠輕易地利用向量內積來運算出節點與節點之間的相似度,從而幫我們完成節點分類與邊預測等任務。但網路嵌入學習的方法並不能適用於我們的情況:我們關心的是由一組由多類型上下文項構成的論文是否能夠在未來成功發表,而不是該篇論文是否和某一個作者在網中有較高的相似度。
我們的方法
針對於這些問題,我們提出了全新的嵌入學習方法。首先,我們將所有的行為看做一個多類型集合的結構。例如一篇論文就可以被看做一個由作者、關鍵詞、目標會議、引用等四種類型組成的集合結構;其中作者、關鍵詞、引用允許有多個上下文項,而一篇論文只對應一個上下文項。
這樣,一個行為的向量表徵就可以由其包含的上下文項表徵通過加權求和得到。
我們進一步通過運算行為向量的二階模長(取雙曲正玄值)來得到一個行為的成功率。
之後,我們通過隨機梯度下降的方法來優化實際行為成功率分布於預測行為成功率分布之間的距離,最終學習得到數據集中所有行為以及上下文項的低維度向量表徵。
在這裡需要強調的有兩點:1. 我們在低維度嵌入空間中保存了行為的成功特徵(多類型上下文項集合的結構);2. 在大多數時候,我們的數據集中只包含了觀測到的成功的行為,而不包含失敗的行為數據。因此,我們也需要通過全新的負向採樣的方式來構建訓練負例。為此,我們提出了兩種創新的多類型上下文項集合負向採樣方法。
在第一種負向採樣方法中,我們要求生成的負例需要與對應的正例擁有相同的上下文項數量。這樣,我們能夠避免完全隨機採樣所造成的不合理的負例子。而很多時候,我們會發現某一些類型的上下文項帶有一些特點。例如一篇文章可以對應多個作者,但通常只對應一個目標會議。我們在此設計了我們更精細的第二種負向採樣方法:要求生成負例的時候遵循正例的類型頻率分布。這樣,我們能夠生成更近似於正例但是並不存在的負例用於訓練。
實驗結果
我們搜集了接近一萬篇公開發表的計算機領域相關論文用於實驗。
在預測任務當中,我們的模型表現優於所有網嵌入學習模型(LINE,DeepWalk,Node2Vec,Metapath2Vec)以及經典的降維模型 PCA。其中,第二種負向採樣方法(Pn)優於第一種負向採樣方法(Pt)。 而且當我們設置相對較高的權重給作者類型的時候,我們能得到整體最優的效果。
在推薦任務中,我們能得到一致的結論,我們的模型同樣優於其他模型。特別是對於相對較難的推薦作者任務和推薦引用任務(總量分別為12300與18971),我們的模型擁有更明顯的優勢。
對於我們模型的優勢,一個更直觀的方法是把測試例中真實的文章與假文章在低維度嵌入空間中可視化出來。我們可以看到左邊的真實論文向量在空間中明顯地延伸;而假論文的向量接近於原點。這樣一長一短的文章向量顯示了我們的預測模型有足夠的能力去鑒別真實論文與假論文之間的差別,從而提供準確地命中率預測給我們。
有趣的發現
另外,我們在實驗過程中也有一些有趣的發現。
我們另外從Google Scholar中搜集了測試例中真實論文的引用數量。從圖中我們能夠發現在我們模型中得到更高預測命中率的論文相較於預測命中率更低的論文明顯得到了更多次的引用。這樣的結論幾乎出現在2001至2015所有的年份當中。
最後,希望我們的發現與研究對你有所幫助。
原版論文請參照:
Wang, D., Jiang, M., Zeng, Q., Eberhart, Z., & Chawla, N. V. (2018, July). Multi-Type Itemset Embedding for Learning Behavior Success. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 2397-2406). ACM.
論文原文可移步雷鋒網AI研習社社區資源區下載。
※谷歌開源量子演算法框架Criq,有望找到量子計算機真正用途
※前有「老大哥」,後有「新勢力」,AI+教育江湖誰主沉浮?
TAG:雷鋒網 |