AAAI 2018|阿里&北大提出基於注意力機制的用戶行為建模框架
本文作者:周暢、白金澤、宋軍帥、劉效飛、趙爭超、陳修司、高軍
阿里巴巴數據技術團隊與北京大學共同提出的 ATRank 是基於注意力機制的用戶異構行為建模框架,可應用於推薦系統中。值得注意的是,該方法並沒有使用 RNN、CNN 等技術,在保證優質效果的同時擁有更快的訓練速度。目前,該研究已被選為 AAAI 2018 大會 Oral 論文。
論文:ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation
論文鏈接:https://arxiv.org/abs/1711.06632
摘要:本文提出一種基於注意力機制的用戶異構行為序列的建模框架,並將其應用到推薦場景中。我們將不同種類的用戶行為序列進行分組編碼,並映射到不同子空間中。我們利用 self-attention 對行為間的互相影響進行建模。最終我們得到用戶的行為表徵,下游任務就可以使用基本的注意力模型進行有更具指向性的決策。我們嘗試用同一種模型同時預測多種類型的用戶行為,使其達到多個單獨模型預測單類型行為的效果。另外,由於我們的方法中沒有使用 RNN,CNN 等方法,因此在提高效果的同時,該方法能夠有更快的訓練速度。
研究背景
一個人是由其所表現出的行為所定義。而對用戶精準、深入的研究也往往是很多商業問題的核心。從長期來看,隨著人們可被記錄的行為種類越來越多,平台方需要有能力通過融合各類不同的用戶行為,更好的去理解用戶,從而提供更好的個性化服務。
對於阿里巴巴來說,以消費者運營為核心理念的全域營銷正是一個結合用戶全生態行為數據來幫助品牌實現新營銷的數據&技術驅動的解決方案。因此,對用戶行為的研究就成為了一個非常核心的問題。其中,很大的挑戰來自於能否對用戶的異構行為數據進行更精細的處理。
在這樣的背景下,本文提出一個通用的用戶表徵框架,試圖融合不同類型的用戶行為序列,並以此框架在推薦任務中進行了效果驗證。另外,我們還通過多任務學習的方式,期望能夠利用該用戶表徵實現不同的下游任務。
相關工作
異構行為建模: 通常通過手動特徵工程來表示用戶特徵。這些手工特徵以聚合類特徵或無時序的 id 特徵集合為主。
單行為序列建模: 用戶序列的建模通常會用 RNN(LSTM/GRU)或者 CNN + Pooling 的方式。RNN 難以並行,訓練和預測時間較長,且 LSTM 中的 Internal Memory 無法記住特定的行為記錄。CNN 也無法保留特定行為特徵,且需要較深的層次來建立任意行為間的影響。
異構數據表徵學習:參考知識圖譜和 Multi-modal 的表徵研究工作,但通常都有非常明顯的映射監督。而在我們的任務中,異構的行為之間並沒有像 image caption 這種任務那樣明顯的映射關係。
本文的主要貢獻如下:
嘗試設計和實現了一種能夠融合用戶多種時序行為數據的方法,較為創新的想法在於提出了一種同時考慮異構行為和時序的解決方案,並給出較為簡潔的實現方式。
使用類似 Google 的 self-attention 機制去除 CNN、LSTM 的限制,讓網路訓練和預測速度變快的同時,效果還可以略有提升。
此框架便於擴展。可以允許更多不同類型的行為數據接入,同時提供多任務學習的機會,來彌補行為稀疏性。
ATRank 方案介紹
整個用戶表徵的框架包括原始特徵層,語義映射層,Self-Attention 層和目標網路。語義映射層能讓不同的行為可以在不同的語義空間下進行比較和相互作用。Self-Attention 層讓單個的行為本身變成考慮到其他行為影響的記錄。目標網路則通過 Vanilla Attention 可以準確的找到相關的用戶行為進行預測任務。通過 Time Encoding + Self Attention 的思路,我們的實驗表明其的確可以替代 CNN/RNN 來描述序列信息,能使模型的訓練和預測速度更快。
1. 行為分組
某個用戶的行為序列可以用一個三元組來描述(動作類型,目標,時間)。我們先將用戶不同的行為按照目標實體進行分組,如圖中最下方不同顏色 group。例如商品行為,優惠券行為,關鍵字行為等等。動作類型可以是點擊/收藏/加購、領取/使用等等。
每個實體都有自己不同的屬性,包括實值特徵和離散 id 類特徵。動作類型是 id 類,我們也將時間離散化。三部分相加得到下一層的向量組。
即,某行為的編碼 = 自定義目標編碼 + lookup(離散化時間) + lookup(動作類型)。
由於實體的信息量不同,因此每一組行為編碼的向量長度不一,其實也代表行為所含的信息量有所不同。另外,不同行為之間可能會共享一些參數,例如店鋪 id,類目 id 這類特徵的 lookup table,這樣做能減少一定的稀疏性,同時降低參數總量。
分組的主要目的除了說明起來比較方便,還與實現有關。因為變長、異構的處理很難高效的在不分組的情況下實現。並且在後面還可以看到我們的方法實際上並不強制依賴於行為按時間排序。
2. 語義空間映射
這一層通過將異構行為線性映射到多個語義空間,來實現異構行為之間的同語義交流。例如框架圖中想表達的空間是紅綠藍(RGB)構成的原子語義空間,下面的複合色彩(不同類型的用戶行為)會投影到各個原子語義空間。在相同語義空間下,這些異構行為的相同語義成分才有了可比性。
類似的思路其實也在 knowledge graph representation 里也有出現。而在 NLP 領域,今年也有一些研究表明多語義空間的 attention 機制可以提升效果。個人認為的一點解釋是說,如果不分多語義空間,會發生所謂語義中和的問題。簡單的理解是,兩個不同種類的行為 a,b 可能只在某種領域上有相關性,然而當 attention score 是一個全局的標量時,a,b 在不那麼相關的領域上會增大互相影響,而在高度相關的領域上這種影響則會減弱。
儘管從實現的角度上來說,這一層就是所有行為編碼向一個統一的空間進行映射,映射方法線性非線性都可以,但實際上,對於後面的網路層來說,我們可以看作是將一個大的空間劃分為多語義空間,並在每個子空間里進行 self-attention 操作。因此從解釋上來說,我們簡單的把這個映射直接描述成對多個子語義空間進行投影。
3. Self Attention 層
Self Attention 層的目的實際上是想將用戶的每一個行為從一個客觀的表徵,做成一個用戶記憶中的表徵。客觀的表徵是指,比如 A,B 做了同樣一件事,這個行為本身的表徵可能是相同的。但這個行為在 A,B 的記憶中,可能強度、清晰度是完全不一樣的,這是因為 A,B 的其他行為不同。實際上,觀察 softmax 函數可知,某種相似行為做的越多,他們的表徵就越會被平均。而帶來不一樣體驗的行為則會更容易保留自己的信息。因此 self attention 實際上模擬了一個行為被其他行為影響後的表徵。
另外,Self Attention 可以有多層。可以看到,一層 Self-Attention 對應著一階的行為影響。多層則會考慮多階的行為影響。這個網路結構借鑒的是 google 的 self-attention 框架。
具體計算方式如下:
記 S 是整個語義層拼接後的輸出,Sk 是第 k 個語義空間上的投影,則經過 self-attention 後第 k 個語義空間的表徵計算公式為:
這裡的 attention function 可以看做是一種 bilinear 的 attention 函數。最後的輸出則是這些空間向量拼接後再加入一個前饋網路。
4. 目標網路
目標網路會隨著下游任務的不同而定製。本文所涉及的任務是用戶行為預測及推薦場景的點擊預測的任務,採用的是 point-wise 的方式進行訓練和預測。
框架圖中灰色的 bar 代表待預測的任意種類的行為。我們將該行為也通過 embedding、projection 等轉換,然後和用戶表徵產出的行為向量做 vanilla attention。最後 Attention 向量和目標向量將被送入一個 Ranking Network。其他場景強相關的特徵可以放在這裡。這個網路可以是任意的,可以是 wide & deep,deep FM,pnn 都行。我們在論文的實驗中就是簡單的 dnn。
離線實驗
為了比較框架在單行為預測時的效果,我們在 amazon 購買行為的公開數據集上的實驗。
訓練收斂結果如下圖:
用戶平均 AUC 如下圖:
實驗結論:在行為預測或推薦任務中,self-attention + time encoding 也能較好的替代 cnn+pooling 或 lstm 的編碼方式。訓練時間上能較 cnn/lstm 快 4 倍。效果上也能比其他方法略好一些。
Case Study
為了深究 Self-Attention 在多空間內的意義,我們在 amazon dataset 上做了一個簡單的 case study。如下圖:
從圖中我們可以看到,不同的空間所關注的重點很不一樣。例如空間 I, II, III, VIII 中每一行的 attention 分的趨勢類似。這可能是主要體現不同行為總體的影響。另一些空間,例如 VII,高分 attention 趨向於形成稠密的正方形,我們可以看到這其實是因為這些商品屬於同樣的類目。
下圖則是 vanilla attention 在不同語義空間下的得分情況。
多任務學習
論文中,我們離線收集了阿里電商用戶對商品的購買點擊收藏加購、優惠券領取、關鍵字搜索三種行為進行訓練,同樣的也對這三種不同的行為同時進行預測。其中,用戶商品行為記錄是全網的,但最終要預測的商品點擊行為是店鋪內某推薦場景的真實曝光、點擊記錄。優惠券、關鍵字的訓練和預測都是全網行為。
我們分別構造了 7 種訓練模式進行對比。分別是單行為樣本預測同類行為(3 種),全行為多模型預測單行為(3 種),全行為單模型預測全行為(1 種)。在最後一種實驗設置下,我們將三種預測任務各自切成 mini-batch,然後統一進行 shuffle 並訓練。
實驗結果如下表:
all2one 是三個模型分別預測三個任務,all2all 是單模型預測三個任務,即三個任務共享所有參數,而沒有各自獨佔的部分。因此 all2all 與 all2one 相比稍低可以理解。我們訓練多任務 all2all 時,將三種不同的預測任務各自 batch 後進行充分隨機的 shuffle。文中的多任務訓練方式還是有很多可以提升的地方,前沿也出現了一些很好的可借鑒的方法,是我們目前正在嘗試的方向之一。
實驗表明,我們的框架可以通過融入更多的行為數據來達到更好的推薦/行為預測的效果。
總結
本文提出一個通用的用戶表徵框架,來融合不同類型的用戶行為序列,並在推薦任務中得到驗證。
未來,我們希望能結合更多實際的商業場景和更豐富的數據沉澱出靈活、可擴展的用戶表徵體系,從而更好的理解用戶,提供更優質的個性化服務,輸出更全面的數據能力。
TAG:機器之心 |