當前位置:
首頁 > 科技 > 如果你在研究CTR預估,希望對你有用

如果你在研究CTR預估,希望對你有用

最近開始接觸 CTR 預估,在極客時間上訂閱了一個視頻課程,《深度學習應用實踐 60 講》,第一部分就是深度學習在 CTR 預估任務中的應用。講師是張俊林,新浪微博 AI Lab 資深演算法專家,曾在阿里巴巴、百度、用友任職資深技術專家和技術總監。這個課程是線下課程的錄播視頻,可以看到老師講課的實際場景。張老師講課思路清晰,循循善誘,聽起來很容易懂,我自己非常受益,把前面的一節整理出來,如果你也正在研究 CTR 預估,希望對你有用。

什麼是 CTR 預估任務?

張老師解釋得很直白,CTR 預估就是這樣的任務:給定用戶(User),給定一個商品(Product),給定了一定的環境,來看用戶會不會買這個商品,買商品的概率有多高;或者說給用戶推薦一個電影,用戶會不會看這個電影,看的概率有多高。

我想,這個任務理解起來很容易,但是知易行難,怎麼實現才是最關鍵的。

CTR 預估有哪些應用場景?

了解了定義,就要看看 CTR 預估都會用在哪裡了。

CTR 預估比較通用,所以它的應用範圍就非常廣,張老師舉了 3 個例子,分別是計算廣告、推薦系統和信息流排序。

計算廣告是比較典型的 CTR 預估應用場景,比如有很多廣告,哪些廣告用戶會點呢?

推薦系統有很多方法去做,但是這個問題也可以轉化成 CTR 預估的一個任務。比如豆瓣的電影推薦,你推薦的電影用戶會不會去看?著就是一個典型的把推薦問題轉換成 CTR 預估任務的例子。

這裡就要訓練一個模型,X 代表訓練數據的輸入,Y 代表輸出,Y 的取值是 1 到 5,1 代表用戶極度不喜歡這個電影,絕對不可能看,5 代表用戶非常喜歡這個電影,肯定會看。訓練這個模型的關鍵在於 X,也就是輸入特徵。可以把輸入分成幾類特徵,比如用戶 ID,電影 ID,過去給哪些電影打過什麼樣的分,什麼時間打的等等。

信息流最近兩年比較火,包括百度、頭條、微博都在做信息流。信息流是幹什麼呢?老師舉了一個微博場景下的例子。比如你在微博關注了很多人,他們會有很多信息發布出來,那麼優先給你展示哪些內容你可能會點呢?這就涉及到怎麼為那些推送給你的信息流進行重新排序。

CTR 預估有哪些典型特徵?

CTR 預估有三大特徵,第一個就是具備大量的離散特徵。什麼是離散特徵?對比連續特徵一起來看就很容易理解。拿上面電影推薦的例子來說,對看過電影的打分就是連續特徵,什麼時間打的就是離散特徵。具體來說,假設給電影打分的範圍是 0 到 1 之間,打分這個特徵就是在這個區間裡面,什麼值都可能,這就叫連續特徵;對比來看,打分的時間,就是 1 到 24 個小時裡面取一個,這就叫離散特徵。

第二個特徵是存在大量高維度的稀疏特徵。從上面例子里的用戶 ID 來看,什麼叫高維度呢?假設有一億用戶,那就是一億維的,所以叫高維度;什麼叫稀疏呢?就是一億維裡面只有一個位置是 1,其他全是 0,這就是稀疏。原來,我常常聽到的系統百億級特徵量是這麼來的,之前是真的覺得很玄。

第三個就是特徵工程很重要,特徵組合對於效果很關鍵。什麼叫特徵組合呢?就是兩個特徵組合起來效果會非常明顯。比如說一個人的性別是一個特徵,買商品的時間是另外一個特徵,那「性別」+「時間」這兩個特徵組合起來,就是非常強的預測用戶會不會買東西的一個組合特徵,比如女性在雙十一的晚上一定是購買概率相當高。

特徵工程很重要,那麼特徵挖掘一般都做什麼呢?挖掘特徵包含兩類工作,一類就是找出以前沒有用到的單一特徵;第二類就是找有效的組合特徵。

最後,用一張圖總結一下這一節的內容。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 InfoQ 的精彩文章:

大齡程序員都去哪了?
為什麼學了那麼多門語言,我還是編不好這段代碼

TAG:InfoQ |