如果你在研究CTR預估，希望對你有用

科技 02-12

最近開始接觸 CTR 預估，在極客時間上訂閱了一個視頻課程，《深度學習應用實踐 60 講》，第一部分就是深度學習在 CTR 預估任務中的應用。講師是張俊林，新浪微博 AI Lab 資深演算法專家，曾在阿里巴巴、百度、用友任職資深技術專家和技術總監。這個課程是線下課程的錄播視頻，可以看到老師講課的實際場景。張老師講課思路清晰，循循善誘，聽起來很容易懂，我自己非常受益，把前面的一節整理出來，如果你也正在研究 CTR 預估，希望對你有用。

什麼是 CTR 預估任務？

張老師解釋得很直白，CTR 預估就是這樣的任務：給定用戶（User），給定一個商品（Product），給定了一定的環境，來看用戶會不會買這個商品，買商品的概率有多高；或者說給用戶推薦一個電影，用戶會不會看這個電影，看的概率有多高。

我想，這個任務理解起來很容易，但是知易行難，怎麼實現才是最關鍵的。

CTR 預估有哪些應用場景？

了解了定義，就要看看 CTR 預估都會用在哪裡了。

CTR 預估比較通用，所以它的應用範圍就非常廣，張老師舉了 3 個例子，分別是計算廣告、推薦系統和信息流排序。

計算廣告是比較典型的 CTR 預估應用場景，比如有很多廣告，哪些廣告用戶會點呢？

推薦系統有很多方法去做，但是這個問題也可以轉化成 CTR 預估的一個任務。比如豆瓣的電影推薦，你推薦的電影用戶會不會去看？著就是一個典型的把推薦問題轉換成 CTR 預估任務的例子。

這裡就要訓練一個模型，X 代表訓練數據的輸入，Y 代表輸出，Y 的取值是 1 到 5，1 代表用戶極度不喜歡這個電影，絕對不可能看，5 代表用戶非常喜歡這個電影，肯定會看。訓練這個模型的關鍵在於 X，也就是輸入特徵。可以把輸入分成幾類特徵，比如用戶 ID，電影 ID，過去給哪些電影打過什麼樣的分，什麼時間打的等等。

信息流最近兩年比較火，包括百度、頭條、微博都在做信息流。信息流是幹什麼呢？老師舉了一個微博場景下的例子。比如你在微博關注了很多人，他們會有很多信息發布出來，那麼優先給你展示哪些內容你可能會點呢？這就涉及到怎麼為那些推送給你的信息流進行重新排序。

CTR 預估有哪些典型特徵？

CTR 預估有三大特徵，第一個就是具備大量的離散特徵。什麼是離散特徵？對比連續特徵一起來看就很容易理解。拿上面電影推薦的例子來說，對看過電影的打分就是連續特徵，什麼時間打的就是離散特徵。具體來說，假設給電影打分的範圍是 0 到 1 之間，打分這個特徵就是在這個區間裡面，什麼值都可能，這就叫連續特徵；對比來看，打分的時間，就是 1 到 24 個小時裡面取一個，這就叫離散特徵。

第二個特徵是存在大量高維度的稀疏特徵。從上面例子里的用戶 ID 來看，什麼叫高維度呢？假設有一億用戶，那就是一億維的，所以叫高維度；什麼叫稀疏呢？就是一億維裡面只有一個位置是 1，其他全是 0，這就是稀疏。原來，我常常聽到的系統百億級特徵量是這麼來的，之前是真的覺得很玄。

第三個就是特徵工程很重要，特徵組合對於效果很關鍵。什麼叫特徵組合呢？就是兩個特徵組合起來效果會非常明顯。比如說一個人的性別是一個特徵，買商品的時間是另外一個特徵，那「性別」+「時間」這兩個特徵組合起來，就是非常強的預測用戶會不會買東西的一個組合特徵，比如女性在雙十一的晚上一定是購買概率相當高。

特徵工程很重要，那麼特徵挖掘一般都做什麼呢？挖掘特徵包含兩類工作，一類就是找出以前沒有用到的單一特徵；第二類就是找有效的組合特徵。

最後，用一張圖總結一下這一節的內容。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 InfoQ 的精彩文章:

※大齡程序員都去哪了？
※為什麼學了那麼多門語言，我還是編不好這段代碼

TAG:InfoQ |