今日頭條用了哪五種推薦演算法?資深架構師曹歡歡首次公開揭秘
1月11日,今日頭條在總部舉辦了一場推薦演算法交流會,因為報名人數遠遠超過了預期,交流會還臨時換了場地。
據介紹,阿里、騰訊、百度、美團、新浪、網易等科技公司的演算法工程師和產品經理都去了。看來大家對今日頭條到底用了什麼推薦演算法,那是相當的好奇。
在當天的交流會上,今日頭條資深演算法架構師、中國科學技術大學計算機博士曹歡歡帶來了題為《讓演算法公開透明》的分享,首次面向行業公開演算法原理。
今日頭條資深演算法架構師曹歡歡講解今日頭條演算法原理
他表示:「演算法分發並非是把所有決策都交給機器,我們會不斷糾偏,設計、監督並管理演算法模型。希望這次分享能讓更多的人理解演算法,並共同參與到演算法模型的制定中來,以改善演算法,更好的為用戶服務,讓演算法為社會創造更大的價值。」
據曹歡歡介紹,今日頭條旗下幾款產品都在沿用同一套大的演算法推薦系統,但根據業務不同,每套系統的架構會有所調整。
曹歡歡在現場的PPT里公布了頭條使用的五種推薦演算法,包括傳統的協同過濾模型,監督學習演算法Logistic Regression模型,基於深度學習的Factorization Machine,以及DNN和GBDT。
曹歡歡介紹說,現在很難有一套通用的架構模型適用於所有的推薦場景,所以很多公司會做多個演算法的組合,比如現在很流行將LR和DNN結合,甚至前幾年Facebook也是將LR和GBDT演算法做結合。今日頭條也基本是一套大演算法,根據業務不同再具體調整結構。
在解釋了演算法之後,曹歡歡進一步解密了頭條的推薦如何工作。曹歡歡表示,主要有四類最重要的用戶特徵,將會輸入給演算法,影響到推薦演算法的工作。
第一類是相關性特徵,就是評估內容的屬性和維度與用戶是否匹配。顯性的匹配包括關鍵詞匹配、分類匹配、來源匹配、主題匹配等。像FM模型中也有一些隱性匹配,從用戶向量與內容向量的核心距離可以得出。
第二類是環境特徵,包括地理位置、時間。這些既是bias(基礎)特徵,也能以此構建一些匹配特徵。
第三類是熱度特徵。包括全局熱度、分類熱度,主題熱度,以及關鍵詞熱度等。熱度信息在大的推薦系統特別在冷啟動的時候非常有效。
第四類是協同特徵,它可以在部分程度上幫助解決所謂演算法越推越窄的問題。協同特徵並非考慮用戶已有歷史。而是通過用戶行為分析不同用戶間相似性,比如點擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴展模型的探索能力。
分享過後,曹歡歡在還解答了各位對演算法的疑問,包括今日頭條如何實現冷啟動,廣告和內容該怎樣平衡,怎樣準確地拓展用戶興趣圖譜等切實的工程性問題。同時,也聽取了大家對今日頭條演算法的意見和建議。
更多內容36氪還會陸續放送……
TAG:36氪 |