推薦引擎介紹
隨著今日頭條等信息流應用的不斷火爆,各大互聯網公司都在主推信息流產品,那麼今天跟大家簡單聊聊推薦引擎的基本概念和簡單測試方法.
推薦引擎的兩大核心內容是用戶畫像和數據分類:
用戶畫像
使用信息流產品其實就是一個對其不斷進行用戶畫像的過程,用戶在APP中的操作行為,如:搜索、點擊內容、瀏覽內容、收藏內容、評論、點贊等行為都是對用戶畫像的不斷完善,通過對這些用戶行為的分析而生成用戶的偏好,然後不斷為用戶推薦高相似度內容的文章或視頻,來達到不斷增加用戶粘性的目的。用戶畫像的維護是一個循序漸進的過程,首次使用APP時會對用戶進行冷啟動,常用的冷啟動方式比較簡單,做好內容分類,然後讓用戶進行選擇興趣標籤,相信大家都經常遇到。
數據分類
主要是指對數據的處理,對於原始內容數據,我們要進行大量的數據處理,包括添加標籤,主題分類等,這些數據的處理動輒達到億級千萬級的量級,需要藉助hadoop、hive、spark、strom等工具實現。標籤的構建主要通過對文章進行分詞、通過TF-IDF等演算法找出文章可以由哪些標籤來抽象表達;主題分類由LDA模型通過spark框架計算實現,主題比如:體育新聞、it新聞、娛樂新聞等構成。
個性化推薦系統其實只是做了一件事,就是排序。通過spark、hive等工具,對離線的數據進行排序處理,排序特徵包含曝光量、點擊量、點擊率、作者權重、文章內容權重等幾十個特徵綜合進行排序。除了離線計算,現在的推薦系統也會通過實時的線上特徵對內容排序進行更新,例如對於高曝光率已經高轉化為點擊率的內容,進行降維處理,以保障其他優質內容的曝光機會。
歸根結底,推薦引擎通過將離線計算分類好的優質內容,通過用戶畫像精確地推送給用戶受眾,達到了用戶刷不停,離不開的目的。
GIF
目前對推薦引擎的測試方法主要包括離線實驗和AB測試。離線實驗是指在離線數據集上通過離線指標測算演算法的推薦效果,需要提前準備離線數據,搭建離線系統,準備成本和時間成本都比較高。AB測試大家了解的會多一些,一般給定多種策略方案,通過下放到不同的實驗桶來驗證推薦效果,這種方式實現簡單,反饋效果更快,也是目前最常見的方法。
Qtest是360旗下的專業測試團隊!
是WEB平台部測試技術平台化、效率化的先鋒力量!
TAG:Qtest之道 |