當前位置:
首頁 > 最新 > 短視頻流失預警

短視頻流失預警

一、簡介

用戶的生命周期大致劃分4個階段,拉新,活躍,留存付費,流失。目前互聯網的人口紅利也算是到了瓶頸期,怎樣好好的留下自己的用戶,防止用戶的流失也是一個大的課題。對於演算法來說不能改變產品本身的形態,但是我們可以利用數據,機器學習的方法來預測流失用戶。通過歷史的數據我們可以先驗的知道產品本身的活躍留存情況,基本每個產品都有自己的數據指標體系(活躍,新增,留存,付費,點擊流信息等)。結合已有的數據,提取數據特徵,然後進行預測,及時發現潛在的流失用戶,然後可以做定向的營銷和挽回

二、背景

針對某業務用戶活躍度下降、沉默用戶比例較高的業務現狀,著手建立高潛流失

用戶預警及挽留機制,以期提升用戶留存,拉動活躍,「防患於未然」。而落腳

點則是建立一套流失預警的分類模型,預測用戶的流失概率

三、業務場景梳理

某短視頻app,日活達到千萬級別,增長達到一定的瓶頸期,相比之前日留存開始有所下滑,為了防止用戶流失,增強用戶的粘性,提高用戶的體驗,深度挖掘用戶的行為,了解用戶流失原因。增對相應的點進行優化。對於會流失的用戶儘可能的做用戶挽留。

四、樣本選取

為了進行模型訓練,我們需要歷史數據中的流失用戶與留存用戶。但2億多的用戶量用來訓練數據量太大,

為了快速又準確的進行模型訓練,我們選擇對用戶進行抽樣。

在抽樣的時候,正負樣本的比例選擇是很重要的。一般選擇正樣本:負樣本是介於0.1和1之間,實際中根

據業務實際場景有所不同。例如在上面這個場景中,我們可以看到流失用戶與留存用戶的比例大致是1:2,

就可以在抽樣時按照這種比例來進行。這樣之後模型預測時預測出的高流失用戶也會是總體的1/3,與實際

情況接近

確定完正負樣本比例後,一個最基本的問題:什麼樣的用戶屬於正樣本,什麼樣的屬於負樣

本?也就是這裡的流失用戶我們如何定義的問題。究竟用戶多久不來就算流失呢?我們可以用數據探索的

方式來得到答案。

我們想知道周期取多久時,用戶會在第一個周期流失後,第二個周期仍然繼續流失。於是做了一些統計,

最終發現,約70%的用戶在流失一個月後,第二個月仍然繼續流失。那麼,流失的周期定為一個月是比較合

適的。

這樣,我們將一個月定為抽樣時間,抽取用戶4月有上傳視頻而5月沒有上傳視頻的用戶,控制正負

樣本比例為1:5,流失用戶100w,未流失用戶500w。採取隨機抽樣的方式進行採樣

五、特徵選取

特徵一般分為:用戶自然特徵,item特徵,用戶行為特徵。在本案例中,由於相冊上傳視頻屬於一

種行為,所以考慮加入行為趨勢變化特徵。

這裡我將特徵分為兩大類:一類是指標類特徵,這些特徵是用戶當月狀態或行為的統計值;另一類

是趨勢類特徵,這些特徵是在行為指標類基礎上,與前一個月,前兩個月,甚至前一個季度的數據進行比

較得到的數值。

對於視頻本身,上傳視頻主要分為發表帶圖說說和視頻上傳。視頻上傳又分為普通視頻。故每種指標類特徵和趨勢類特徵都是計算了不同類別下的統計值成為新特徵

六、模型的選擇與評估

有監督的分類問題有很多種模型都可以選用,這裡選用了LR模型(邏輯回歸)。如果特徵眾多而不知道哪

些是有影響的特徵可以用XGBOOST模型。這裡因為特徵構造與選擇是在熟悉業務邏輯上完成的,所以就直接

LR了。

使用LR模型前,需要先將特徵進行歸一化處理。這裡對於用戶畫像類特徵,選取的是0 or 1的離散化處

理。對於連續類指標特徵和趨勢特徵,使用的歸一化方法是log函數以上完成後,進行模型的訓練,訓練結果將會給出各個特徵的權重。權重為正的特徵代表對於流失有正向影響,且值越大影響越大;權重為負的特徵代表對於流失有負向影響,且絕對值越大影響越大。

同時模型會輸出AUC,準確率召回率等信息,這個用來評估模型的效果。同時還會輸出閾值,在之後

的模型預測中,得分大於閾值的用戶就被判定為高流失用戶

七、改進和意見

1. 在本案例中訓練時正負樣本比例結合實際應該選為1:2比較合適,也會提升模型的效果。

2. 特徵沒有進行共線性的檢測與特徵篩選工作,比如登錄天數,次數,時長這三個特徵,極有可能

存在共線性。

3. 可以嘗試其他的模型來做,比較效果選最優。

4. 在短視頻這個業務場景中,周期選為一個月可能有些太長。可以做成按周來預測

資料和代碼


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 小樹大數據 的精彩文章:

TAG:小樹大數據 |