當前位置:
首頁 > 最新 > 數據挖掘在洋碼頭的風控與反作弊應用

數據挖掘在洋碼頭的風控與反作弊應用

符劼, 洋碼頭資深演算法工程師

多年機器學習研究與實踐,關注用戶行為數據對電商行業的價值,目前負責洋碼頭搜索推薦演算法平台。

本文約3000字,可參閱下面的大綱閱讀。

1. 我們對風控系統與反作弊系統的定義

2. 系統框架

3. 多元數據整合

4. 風控系統

4.1 構建用戶關係網路

4.2 風險傳遞模型計算用戶風險值

5. 反作弊系統

5.1 場景1:防止用戶非正常領取和使用優惠券

5.2 場景2:文本內容檢測屏蔽敏感詞與垃圾信息

5.3 場景3:圖片相似度檢測識別重複鋪貨商品

6. 總結

7. 參考文檔

風控系統與反作弊系統是兩個相互依賴又相互促進的子系統:風控系統計算用戶的風險值,反作弊系統判斷用戶的行為是否作弊。風控系統根據用戶歷史與當前的作弊行為計算出該用戶的風險值;反作弊系統在判斷用戶的行為是否作弊時會依賴用戶的風險值,同時結合當前的行為數據。


整個系統主要由數據層和服務層構成。業務方從服務層接入,後台運營系統同時接入服務層與數據層。

圖1. 風控反作弊系統框架圖

因為系統依賴了全站整體的數據,如交易訂單,優惠券領取,UGC內容,用戶行為,和客戶端埋點的日誌數據,所以我們對數據進行了整合,首先需要將這些散落在各個業務線的數據通過Airflow統一接入到HDFS,然後在海量數據中解析基礎數據,通過買家與買手各自的維度聚合出各類統計數據。利用整合之後的數據,構建整個系統中最為核心的用戶關係網路與風險傳遞模型,模型的預測結果作為風控系統的輸出,同時用戶作弊行為識別,用戶內容檢測,買手作弊行為識別等組成了反作弊系統。不同後台系統中會根據各自的需求,獲取風控與反作弊系統的輸出結果。


數據層由數據接入和數據計算兩個模塊構成。各個業務端使用的資料庫種類多樣,包括SQL server, MySQL, MongoDB,還有來自各個終端的日誌數據(比如App端埋點日誌)。這些數據的接入與計算統一由Airflow[1]進行調度和管理。

圖2是數據處理模塊的局部截圖,一個處理任務會有多個上游和下游數據處理任務,不同顏色的模塊表示不同類型的數據操作。使用Airflow之後,數據處理過程變得標準化和自動化,任務可以定時調度,控制執行時間,追蹤日誌,當任務失敗時會自動重試與告警。

圖2. 風控反作弊數據DAG的局部截圖


優惠券發放是電商平台提升交易量,提升用戶購買轉化的常用手段。每到大促時期更是會加大優惠券的發放量。電商在節省成本和提升用戶轉化之間需要有一個平衡,但是在沒有風控系統的情況下,往往大部分優惠券都被羊毛黨和黃牛領取,並不能提升有效用戶的轉化。洋碼頭風控系統會在用戶享受優惠服務(例如領取優惠券)之前對其進行風險評估,如果存在風險則採取降級的優惠服務,甚至不提供優惠服務。

通過大數據挖掘,我們尋找用戶與用戶之間的關係。用戶之間的關係主要通過共同使用的身份信息,如支付賬戶,設備號等進行關聯(稱為媒介)。

圖3. 用戶關係網路,其中頂點表示用戶、買手和媒介,有向邊表示關係

例如,用戶A與用戶B使用了相同支付賬號付款,用戶B又與用戶C通過同一個設備訪問洋碼頭App,這樣A便通過B,關聯到了C。通過這樣的方式關聯全網的所有用戶,就構成了用戶關係網路(圖3)。用戶與「媒介」之間有使用的關係, 用戶與用戶之間又會產生評論,關注等關係,用戶與買手之間會有購買的關係。


基於用戶關係網路,結合用戶的各個統計維度的數據,我們計算網路中每個頂點的風險值。風險值的計算主要依據以下4點:

單個節點的關聯數量

單個節點站外數據輔助

節點之間關係的強弱

單個節點站內的作弊屬性(數據由反作弊系統提供)

網路中每個頂點的風險會通過關係網路進行傳播,在傳播過程中風險分會根據邊上的屬性(使用頻次,使用時間)和傳播距離進行衰減,因此每個節點除了自身的風險分之外,還會積累他相鄰節點的風險分。整個網路包含億級的有效邊和千萬級的頂點。

基於spark graphx計算頂點的傳遞風險與聯通分量。為了防止高風險分對局部網路節點產生主導效應,我們限制了傳播距離,即每個節點風險分最遠的傳遞距離不超過2度關係的節點。最後對每個頂點的風險分進行歸一化,使風險分的範圍在0-1之間。在同一個聯通子網路中,如果包含多個高風險的頂點,可以將這個子網路中的用戶群體視為欺詐集團,其中的用戶都視被為風險用戶。


洋碼頭反作弊系統包含反欺詐和反垃圾兩大功能。典型的應用場景包括:

用戶批量註冊小號領取和使用優惠券

在社區或者商品評論區發布虛假信息,造成用戶和買手的損失

買手通過違規方式提升自己商品的曝光

下面分別介紹洋碼頭反作弊系統在這幾個典型場景中的解決方案。


在用戶領取優惠券的時候,用戶當前的風險分是判斷用戶是否作弊的必要條件,同時依據領券的頻率、次數決定是否發放優惠券。

用戶在交易中使用優惠券的時候同樣會依據以上信息,並且結合用戶下單前的行為,和買手與用戶之間的關係,判斷當前的交易是否存在刷單的嫌疑。

用戶和買手在洋碼頭上發布的內容,會經過敏感詞檢測和上下文檢測的處理,對不良信息和垃圾信息進行屏蔽。敏感詞的檢測主要依靠分詞與敏感詞庫,我們維護了5大類的敏感詞庫,分別是「涉黃、涉暴、政治、敏感」,「違反廣告法」,「違反平台規則」,「存在資金、錢款安全風險」和「違反平台其他限制」。根據不同的業務模塊,可以選擇性的配置詞庫,並且對每個業務下的詞庫區分嚴重等級,對於嚴重等級高的,就直接進行屏蔽;對於嚴重等級低的,需要結合上下文檢測處理。

上下文檢測根據已有的帶標記的垃圾信息,通過FastText[2]訓練文本向量模型。不同於Word2Vec,FastText包含了n-gram的信息,同時可以End-to-end的訓練文本分類器。

垃圾信息的特徵變化多樣,單一的從文本內容上檢測會有疏漏,在實際的運營當中發現,部分推廣營銷性質的內容,可以逃過敏感詞檢測和上下文檢測,所以在應用中還需要結合用戶行為風險分。對於高風險用戶發布的內容,我們同樣採取屏蔽的措施。


洋碼頭上存在一些買手重複上架同一個商品,對於同一個買手店中有多個相同商品同時在售,會影響用戶的體驗。簡單的文本規則篩選和人工檢查不但準確率低,而且會花費大量的人力成本。基於卷積神經網路(CNN)的圖像特徵提取,已經被證明是目前主流的方式。利用Inception[3]網路的輸出,我們構造Siamese[4]網路,採用Fine-tuning的方式訓練最後兩層的權重。模型輸入兩個商品的圖片X1和X2, 預測出商品的相似度Y.

買手上架新商品時會將該商品的圖片與該買手當前在售的商品圖片進行比對,如果經模型預測的相似度高於閾值,商品監管後台會有提示該買手疑似有重複鋪貨的作弊行為。使用了這個模型之後,商品監管後台無需人工對每個新上的商品進行圖像上的比對,減少了運營成本。

圖4. 卷積神經網路結構


6. 總結

結合洋碼頭現有的業務水平和業務需求,我們設計了基於大數據分析,以圖模型,圖計算為基礎的風控反作弊系統,同時研發文本分析模型與圖像識別模型,滿足了優惠券活動,訂單交易,買手增值服務,商品信息,社區運營等多方面的業務需求。創新的用流程化信息採集的技術,克服了傳統行業風控信息不對稱、數據維度狹窄、人工採集成本、效率低下的缺點。


7. 參考文檔

[1] https://airflow.apache.org/

[2] Bojanowski P, Grave E, Joulin A, et al.Enriching word vectors with subword information[J]. arXiv preprintarXiv:1607.04606, 2016.

[3] Szegedy C, Liu W, Jia Y, et al. Goingdeeper with convolutions[C]. Cvpr, 2015.

[4] Chopra S, Hadsell R, LeCun Y. Learning asimilarity metric discriminatively, with application to faceverification[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEEComputer Society Conference on. IEEE, 2005, 1: 539-546.

全文完

近期主題預告:

緩存技術在洋碼頭商品領域的應用

洋碼頭AB 測試系統

洋碼頭推薦系統的演進

洋碼頭自動化發布系統介紹

關注【洋碼頭技術】,第一時間獲取我們最新的技術分享推送。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 洋碼頭技術 的精彩文章:

洋碼頭技術演進之路

TAG:洋碼頭技術 |