DataCanvas九章雲極周曉凌:流式計算實時營銷系統架構
日前,DataCanvas九章雲極首席解決方案架構師周曉凌出席互聯網大會,並發表關於企業AI構建實踐的精彩演講。作為資深的解決方案架構師,周曉凌近日從AI經典應用場景——實時營銷推薦出發,詳解實時營銷推薦系統架構思路。
打開今日頭條,查看更多精彩圖片實時營銷推薦系統中有一個難題:如何為用戶提供最佳體驗的推薦系統,並且系統能夠支持新推薦方法的快速嘗試。
實時推薦系統可以追溯到在線廣告的競價階段,也就是我們一般稱為實時競價即RTB為核心的程序化交易,通過實時計算與海量數據離線計算能力為特點目標客戶投放營銷廣告。而近幾年來實時流式計算能力的門檻大大降低使得我們可以快速搭建一套實時推薦系統。
這裡,我們將提供一個實時推薦系統的軟體架構思路,同時討論解決上述難題所需要面對的挑戰。
實時推薦系統的整體架構圖:
整體系統架構圖可以分為在線計算和離線計算兩部分。
在線計算由於是實時計算可以更好地響應用戶最新的事件和交互(例如網頁瀏覽、點擊事件、停留時長等),但由於實時響應,這限制了可以採用演算法的計算複雜性以及可處理的數據量。
離線計算對數據量和演算法的計算複雜性限制較少,但是由於用戶最新的交互數據沒有合併利用,模型的準確度以及及時性得不到保證。
因此可以看到,實時推薦系統的關鍵問題之一是如何以無縫方式組合和管理在線和離線計算及其處理的不同類型的數據和事件。
此外,還有其他需要注意的問題:
l 如果僅依靠在線計算實時響應,當在某些情況下出現無法滿足服務要求時,有沒有快速回退機制?(例如:恢復到預先計算的結果或者採用預先計算的結果來滿足要求)
l 新技術和新方法層出不窮,是否快速嘗試新演算法以支持創新?
l 如何支持事件進行更複雜的處理以支持更為豐富的業務場景?(例如:在線計算完成後緩存中間結果)
推薦系統的目標是提供個性化的營銷推薦建議,並且可以根據用戶的實時行為做出實時響應。實際的推薦結果可以直接從離線計算的列表中提供服務,也可以通過在線演算法動態生成。
為了解決以上涉及的問題點,以及綜合現實實踐經驗,我們的解決方案是使用兩者的組合,大部分中間結果採用離線計算,通過在線計算對列表進行後處理來增加新鮮度和實時性,實現統一完備的實時推薦系統。
使用離線過程預先計算部分結果或者全部結果並完成模型的訓練工作,將上下文敏感的信息採用在線計算的方式提升用戶體驗。甚至建模部分也可以採用離線/在線混合的方式完成。
例如:推薦演算法中的矩陣分解就比較適合混合在線/離線建模的方式(將計算耗時的近鄰用戶/商品矩陣的計算以離線方式預先計算並緩存,最新事件流完成實時更新推薦);無監督方法(例如聚類)離線計算獲得聚類中心和聚類分組在線完成分配;靜態標籤離線計算,動態標籤在線計算並推薦最終排序結果。
如下圖的基於標籤的實時推薦系統示意圖:
另外,無論是在線還是離線計算,都需要考慮演算法如何處理數據和事件。
在這裡我們區分數據和事件,僅僅是強調針對不同數據處理的時延差異。我們將事件視為時間敏感信息(諸如會話,設備,日期或時間的上下文數據構成),需要儘可能少的延遲進行處理。另一方面,我們將數據定義為需要處理和存儲供以後使用的信息,這部分對於延遲並不敏感。
針對不同數據有不同的存儲和計算策略,這都需要和具體應用場景和客戶環境結合起來討論。
比如在電商類環境中,除了傳統的用戶對用戶,商品對商品的推薦,也需要追蹤用戶在電商客戶端的搜索、瀏覽、加購、下單、付款等行為,提供基於行為的跨屏商品實時推薦,同時也幫助用戶提升購物決策效率。
在內容類客戶端,除了使用傳統的文本聚類、主題發現、相似度計算以外,也會通過跟蹤讀者對內容的搜索、詳情瀏覽、評論閱讀與評論交互等行為,通過自然語言處理,圖譜推理等技術實現內容推薦,實現連續的閱讀以提升產品的使用時長與用戶粘性。
DataCanvas RT實時計算平台,是國內外領先的流數據實時處理和分析平台,能夠提供風險監控、精準營銷、實時預警與事中分析等多種應用場景的實時分析。DataCanvas RT實時計算平台全面考慮實際應用的業務場景與技術指標要求,憑藉強大的數據分析處理能力,為企業提供面向未來的大數據技術和人工智慧計算架構的支撐,並為企業未來的大數據技術提供高效可靠的基礎設施。
※dyplay主動降噪藍牙耳機評測:不僅價格良心,功能也良心
※網口不足?不存在的!合勤GS1200-8交換機體驗
TAG:IT168網 |