當前位置:
首頁 > 最新 > 年前「封麥」直播:配對標註還原數據真實排序+慢特徵分析用於個性化推薦系統+精準營銷中的Host2vec用戶識別

年前「封麥」直播:配對標註還原數據真實排序+慢特徵分析用於個性化推薦系統+精準營銷中的Host2vec用戶識別

本周四晚,年前「封麥」公開課,3場連續語音直播!錯過這場,咱們就年後再見啦。公開課可以永久回聽,暫時沒空的小夥伴可以掃碼進入直播間收藏課程,假期學起來。

抽象數據的智能具象:配對處理讓標籤精準化

大量有標註數據的產生,是機器學習研究取得進展的重要因素。如果我給你一張「赫敏」的照片,問你「美不美?請用1-10分打分」,你可能會打滿分。但是,你的女票/男票對同一張照片會打幾分?很難說。

Emma Watson,圖片來自網路

如果我同時給你兩張照片,比如同時讓你看「赫敏」和「羅恩」的照片,讓你給出兩張照片「美不美」的相對得分,這樣是不是更好呢?如果有了很多人給出的照片相對得分,我們可以更科學地恢復出數據中隱藏的「真相」——到底誰美。

本次公開課主要介紹在眾包平台中,眾多工作者用連續變數對數據進行標註的問題。此類問題經常出現在對視頻中人物的圖像進行標註、工作面試評估、年齡估計等應用中。為了獲得較準確的標註,一般需要專業人員對這些數據進行評估。由於需要標註的數據量較大、專業人員人數少且僱傭成本高,所以通常需要求助於群眾的智慧,僱傭眾多沒有經過專業訓練的人對數據進行標註。但當有很多工作者一起對數據進行少量的標註時,工作者的偏見很難進行評估和糾正。配對打分的標註方式,可以在一定程度上降低偏見的問題。在標註的過程中,工作者一次看到一對比較對象,給出他們的偏好,基於這些偏好,我們能夠較好的恢復出原始數據的排序。

本次公開課將對比配對Ranking問題中的Fisher信息最大化無監督採樣演算法、貝葉斯信息最大化有監督採樣演算法、小世界網路演算法,嘗試小世界網路圖構造。

嘉賓介紹

曾令輝,華院數據技術(上海)有限公司演算法研究員,致力於基於人格分析的用戶智能畫像,通過對小數據的精準分析獲得用戶的人格特質,立體化深度洞察人與人的內驅差異。復旦大學計算數學專業理學博士,博士期間主要研究力學和工程中的數值代數和科學計算問題。曾任職華為,歷任無線網路研究部MBB研究部和雲核心網 NFV 研究部研發工程師,主要從事於雲計算和區塊鏈等技術在電信網路中的應用。

2月8日(周四)19:00

掃碼聽課

慢特徵分析及其在個性化推薦中的應用

慢特徵分析(SFA)是Wiskott提出的一種在快速變化的時序信號中抽取慢特徵的批量學習演算法。

我們常見的視頻、腦電波和時間序列等都屬於時序信號。什麼是慢特徵?慢特徵就是變化比較緩慢的特徵。

比如,人的感觀器官中,視網膜比較原始(能處理的信號維度少),對光線強弱的變化明顯,即隨時間變化快。而大腦處理的信號維度比較多,層次較為複雜,隨時間的變化相對比較緩慢。

本次公開課將介紹如何採取定量刻畫的方式提取慢特徵,從數學的角度進行分析,包括數學模型和輸入輸出信號的分析。

最後,我們將結合個性化推薦系統的一個案例,具體給出行為數據中的慢特徵分析方法。

為幫助大家理解此次公開課內容,大數據文摘特意採訪了公開課嘉賓徐清博士——

大數據文摘:對於從未接觸過慢特徵的小白來說,怎麼理解慢特徵比較合適?

徐博士:慢特徵就是變化比較緩慢的特徵。比如說,一段視頻中,有一隻猴子從左邊走到右邊。像素點和色塊的變化是很快的,但是物體的變化(以及視頻中是否有猴子)相對來說比較緩慢。這種變化比較緩慢的特徵抗干擾性強,比如說,稍微對像素點加點擾動,或者把彩色的變成黑白的,猴子還是猴子,但是色塊已經不是原來的色塊了。

視頻中是否有猴子,是一種慢特徵

大數據文摘:是否可以將猴子的變化理解成一種慢特徵?

徐博士:是的,視頻中出現的物體是否是猴子,以及猴子的位置,這種都是慢特徵

大數據文摘:如何判定大腦處理的高層次信息隨時間變化緩慢?

徐博士:大腦處理的信息可以用腦電實驗做出來,腦電信號的變化一般來說比像素點的變化緩慢得多。

大數據文摘:請問定量刻畫慢特徵是如何實現的?

徐博士:這也是本次公開課的重點,這方面結果國內研究和相關資料比較少,也是也比較新研究課題。在這裡先給大家透露一下,利用拉格朗日對偶法和廣義特徵值問題可以定量計算慢特徵。

嘉賓介紹

徐清,華院數據技術(上海)有限公司分維(Fra+)團隊演算法研究員,致力於研究個性化推薦技術,整合不同來源小數據打造新一代智能畫像引擎。本科與博士均畢業於復旦大學數學科學學院,研究方向是隨機控制、隨機分析與優化理論。博士期間建立了無窮時域的二次倒向隨機微分方程理論,在金融風險度量、Feymann-Kac表示等領域中有諸多應用,所寫論文Some Results on the Controllability of Stochastic Schrodinger Equations榮獲第三屆隨機系統與控制論壇優秀博士生論文獎。在校期間榮獲多次全國數學與建模競賽一等獎,三次榮獲國家獎學金,2011屆復旦大學本科生畢業之星。

2月8日(周四)19:40

掃碼聽課

新消費升級時代下機器學習在數字化精準營銷中的應用

隨著人口結構的波峰遷徙、城鎮化水平的持續提高、數字化全面滲透至生產生活的各個領域,我們迎來了新消費升級時代。在時代的大趨勢下,如何通過機器學習進行用戶識別與行為特徵分析,進而基於客戶需求及動機的深層次消費者洞察,將大數據帶來的信息更好的應用在消費場景當中,是數字化精準營銷領域一直在研究探索的課題。

本次公開課將主要介紹基於Host2vec Model快速高效的Lookalike用戶群拓展演算法,以及演算法成果在數字化精準營銷領域的評估與應用

Lookalike Machine Based on Host2vec Model

Host2vec是Word2vec方法在用戶群拓展推薦領域的遷移應用。用戶上網行為特徵序列等價於Word2vec中的word序列,同一個用戶一段時間周期內的上網特徵集可視為positive,將one-hot編碼後的海量高維稀疏的用戶online瀏覽行為,通過淺層神經網路訓練後,映射到低維稠密的向量空間中,最終得到每個上網特徵的embedding表示,即用有限維度的低維向量來表示該host(域名/IP/URL標籤/Patterns…),進而可以通過計算每個低維向量之間的相似度來衡量host之間乃至用戶之間的相似性。

相比較於傳統的用戶群拓展演算法將種子用戶標記為正樣本、備選用戶標記為負樣本、並訓練分類模型篩選備選用戶群,Host2vec方法可以大幅度減少計算時間,同時在錯誤標籤的檢測和糾錯方面也有良好的表現

以股票app用戶舉例,與同花順股票最為近似的標籤集中於金融相關的外匯、財經、基金、證券等,截圖內,中國遊戲中心也與同花順股票非常近似,實際為其旗下的德州撲克遊戲人群與同花順股票人群重合度較高,需要另外拆分標籤。

嘉賓介紹

林昱洲,華院分析DMP數據產品總監,高級數據分析師。中國人民大學統計學學士,義大利佛羅倫薩大學統計精算與金融學碩士。在數據挖掘、統計建模、大數據處理技術、互聯網精準營銷、DMP產品設計等領域有豐富的項目經驗,擅長使用R語言、Python、SAS等統計程序實現評分卡、協同過濾、文本挖掘、BP神經網路、邏輯回歸、RFM、Embedding等演算法模型。曾負責實施運營商、金融、電商等多個領域的數據分析和挖掘項目,在數據運營、精準營銷、風險評估、客戶畫像等領域有多年的市場經驗。

2月8日(周四)20:20

掃碼聽課

【今日機器學習概念】

Have a Great Defination


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據文摘 的精彩文章:

別錯過這張AI商用清單:你的生產難題可能被一個應用解決

TAG:大數據文摘 |