IJCAI 2018廣告演算法大賽落下帷幕,Top 3 方案出爐
雷鋒網 AI 研習社消息,IJCAI-18 阿里媽媽搜索廣告轉化預測比賽近日落下帷幕,本次比賽為阿里媽媽與 IJCAI2018、天池平台聯合舉辦,總獎池 37000 美元,共吸引到 5204 支隊伍參賽。
此次比賽提供了廣告點擊相關的用戶(user)、廣告商品(ad)、檢索詞(query)、上下文內容(context)、商店(shop)等信息,參賽選手需要在這些條件下預測廣告產生購買行為的概率(pCVR),形式化定義為:
pCVR=P(conversion=1 | query, user, ad, context, shop)
主辦方希望在考慮到用戶行為偏好、商品長尾分布、熱點事件營銷等一系列因素的前提下,利用海量交易數據準確高效地預測用戶購買意向。此次比賽設置了如下兩類挑戰:
日常的轉化率預估
特殊日期的轉化率預估
目前,比賽結果已經出爐。雷鋒網看到,來自京東尚科,天池代號為「plants」的選手獲得冠軍,IJCAI-17 冠軍團隊獲得者周耀、郭鵬博以及李智獲得季軍,浙江工業大學陳波成、中南大學羅賓理和天津大學吳昊組成的「躺分隊」獲得第三名,作為前三名中唯一一支學生團隊,他們的比賽方案也已經出爐。
在方案中,他們主要討論了異常日期處理問題,主要思路如下:
難點與挑戰
這次比賽的難點有二,一是如何在正常流量數據中,找到適合表達促銷/突變的特徵;二是如何在模型選擇上,找到儘快落地於工業界的輕量級框架。
分析數據
訓練數據為 8 月 31 日- 9 月 7 日上午,需要預測 9 月 7 日下午的用戶點擊率,8 月 31 日-9 月 5 日轉化率穩定,但 6 日下降,7 日猛增,推測 7 日為大促節日。
對於異常日期處理而言,僅僅考慮前六天的轉化率和第七天的高轉化率是不太適合的,如何處理第七天的轉化率異常是這道題需要解決的一大痛點。
四種訓練集劃分
針對此問題,他們根據對數據的分析、特徵的構建、以及對實際場景的思考,提出了四種訓練集劃分:
1. 全量統計特徵提取第七天特徵——all-to-7
2. 全量數據的抽樣統計——sample
3. 單獨第七天的特徵提取——only7
4. 全量數據——all
構造四種訓練集劃分的目的如下:
1)構造出訓練集中的差異性,方便模型融合
2)在每組訓練集中,對高維特徵進行選擇,選擇後進行特徵分組
特徵工程:
首先執行如下三步操作:
上述基礎特徵分列
去掉取值變化小的列
去掉缺失值過多的列
分析過程如下:
特徵工程總覽如下:
特徵選擇
特徵選擇的方法有如下2點:
1)羅賓理同學在GitHub的開源代碼,參照糖尿病精準醫療大賽的特徵選擇,地址如下:
https://github.com/luoda888/tianchi-diabetes-top12/blob/master/README.md
以及利用貪心、模擬退火演算法,構造出多組特徵,適用於組內模型融合。
2)利用 Std/Mean 訓練集測試集分布一致的思想,進行特徵選擇,保證線上線下特徵的一致性。
模型選擇及融合
分組後對不同的模型進行訓練,構造組內特徵的差異性,模型的差異性 。
他們選擇的方法有 Xgboost/Lightgbm/GBDT+LR/Catboost/NN 模型
在 NN 模型里,使用對多個模型求 Average 的方法,使用的模型如下:
DeepFM/DeepFFM (原始 ID 特徵放入交叉層) 與 Lightgbm 線下差距 0.0001 (千分點)
AFFM/AFM (對原始 ID 特徵加入 Attention) 與 Lightgbm 線下差距 0.00001 (萬分點)
FNN/FFNN/NFM (將特徵工程後放入網路結構) 與 Lightgbm 線下差距 0.0001 (千分點)
將上述模型按對該組訓練集的數據敏感性訓練後加權,得到該組 NN 的結果 Ans_nn。每組特徵都可以放入上述五個模型中,即組內選擇出的特徵數 n 乘以組內模型數 m 即為該組模型的數量 = n*m。根據模型間的相關性,分配不同的權重進行加權融合,得到該組的答案 Ans_k。
接下來,在組間訓練集中,對每組的 Ans_k 進行加權融合得到 Ans_final,然後利用前六天的上下午,每小時均值的變化趨勢,線下預測出線上可能的均值,為 0.036287135,最後對 Ans_final 做 Logit 逆變換。
模型融合框架如下:
對比賽的總結有如下三點:
1)對促銷時期應考慮變化特徵
2)合理的特徵提取框架是致勝之道
3)多模型的融合提升精度較多
方案詳情:https://github.com/luoda888/2018-IJCAI-top3
比賽官網:https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.11163580.0.0.4f5564f0sOZqnA&raceId=231647
雷鋒網 AI 研習社編輯整理。
※谷歌 AI:語義文本相似度研究進展
※5G第一版標準凍結不到24小時 首個異廠商新空口實現互通
TAG:雷鋒網 |