IJCAI 2018國際廣告演算法大賽遷移學習奪冠，中國包攬冠亞季軍

科技 06-11

來源：IJCAI-18阿里媽媽國際廣告演算法大賽

編輯：文強

【新智元導讀】IJCAI-18阿里媽媽國際廣告演算法大賽本周結束，來自中國的團隊包攬了冠亞季軍。冠軍方案採用了遷移學習的方法，核心代碼只有一頁。

IJCAI 2018阿里媽媽國際廣告演算法大賽本周圓滿結束，有來自50多個國家和地區的6000多名選手組成的5300多支隊伍參賽（有700多名來自國外）。

中國團隊包攬了前三名。

實際上，進入決賽的8支隊伍均來自中國。

這代表了中國在整個互聯網演算法，在大數據、人工智慧相關的研發中已經跟國際同步，甚至有所超前，阿里媽媽副總裁張勤在決賽答辯的致辭中說。

目前，各大公司紛紛舉辦演算法大賽，提供數據、工具和真實的業務場景，吸引在學術界和工業界的頂尖人才。

谷歌收購Kaggle，微軟收購Github，其中一個很大的因素，都在於後者所保有的開發者。

演算法大賽本身，就是一場更大背景下的競賽。

廣告預估演算法：價值千億美元的學術問題

IJCAI與阿里有多年的大賽合作歷史。IJCAI全稱International Joint Conference on Artificial Intelligence，是人工智慧領域最好的學術會議之一，涵蓋機器學習、計算可持續性、圖像識別、語音技術、視頻技術等內容，在學術圈中享有很高聲譽。

最近幾年，IJCAI都會與阿里巴巴集團聯合舉辦機器學習比賽，已經成為保留項目。阿里通過IJCAI的平台吸引更多的人關注阿里，IJCAI則通過阿里大賽吸引更多人關注和支持IJCAI，這是一個雙贏，IJCAI大會代表、悉尼科技大學數據科學學院院長張成奇教授說。

今年的大賽與阿里媽媽合辦，於2月初正式啟動，是參賽人數最多，覆蓋範圍最廣的一屆——除了南極洲，其他6個大洲都有選手報名。

截止今年4月的報名情況，選手覆蓋範圍非常廣

這屆演算法大賽的主題是廣告。

在當前的互聯網生態系統，搜索廣告是最常用的營銷方法之一。廣告商為產品設置幾個關鍵字，然後將產品推薦給搜索了這些關鍵字的用戶。據統計，截止 2017年底，搜索廣告的總收入已經超過1000億美元，占互聯網廣告總收入的50％以上。搜索廣告也為大多數互聯網公司，比如Google和Facebook，貢獻了大部分的收入。

搜索廣告以也其巨大的商業價值和研究價值，吸引了大量的專家學者，在學術界得到了廣泛的研究。

本次比賽以阿里電商廣告為研究對象，使用阿里媽媽提供的海量真實交易數據，構建預測模型，預估用戶的購買意向，也即廣告的轉化率。

電商平台作為一個複雜的生態系統，其中的用戶行為偏好、商品長尾分布、熱點事件營銷等因素，都是轉化率預估要解決的難題。

大賽的評審告訴新智元，這種業務場景的不同，對於參賽著的挑戰是不一樣的；不同於傳統搜索引擎中關注文本相關性，在購物場景下，模型需要對用戶意圖有更好的理解。因此，參賽者必須充分分析用戶的行為特點，在特徵設計和提出上有更多的創新。

本次大賽阿里媽媽拿出了用戶在交易場景中的真實數據，含有用戶真正的序列化的購物行為。初賽的數據集近60萬，決賽超過1000萬。

冠軍技術分享：用遷移學習方法做廣告轉化預測

6月5日，進入決賽的8支隊伍在杭州阿里巴巴總部做了最終答辯。

選手的平均年紀不到25歲，來自高校和產業界的都有，比例大約一半一半。根據賽前調查，大部分人參與的原因是出於興趣和鍛煉自己，當然也有人明確表示，是希望畢業後進入阿里媽媽就職。

上海交通大學助理教授張偉楠、國家科技部雲計算專家組成員 / 天壤智能創始人及 CEO 薛貴榮、阿里巴巴研究員吳波、阿里巴巴資深演算法專家楊紅霞、阿里媽媽資深演算法專家劉凱鵬等作為評委出席了答辯。

大賽評委表示，整體看，這次比賽大部分的方案都有比較強的系統性。選手在數據分析方面做了很多的工作，充分的理解了業務場景。在特徵工程上，非常精細、全面，也有不少新穎和特別的特徵設計。在模型選擇上，充分考慮數據規模，業務特點，模型選擇合理。

根據複賽成績和現場答辯表現，評出了一二三等獎各一名，以及兩名創新獎。

一等獎：DOG（花志祥）

二等獎：藍鯨燒香隊（周耀；李智；郭鵬博）

三等獎：躺分隊（陳波成，浙江工業大學；羅賓理，中南大學；吳昊，天津大學）

創新獎（兩名）：

i) 禁止實習咋找工作啊（張衛民，中科院計算所；庄曉敏；中科院；李昊陽，香港科技大學）

ii) 強東隊（李強，吉林大學；沈冬冬，山東大學；蔣浩然，中南大學）

冠軍方案：採用遷移學習，核心代碼僅一頁

給評審留下深刻印象的是本次大賽的冠軍隊伍——雖然是「隊伍」，但只有一個人，花志祥。

冠軍花志祥與競賽評委合影

花志祥是數據競賽的老手，並且已在國內外多個演算法大賽中斬獲冠軍。他的參賽口號/座右銘也非常簡單—— 「一個字，干」。

評委表示，DOG對方案最大的特點整體非常簡潔，設計思路清晰。針對這次比賽中測試數據和訓練數據分布差異的問題，這個方案採用了一些遷移學習的方法利用訓練數據。特徵設計上有亮點，沒有暴力地去融合很多特徵，而是針對數據特性做了很簡潔的特徵設計。工程上也非常簡潔，全部代碼只有一頁，有比較好的實用性。

冠軍方案模型示意

這次的賽題，結合淘寶平台的業務場景和不同的流量特點，分為日常轉化率預估（初賽）和特殊日期的轉化率預估（決賽）。初賽是提供前 7 天的記錄預測第 8 天，複賽提供前 7 天和第 8 天上午的記錄，預測第 8 天下午的情況。

通過分析，花志祥發現初賽的轉化率每一天基本相似，但在複賽中，前7天跟第8天的差別很大。基於這種情況，他在決賽時做了一個模型，使用遷移學習的方法，用第1到7天的數據，預測第8天上午和下午，兩者一起預測。

在特徵方面，使用了統計特徵、時差特徵、排序特徵和表徵特徵這四種。統計特徵就是用戶點擊的次數，看過的頁數，搜索的小時，還有點擊的品類的個數。時差是用戶與商品item交互的時間距離；在真實的場景中，我們只能用到用戶距離上次的時間，拿不到下次的時間，在整個比賽中，這有一定程度的數據穿越，所以最終採用的是用戶點擊某一個品類，距離上次的時間和下次的時間。排序特徵是用戶user與商品item的交互次數。最後，表徵特徵，用戶對商品的哪些屬性感興趣，點擊的ITEM有哪些屬性，這樣交互的特徵越接近，購買的概率就越大。

最終的代碼只有一頁。

創新方案：特徵設計和端到端模型

我們特別介紹一下在大賽中，創新性得分最高的兩支隊伍，也即獲得特別獎的禁止實習隊和強東隊。這兩個團隊一個在特徵設計上比較有創新性，一個在模型的使用上應用了較新的模型。

其中，禁止實習隊比較充分地挖掘了在淘寶的場景下用戶序列性的瀏覽商品商店的行為，提出了新方法，對用戶的序列化行為進行特徵設計，拿到了比較好的效果。

強東隊則試圖用end2end的深度學習來解CVR預估問題，相比其他團隊，較有創新性，提出的方法接近工業界的架構。

NN 模型在大數據下將非常有優勢，不同於基於手工設計特徵的傳統機器學習方案，採用 NN 應用於 CVR 或 CTR 預估問題，具有訓練時間少，內存佔用小且不需要人工設計特徵的優勢，實現端到端的訓練，自動從數據中提取高階特徵。在這個方案里，不等長多值 Field 特徵通過 padding 補成等長輸入到 Embedding 層對原始稀疏特徵進行映射，借鑒了 DIN 網路的思路，創建 Attention 層對多值特徵進行加權。在模型中加入一階的 LR 層學習單特徵，二階的 FM 層學習二階交叉特徵， MVM 層學習無限階交叉特徵，並引入 deep 層學習高階非線性組合關係。

本文來自新智元，創業家系授權發布，略經編輯修改，版權歸作者所有，內容僅代表作者獨立觀點。[ 下載創業家APP，讀懂中國最賺錢的7000種生意 ]

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 創業家 的精彩文章:

※擔心手機沒電，未來或將用心跳供電
※還原扎克伯格：他的T恤和日常生活，跟你想的不一樣

TAG:創業家 |