KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團隊討教了他們的「成功方法論」
雷鋒網 AI 科技評論按:KDD 2017日前於加拿大落下帷幕。作為數據挖掘領域全球最高級別的國際會議,KDD 自帶光環,不僅吸引無數業內大牛,也引來媒體的爭相報導。會議期間,KDD Cup2017的頒獎禮也同期進行。今年,這場頂級賽事的排行榜幾乎全被中國團隊佔領,由微軟、美團和北航聯合組成的Convolution團隊更是一舉奪得兩個任務的雙料冠軍。
雷鋒網 AI 科技評論第一時間聯繫了冠軍團隊隊長鬍可,並詳細了解到其團隊的背景、解決問題的方法,並對比賽進行了相關討論。熱愛技術,經驗豐富,邏輯嚴謹,這是雷鋒網 AI 科技評論眼中的Convolution團隊。
以下為雷鋒網 AI 科技評論與胡可的訪談實錄。
團隊背景
首先恭喜你們獲得KDD Cup 2017兩個任務的雙料冠軍,有何感想可以分享一下呢?
KDD Cup是工業界和學術界都很關注的一個比賽,每一屆KDD Cup的競爭都很激烈。這次比賽中我們也遇到了很多困難,很幸運兩道題目都能拿到第一名。
你們的團隊是如何組建起來的呢?為什麼給團隊取Convolution這個名字?能介紹一下團隊各位成員的研究背景嗎?
我們很早就在技術社區里認識,大家都對技術感興趣,經常一起討論技術細節。給團隊取Convolution這個名字也是機緣巧合,因為我們當時正在做一些神經網路方面的嘗試。
我們團隊有四名隊員:
胡可,香港中文大學機器學習方向碩士畢業。現在微軟必應廣告團隊從事機器學習模型與演算法研發。
陳歡,北京航空航天大學計算機碩士在讀,擅長NLP與特徵工程。
黃攀,浙江大學計算機碩士畢業,擅長模型分析與實現。現在微軟必應團隊從事廣告演算法研發。
燕鵬,美團點評高級技術專家,喜歡用機器學習解決各類問題。
隊員都從事機器學習相關的工作與學習,並且有豐富的大賽經歷,比如隊員基本都獲得過Kaggle冠軍,也有隊員目前Kaggle全球排名第五。同時我們這方面的背景可以相互促進,合作產生更好的方案。
解決問題的方法論今年的賽題分為兩個任務,預測車輛從路口到收費站的平均用時和預測高速收費站車流量,在比賽中,大家是如何分工的呢?
比賽初期,我們以兩位同學為一組主要負責一道題目。在後期再將題目進行互換,對對方的思路進行補充。每位同學都有很強的技術探索能力,能對負責的部分獨擋一面。比如黃攀在交通時間預測題的特徵工程與模型實現上做出了很多突破。
你們解決這兩個任務的具體步驟是什麼樣的呢?
我們前期根據各自的技術積累討論,匯總出問題涉及到的技術點以及可能有潛力的方案。比賽中期更多地自由探索,儘可能地發散解決方案的技術點。最後充分融合各自方案,並收斂到幾個關鍵技術點共同提升解決。比如一開始就想以序列建模與用特徵表達預測序列兩種方式分別嘗試解決時間序列問題,相當於從模型與特徵兩種角度,最後採用是這兩種方法的融合。考慮到這個問題本身的特徵體系特點以及模型的表達能力,我們選擇GBDT和神經網路模型,並對模型的損失函數進行改進,更適合這個比賽的評價指標。
這兩個任務比較起來,哪個任務更複雜呢?
第二題比較早地發現了規律,很早確立了領先優勢。但後來我們發現第二題的經驗在第一題上並不能取得同樣的收益,我們在第一題上做了很多改進之後才追上來。我覺得針對具體問題case by case地去研究,提出適合具體問題的解決方案非常重要。
您認為今年的高速路預測的賽題與之前一些機場、公路流量預測的賽題相比,差異點和難點在哪裡?側重需要考慮哪些問題?
很多機器學習的問題都需要一些領域的知識來輔助解決,對於每一個具體的問題,數據的分布不會完全一致,最終比賽獲得高分的關鍵還是一些機器學習的技巧和經驗。比如,這次比賽數據方差比較大,不能完全通過增加特徵解決這個問題,相對暴力地迭代實驗有可能導致過擬合。因此需要更多數據分析來引導實驗,並巧妙構造驗證集來增加解決方案的穩定性與泛化能力。
在比賽過程中你們還碰到了哪些問題?是如何解決的?
我們在中後期遇到了瓶頸,主要表現為模型提升困難並且在多種驗證集中表現不穩定,我們放棄了有過擬合風險的提高模型複雜度的提升方式,轉而構建更多模型複雜度不那麼高的子模型解決問題。從誤差分解的角度,我們沒有特別追求bias減少,而是想辦法降低variance。
圍繞比賽的相關討論為比賽所設計的系統和實際應用的系統存在哪些異同?比賽中的系統與實際應用系統有哪些關聯性?
異同點:一方面,實際系統中可用的信息更多,會更複雜。另一方面,比賽追求演算法極致,現實中會在精度和效率上做一個權衡。比如,比賽有可能會採用較多模型進行融合,而實際系統經常採用少量模型進行融合。但實際中構造少量模型的思想與比賽是一致的。
兩者間的關聯:在比賽中,產生了一些優秀的模型或方案運用於實際系統,如KDD Cup 2012產出了XGBOOST與FFM的原型,阿里天池14年推薦比賽top隊伍的方案在「雙十一」活動中挑戰線上系統取得成功。
以往KDD Cup有很多任務集中於推薦系統的設計,近年來逐漸向其它更具體的實際問題轉變,比如MOOC逃課率檢測,還有今年圍繞交通內容而設計的題目。那麼您認為以今年為例,KDD Cup對能力的考察更側重於哪些方面?
隨著機器學習的認知程度越來越高,越來越多的領域開始嘗試使用機器學習技術解決現實問題。早年KDD Cup著重於解決互聯網行業中的典型問題,近年來開始嘗試機器學習技術在教育,交通等傳統行業的應用。這對選手的要求也隨之提高,需要選手具備快速對新問題進行建模的能力。
今年的20強幾乎全被中國隊伍包攬,在比賽過程中你們有遇到過哪些實力強勁的對手呢?覺得團隊獲勝的原因有哪些?
這次KDD Cup是歷年參加人數最多的一次,高手雲集,其中也包括KDD Cup多年的冠軍隊伍台灣大學,他們這次也曾一度取得領先,帶給了我們很大壓力。
我認為這次獲勝主要取決於這些因素:一是我們隊伍的成員都從事機器學習工作,對技術有很高的熱情,並且各自有比較豐富的比賽經驗。二是我們在做這些機器學習項目和比賽的過程中,向同事和其他隊伍學到了很多有趣的建模和分析的思路。第三是因為非常幸運。
如果要為下一年的KDD Cup做準備,您有什麼建議和比賽心得可以分享?
我建議有時間可以加強機器學習理論的學習,並儘可能地將理論與實踐相結合。
※如何利用 TVM 優化深度學習GPU op?教你用幾十行Python代碼實現2-3倍提升
※這是本年度最「感性」手機——對新發布的三星 Galaxy Note 8,你是否還「敢愛」 ?
※馬斯克在 Instagram 大秀 SpaceX 宇航服,滿滿科幻感
※美國銀行將AI應用於企業應收賬款處理
※科達陸吉良: 行業「管多控少」,交通AI化是大勢所趨
TAG:雷鋒網 |
※第86屆24h Le Mans 大賽:Toyota TS050 得償所願獲得隊史首冠,Porsche 911 RSR 雙料冠軍
※Google AI地標檢索識別競賽雙料獲勝方案 | 飛槳PaddlePaddle開源
※Stella McCartney轉投LVMH、Michael Kors宣布「他們」為新代言人、中國設計師丁道源獲雙料大獎
※專業機構評 Galaxy Note 10+:充電比一加 7 Pro 快,拍照雙料冠軍
※銷量頭牌雙料王?ThinkPad X280
※加碼Foundry、抗衡TSMC,三星致力成為存儲和邏輯晶元雙料冠軍
※Angelababy獲得雙料形象大使,成眾星難以超越的榜樣
※菲爾茲、阿貝爾獎雙料得主Michael Atiyah宣稱將證明黎曼猜想
※也許今年我們有機會看到Ducati拿下雙料冠軍?
※OMG小獅子個人雙料王,世界最強吃雞選手,全場高呼lionkk!
※OPPO Find X今日首銷,開售兩小時奪下雙料冠軍
※拳頭官方公布MSI數據排名,Ming是唯一一個雙料王!
※大眾汽車再創佳績新Golf、Polo雙料膺選2018年度最佳車款殊榮
※最近彩虹很火!這雙 VaporMax 是視覺和腳感的雙料選手!
※OPPO R15勇奪雙料冠軍,成功是用戶給予OPPO的肯定
※機情燴:vivo NEX首銷拿下雙料冠軍 7月起手機流量將大變!
※NBA&NCAA雙料總冠軍有多難?NBA現役僅5人,丹尼格林上榜!
※雙料冠軍拿到手軟!vivo X21首銷火爆,這四個特性太誘人
※NLPCC 2018,搜狗知音榮獲語義理解比賽雙料冠軍
※易烊千璽雙料第一,中戲2018級學生個個顏值爆表你pick誰