KDD Cup 20年全回顧:從今年包攬前三甲說起,看中國力量逐年滲透的三大亮點
雷鋒網 AI 科技評論按:從1997年至今,KDD Cup已有二十年歷史。日前,第23屆KDD大會在加拿大召開,會上,KDD Cup2017優勝者將進行成果展示。
2017年8月13-17日,第23屆KDD大會在加拿大哈利法克斯召開,雷鋒網AI科技評論也在前線帶來第一手報道。從7月到8月,圍繞KDD,熱點不斷。先是加拿大西蒙弗雷澤大學計算機學院裴健博士當選ACM SIGKDD 新一任主席,緊接著,官方宣布裴健博士榮獲 2017 SIGKDD 創新獎、香港科技大學教授楊強博士榮獲 2017 SIGKDD 傑出服務獎。大會還沒開始就吸引了不少目光。
當然,除了裴健博士和楊強博士的傑出表現,還有一個議程也讓這屆大會的關注量倍增——加拿大時間8月17日,KDD Cup2017優勝者將在會議上進行成果展示。由微軟、美團聯合北京航空航天大學的Convolution團隊在KDD Cup 2017的兩項任務中包攬第一。
兩項任務的前三名名單如下:
KDD Cup迎來第二十年
從1997年舉辦至今,這屆賽事已迎來第20個年頭。作為目前數據挖掘領域最有影響力、最高水平的國際頂級賽事,KDD Cup每年都會吸引世界數據挖掘界的頂尖專家、學者、工程師、學生等前來參賽。它被譽為大數據領域的「奧運會」。
KDD Cup 2017 今年的任務是交通領域賽題,分兩個任務:
Task 1: To estimate the average travel time from designated intersections to tollgates(預測車輛從路口到收費站的平均用時)
Task 2: To predict average tollgate traffic volume(高速收費站車流量預測)
賽程共計兩輪,第一輪需要選手在20天內完成預測演算法並提交測試結果,第二輪則會更換測試數據並要求選手在一周內完成新一輪的結果提交。
高速公路收費站是交通網路中眾所周知的瓶頸。如果可以提前預測接下來一小時的交通擁堵狀況,那麼交通管理部門可以及時採取措施進行上游路口的流量誘導和控制。KDD Cup 2017希望參賽者可以設計一套預測交通流量和車輛到達時間的演算法,用演算法和數據來賦能交通領域,減少擁堵的發生。
2017年年初,KDD Cup組委會宣布採納阿里雲交通領域賽題時,曾有新聞報導:本次賽題源自阿里雲人工智慧ET在交通領域實施的案例之一,阿里雲賽題負責人閔萬里說,技術垂直化一直是阿里雲的重要戰略。在交通領域,我們打造了路況預測,信號燈優化控制一系列前沿項目,這些實踐證明了本次賽題的技術可行性和業務實用性。
亮點之一:強應用背景
縱觀KDD Cup歷史,不只是2017,近年來,許多試題都有很強的應用背景。
2011年的主題是理解節奏韻律,預測音樂評分。比賽的數據集是雅虎音樂提供的超過1百萬匿名用戶的3億條評分數據,這些評分分別針對歌曲、專輯、藝術家和音樂流派。比賽有兩個任務,一是準確的預測用戶的評分,二是區分用戶喜愛的歌曲與其他歌曲。
2012年的任務一是根據騰訊微博中的用戶屬性、SNS社交關係、在社交網路中的互動記錄等,來預測接下來最有可能被用戶接受的推薦item列表。任務二是廣告的點擊率預估,提供用戶在騰訊搜索的查詢詞、展現的廣告信息、廣告的相對位置和用戶點擊情況等,來預測後續時間用戶對廣告的點擊情況。
連續兩年,比賽的主題都為推薦系統。對用戶而言,每天面對海量的資訊服務信息時,如何快速找到自己感興趣的內容是件耗費時間和精力的事情。對於企業而言,手握海量資源,如何挖缺數據中的潛在價值從而留住用戶,也是一種極大的挑戰。個性化推薦系統則是解決上述問題的有效工具。
2015年,KDD Cup的主題是預測學生在學堂在線這個全中國最大的慕課平台中的逃課率。MOOC在線學習平台上學生的逃課率極高,因此預測他們接下來是否會選擇逃課將對保持和激勵學生的學習積極性十分有益,參賽者需要基於用戶個人行為預測接下來10天內他們的逃課幾率。
知乎上多名網友認為,2015年的比賽題目「挺有意思,也比較有實際意義」,有網友認為這個題目的設置跳脫了推薦大框架的桎梏,更具創新性。
此外,教育部於2015年4月出台《關於加強高等學校在線開放課程建設應用與管理的意見》時曾表明,教育部正密切關注世界範圍內迅速興起的大規模在線開放課程(MOOC)等新型在線開放課程的發展,將積極推動大規模在線開放課程與高等教育教學改革的大討論。
亮點之二:國內企業越來越多的參與
當然,除了試題的縱深應用,盤點近幾年比賽的承辦方,國內企業出現的頻率也越來越高。
上文就已經提到,2017年的比賽由阿里雲承辦。阿里雲創立於2009年,隸屬於阿里巴巴集團。從誕生到現在,阿里雲目前覆蓋歐洲、中東、日本和澳洲,本月4號,阿里雲剛剛與澳門政府簽署合作城市大腦計劃。值得一體的是,阿里巴巴集團也是今年KDD大會的白金贊助商。
2014年的比賽由學堂在線(Xuetangx.com)承辦。學堂在線是以清華大學計算機科學與技術係為主體的開發團隊基於OpenEdX平台開發的,於2013年10月10日正式上線,可向全球用戶提供MOOC課程。2015年5月,清華大學宣布依託學堂在線啟動國內首個基於混合式教學模式的學位項目——「數據科學與工程」專業碩士項目。目前,學堂在線已是教育部在線教育研究中心的研究交流和成果應用平台。
而2012年的KDD CUP則由騰訊協辦,試題也是基於騰訊微博海量的數據集。目前騰訊兩個壟斷性的社交工具——微信、QQ中,龐大的用戶基數與海量的數據,都有待去慢慢挖掘和利用。
上圖來自於網路,從中可以看出,2005-2010年的舉辦方中,還沒有出現過中國企業的身影。
這一系列承辦團隊也從一個方面印證了國內企業的科研實力越來越強。據業內人士介紹,賽事的承辦者需提供極有前沿應用價值的賽題和大規模數據作為挖掘樣本。換言之,要想承辦這場「奧運會」,如果沒有深厚的學術積累和行業實踐,是完全不可能的。
亮點之三:中國團隊越來越靠前的排名
除了看到國內企業越來越雄厚的實力,雷鋒網AI科技評論也了解到,中國團隊也接二連三拿到不俗的表現。
早在2004、2005連續兩年,香港科技大學教授、IEEE Fellow楊強就引導其團隊連續兩年拿下KDD Cup比賽冠軍。
2011年的任務一預測用戶的評分中,上海交通大學的InnerPeace團隊獲得季軍,2012年的任務一預測用戶偏好item中,同樣來自上海交通大學的ACMClass@SJTU 團隊奪得冠軍。
2015年的比賽冠軍由多國軍團——「the Intercontinental Ensemble」獲得。在這支冠軍隊伍中,有兩位中國的數據科學家,分別來自清華大學和網易公司。
而在2017年,中國團隊更是幾乎包攬前20名。
圖為2017年KDD Cup得分排行榜
雷鋒網AI科技評論總結:縱觀KDD Cup20年的歷史,2010年之前,鮮少出現國內企業和學界的身影,而在2010之後,騰訊、清華、阿里一個一個相繼出現。此外,優勝者中,中國團隊的影響力也與日俱增。
※在黑摩的和三蹦子橫行的印度,這家公司要做低成本自動駕駛卡車
※業內人的「針砭時弊」:AI醫療界的3大亂象以及如何評價醫學人工智慧的成果?
※剛賣出拍賣史上最大單的鹹魚,其實到處有坑......
※亞馬遜Echo發家史-中篇:谷歌的策略突圍和鋒銳進擊
TAG:雷鋒網 |
※極光發布2017年中國APP榜單:ofo市場滲透率、全年增速均穩居第一
※3D感測滲透率放緩,TOF鏡頭模塊將在2020年成為市場焦點
※極光發布2017年中國APP榜單:ofo市場滲透率、增速雙料冠軍
※5G之後,華為又拿下一個領域!未來市場滲透率將超50%
※WitsView:手機高屏佔比成主流,2019年COF機種滲透率上看35%
※易觀:2017年4季度,秒拍、快手、西瓜視頻用戶滲透率位居前三
※270m2中國風樣板房,一種滲透到骨子裡的高貴!【A963第1360期】
※SSD價跌走跌,PCIe SSD滲透率有望挑戰50%
※SSD價跌帶動需求,今年SSD搭載率與PCIe SSD滲透率挑戰50%大關
※種草 | 可以貼一整晚的日本面膜,10倍滲透24倍持久!
※WitsView:2018年全面屏手機滲透率快速攀升至45%
※聯詠:今年TDDI旺、TV SoC滲透升,成長有期待
※人類認識 HAL 9000 的第 50 年,AI 恐懼如何從科幻作品滲透到了現實?
※預計2018年底4k電視市場滲透率將達58%
※2020年我國智能電視市場滲透率將超90%
※2018新寵!每天10分鐘,肌膚Duang出水!掏空毛孔0負擔,滲透力100分!
※全球超2萬名開發者調研:Python 3滲透率至84%
※蘋果對新款iPhone供應商砍價,3D模組調降15%;歐菲科技:3D sensing為攝像頭產業鏈帶來5-10年滲透期
※3年後4K電視滲透率將達71%超高清產業風口已開
※2019年日本奧爾濱春夏新品和美白杠上了!超值套裝,防晒,新款滲透乳,美容液...