當前位置:
首頁 > 知識 > Kaggle 官方年度盤點:2018,將迎來四點新突破

Kaggle 官方年度盤點:2018,將迎來四點新突破

AI 研習社按:本文由 Anthony Goldbloom 發佈於 Kaggle 官方 blog,本文先是總結了 Kaggle 在 2017 年裡取得的巨大成就,然後對 2018 的新工作做了展望。雷鋒網 AI 研習社對本文進行了編譯。Kaggler 們想知道將會發生哪些變化嗎?那就趕緊過來看看吧!

2017 年是 Kaggle 取得巨大發展的一年。這一年,除了加入 Google,我們還從一個主要關注機器學習競賽的社區,擴展成一個更廣泛的數據科學和機器學習平台。今年,我們的公開數據集的下載量和Kaggle Kernels上的用戶數都增長了 3 倍,這意味著我們現在擁有了一個蓬勃發展的數據存儲庫,並構建了一個良好的代碼共享環境。

為了讓社區成員們對 Kaggle 的這些變化有更好的了解,我們決定分享我們主要的活動指標(Activity metrics)以及與這些指標有關的一些分析。不僅如此,我們還將分享一些 2018 年的規劃。


回顧 2017

活躍用戶從 2016 年的 47.1 萬增長到了今年的 89.5 萬(見圖1)。因此在 2017 年,活躍用戶取得了高達 90% 的增長,而在 2016 年這一增長率為 71%。

雖然我們當前仍然以機器學習競賽而聞名,但我們的公開數據集平台和 Kaggle Kernels 將在 2018 年初成為 Kaggle 更大的推動力。

圖1. 活躍用戶增長情況


競賽

我們在 2017 年發起了 41 項機器學習競賽,高於去年的 33 項。

其中還有 3 項競賽的獎金超過 100 萬美元:

在「從身體的掃描圖中識別出是否攜帶危險物品」競賽中,TSA 贊助 150 萬美元

在「預測房價」競賽中,Zillow 贊助 120 萬美元

在「通過 CT 掃描圖診斷出是否患有肺癌」競賽中,NIH 與 Booz Allen 贊助 100 萬美元

我們同時也增加了對學術界的投入,比如幫助 NIPS 和 CVPR 研討會舉辦了一些重要的研究競賽。其中的亮點包括一系列對抗學習(Adversarial learning)挑戰賽和YouTube 8M挑戰賽。此外,Kaggle 現在也正式託管了ImageNet。

Kaggle inClass 則允許教授免費舉辦面向學生的比賽,它已經成為一個完全自助服務的平台並且取得了很好的發展。2017 年,共有 1217 個機器學習和統計班級在 Kaggle inClass 上舉辦了競賽,相比起 2016 年的 661 個有所提高(增長率 84%)。

在社區方面,37.5 萬名用戶下載了競賽數據集,同比去年增長 62%。而且,有 12.2 萬名用戶參加了我們的機器學習競賽,同比去年增長了 54%。

公開數據集平台

我們的公開數據集平台允許我們的社區成員在公共數據集上進行共享和協作。2017 年有 7044 個數據集被上傳到平台上,而 2016 則有 495 個數據集被上傳。2017年所上傳的最受歡迎的數據集有:

World Happiness Report

Bitcoin Historical Data

Medical Appointment No Shows

2017 年,我們公開數據集平台上的數據集下載量增長了 3 倍以上,達到了 33.9 萬次,而 2016 年則為 10.7 萬次。這種增長意味著公開數據集平台正在推動數據的下載量。我們在 2016 年發布公開數據集平台,而競賽平台則是 2010 發布的。

圖2. 公共數據集平台的下載量 vs. 競賽平台下載量


Kaggle Kernels

Kaggle Kernels 目前用於在競賽和公開數據集平台上共享代碼和模型。在 2017 年,Kaggle 之心的用戶數量達到了 11.3 萬,相比起 2016 年的 3.9 萬增長了將近 3 倍。Kernel 創作(Kernel authoring)正迅速變得和參加競賽一樣受歡迎(見圖3)。

圖3. 核心作者 vs 競賽報名者

今年最受歡迎的幾個開源 Kernel 是:

針對 2017 年數據科學杯賽(Data Science Bowl)——從 CT 掃描圖中檢測肺癌而編寫的圖像預處理教程

使用 Python 實現模型的堆疊和嵌入教程

一個全面的數據探索教程


其它亮點

我們發起了有史以來規模最大的數據科學家和機器學習者的調查研究。共有 16716 名受訪者,最終產生 235 個探索數據集的公開 kernel。大家可以在FT和Verge上看到該項調查的最全面報告。

總的來說,今年我們在新聞界產生了很多話題,包括 Kaggle 被收購(Techcrunch)的報道,對幾個社區精英成員(Wired和Mashable)的報道,NIPS 對抗學習挑戰賽(MIT Tech Review),TSA 競賽(NYTimes)和 Zillow 競賽(NYTimes)。

值得強調的是,社區的活躍有助於加強我們的活動。我們已知的線下Kaggle 聚會小組就有 50 多個,這些小組都由 Kaggle 社區成員自發組織形成,從普林斯頓到巴黎。大家會在聚會上討論我們的比賽和數據集。今年,一些 Kaggle 精英成員還在Coursera 上發起了「如何贏得 Kaggle 競賽」的課程。還有一群社區成員設立了一個「Kaggle slack」頻道來討論 Kaggle 比賽和數據集,它目前已經擁有超過 3300 名成員。


展望 2018

Kaggle 從機器學習競賽開始,到現今已經擴展出了一個公開數據集平台和 Kaggle Kernels。而我們的終極理想是將 Kaggle 打造成一個適合於科學研究的場所——所有 Kagglers 都可以進行數據科學和機器學習的相關研究。2018 年,我們將專註於改進所有的核心產品(競賽、公開數據集平台和 Kaggle Kernels),並為我們的平台添加新的教育資源。


競賽平台

目前競賽平台處於一個很好的發展狀態。但是我們不能自滿,要不斷創新。在 2018 年,我們計劃開始支持新的競賽類型,以確保 Kaggle 競賽能支持機器學習和 AI 的前沿問題。要做到這一點,我們需要致力於實現代碼競賽支持(Code-only competitions,指的是 Kagglers 在比賽中需要上傳代碼而不僅僅是結果的數據文件)。這將使得我們能夠舉辦全新類型的競賽,包括像強化學習競賽和計算資源受限的競賽


公開數據集平台

在 2018 年,我們希望公開數據集平台能取得和我們的機器學習競賽一樣的名氣。為此,我們需要繼續增加 Kaggle 上高質量數據集的數量。我們打算使用一系列強大的新功能來做到這一點。我們正在計劃整合和添加新服務,使得我們的社區能夠通過與BigQuery這樣的數據倉庫進行集成以處理更大的數據集。並建立允許 Kagglers 在實時數據集中流式傳輸的功能,而不僅僅是上傳靜態數據集。

Kaggle Kernels

Kaggle Kernels 目前最大的用處在於模型共享、競賽和公共數據集平台的數據集分析。在 2018 年,我們想讓 Kaggle Kernels 成為一個強大的獨立產品,這包括使得 Kagglers 能夠在私有的數據集上使用,支持訪問 GPU 集群和更加複雜的管道操作。


Kaggle 教育

許多用戶來 Kaggle 開啟他們的數據科學事業,並提高他們的學習興趣。為了更好地支持這一塊,我們在https://www.kaggle.com/learn上推出了機器學習實踐課程平台。我們希望它能成為用戶們開始創建高度精確的機器學習模型,並掌握他們所需技能的最便捷途徑,以助力他們開啟自己的第一份數據科學工作。

CCF ADL 系列又一誠意課程

兩位全球計算機領域 Top 10 大神加盟

——韓家煒 & Philip S Yu

共 13 位專家,覆蓋計算機學科研究熱點

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

深度學習在推薦系統上的應用

TAG:AI研習社 |