當前位置:
首頁 > 新聞 > 對話矽谷大咖丨Kaggle CEO 帶你一起看Kaggle的前世今生

對話矽谷大咖丨Kaggle CEO 帶你一起看Kaggle的前世今生

原標題:對話矽谷大咖丨Kaggle CEO 帶你一起看Kaggle的前世今生


TalkingData


縱橫四海,對話領袖。大家好這裡是TalkingData美國公司為大家獨家奉上的一檔深度對話欄目「對話矽谷大咖」


每一期我們會精選為在數據科學,人工智慧最炙手可熱的行業領袖,為大家分享他們所從事的行業遇到的一些挑戰和現實情況,為大家介紹對行業發展的觀點以及行業未來發展的看法,從而幫助大家最直觀的了解我們從事的這個行業發生了什麼以及未來將要發生什麼。


這是我們為大家帶來的第一期內容,第一期我們請到了世界上最大的數據科學家社區Kaggle 的CEO Anthony , Kaggle在去年正式加入Google這個大家庭。作為世界上最大的數據科學家社區,作為21世紀最重要的職位數據科學家。這個社區如何運營,他能夠為整個數據科學社區發展帶來哪些作用,中國的數據科學家,中國的數據集,中國的問題能夠為這個社區帶了多大的價值,讓我們聽聽Anthony怎麼說?


視頻全長 19:09 請在WiFi下觀看


主持人:我們已經介紹過您,可以給我們大概介紹一下關於Kaggle的故事以及她的創始人團隊么?


A: Kaggle 最為人所知的是作為一個機器學習的競賽平台。當你將數據集上傳到我們的平台上,任何統計學家,數據科學家,從事機器學習者都可以下載數據集,並且幫助解決問題。舉個例子,我們有來自各個公司的數據集比如All State ,美國一家保險公司去預測索賠,包括我們和TalkingData和Google也有很多合作的項目,我們現在也是Google的一部分。我們擁有非常廣泛的數據科學問題,每個人都可以寫自己的演算法做出自己的模型,然後最優秀的演算法可以獲得公司為獲獎的模型演算法提供的獎金 。我們最一開始通過機器學習競賽來搭建我們的數據科學社群。現在除了競賽之外我們也有其他另外一些功能做的非常好,一個是線上的公開數據集平台。之前我們在網上很難用Google直接搜索到數據集,而我們在Kaggle上公開的數據集平台一共集合了8000多個公開數據集。你可以來我們的公開數據平台去尋找你感興趣的數據集。第二是,我們擁有了基於雲端的數據科學機器學習工作台,我們稱之為Kaggle Kernels , 這讓整個社區可以互相分享代碼。如果你想學習機器學習,在其他地方你得從頭學起,但是在Kaggle Kernels你可以看到別人是怎麼樣解決問題的。最後我們有Kaggle Learn,是一個幫助初學者如何學習數據科學的地方。如果你對數據科學感興趣並想進行學習,你可以去高校花個3-4年學一個學位,或者在Udacity 花3-4個月學習網課,而在Kaggle Learn, 你只需要花費幾個小時就能夠了解和掌握一些關於數據科學和機器學習的基本概念,比如你會學習深度學習並且能夠應用你的數據花30分鐘做一個神經網路。我們是幫助學生快速了解數據科學,幫助他們更加容易地進入之後的工作項目,避免了他們必須先花費6個月學習某些課程。這些就是Kaggle所做的事。



圖片來源於網路,與本文無關


主持人:非常棒的回答,而且您也基本涵蓋了我們接下來想深入問的問題。我現在想問一問關於你們的數據科學社群,你是怎麼評價你們的社群?你是如何定義數據科學家?


A:其實數據科學家是一個非常模糊的概念,我最喜歡的解釋是數據科學家一群比編程更懂統計或者比統計更懂編程的人。這真的需要一些交叉學科的訓練包括計算機科學和統計理論。這就是很多最初的數據科學家的來源,要不然就是有統計的背景學習了編程的能力,或者一些有計算機背景的人學習了統計。到現在機器學習成為了超火爆的話題有太多的人從計算機科學轉來學習機器學習,直到數據科學成為一個獨立的學科。我自己把數據科學看成一個傘骨架,關聯了一些基礎的用Python或者R的數據分析以及機器訓練的模型,所以機器學習是數據科學的一個分支。Kaggle是一個既包含了用Python或R 做基礎數據分析也包括最頂間的機器學習這麼樣的一個社群,這個社群同時覆蓋了這兩個方面。


主持人:你運營Kaggle多少年了


A: 我們開始這個項目是2010年,到現在已經有8年時間了。很有意思的是,一開始機器學習一點都不是熱門的話題。

主持人:那是你預見到了什麼嗎?


A: 可以說是也可以說不是,我相信包括我在內,沒有多少人會預見機器學習現如今如此火爆。我被這個領域所吸引是因為我覺得數據驅動決策是很合理的。我進入這個領域並且創立Kaggle是因為我覺得數據科學和機器學習很重要,但是我從來沒有想過會像現如今發展的如此火爆,也許是科技領域裡面最火的話題了。


主持人:200萬的註冊用戶。


A:是的,我們有190萬快接近200萬的註冊用戶。我還記得剛開始的時候我們的目標是獲得1000位註冊用戶就很開心了,沒有想到會發展到今天的200萬。這個數據科學社群最初是由一群用Python 和 R 做數理統計分析產生圖表的一群人,你可以從中洞察一些結論。之後就逐漸發展到數據科學的前沿科技,像Jeff Hinton的很多學生都參加了Kaggle 競賽並且取得了非常突出的成績,也給我們帶來了關於深度學習的浪潮。所以我們就包括了從最基本到最前沿的話題。加入社區是非常令人興奮的事情,因為你永遠可以學習到新的知識,因為這個領域的更新換代實在是太快了,永遠都有新東西要學習。



圖片來源於網路,與本文無關


主持人:來跟我們說說你的競賽是如何開始的吧,可以給我們舉三個最具有代表性的競賽嗎?


A:你要知道對於數據科學家和機器學習者來說,如何解決真實的問題是非常吸引人的。就我自己來說,我曾經在澳大利亞政府部門預測GDP,通脹以及失業率,我每天能接觸的數據有些是很小的並且有些無聊,於是我就希望可以找到其他的數據集。在這個過程中你會發現有很多像我一樣的人希望可以接觸更大更有意思的現實生活中的數據集,這就是我們開始做競賽最初的原因。我們地第一個競賽就是為了開心,來預測歐洲電話簡訊投票的模式,然後有大概20支隊伍參加,你知道這不是什麼大規模活動。第二個競賽就是預測HIV病人的病情發展。這個競賽持續了3個月大概有80支隊伍參加,在這個過程中我們獲得了非常好的結果,由於這個結果我們被科學雜誌所報道。再有就是NASA的競賽對我們的品牌推廣也有非常重要的影響。在NASA的競賽合作之後我們就廣泛的和不同的大公司開始合作比如All State, Google啊這些。正是HIV和NASA 的競賽幫助Kaggle 真正的起飛。


主持人:然後你們就被Google收購了。


A:是的 ,我們16個月前被Google收購,我們保持自己的獨立品牌和運營但是我們屬於Google Cloud的一部分也向Google Cloud彙報。這對我們來說是個自然而然的結果,因為Google Cloud致力於給機器學習構建最好的雲服務,而我們擁有最大的社區,所以漸漸的大家會看到我們的基礎設施會轉移到Google Cloud 上。我們現在開始做一些基於Google Cloud的工具給我們的社區使用。對於那些想使用一些比如像Google 的TPU,非常強大的晶元被應用在訓練神經網路的人是非常令人激動的一件事。這樣大家就可以使用Google Could 的工具,而Google Could也可以通過最大的數據科學社群來做機器學習。

主持人:那針對這次收購我再深入的問一下,我很好奇Google是把你們作為旗下的一個組有KPI的要求還是更繼續獨立運營?你們如何獲取資源來成長?


A: 其實Kaggle算是比較特殊的部門,我們的核心資產是社群。就像Microsoft最近收購了GitHub一樣。如果Microsoft把GitHub改名了,或者只允許在Azure上運行代碼,這樣會殺死這個社群。那麼kaggle也是一樣。我認為Google在收購kaggle之後做的非常棒。我們會有Google Could的工具提供給社群來使用,但是並不是強制性的,完全取決於個人本身是否想用這些工具。而且這也是給Google Cloud 性能團隊的一個很好的驅動力,為了能給我們更棒的工具和服務,像接下來的TPU可以部署和訓練模型,包括其他的一些Google Cloud的工具,當這些慢慢整合進來的時候我們會觀察社區的反饋。


主持人:說到你的新東家Google, Google在中國是被禁止訪問的,這會影響Kaggle的社區運營么?


A: 我不認為這對我們有什麼問題, Kaggle也在中國運營,我們可能需要做一些調整使其繼續運營。Kaggle本身沒有被禁止不像其他google部門。而且很有意思的是中國市場在Kaggle競賽上的表現異常出色。我們現在有200萬的會員,那麼裡面排名第一的來自中國,他的名字叫Wei. 中國在整個社群裡面是第三大群體,第一是美國,第二是印度,第三就是中國 。這對我們來說非常驚訝,因為我們也沒有中文版本的頁面。


主持人:可以講講現在你們有TalkingData 建立的ChinaPage中國數據集頁面嗎?


A:是的我們有TalkingData ChinaPage, 這是一個非常好的開端。我知道AI 在中國發展的非常迅猛,國家也很重視,從中國的數據科學家在Kaggle的優異表現就能看出。 我們也希望可以更多專註服務於中國的市場。就像我之前提到的中國是整個社群里第三大群體,我們排名前十的數據科學家有2-3名來自中國,這其實是一個挺高的比例。



主持人:那關於中國的數據集呢?有一些中國的公司在Kaggle辦競賽,你覺得這些競賽和數據集有什麼特別之處么?


A:是的,我們辦過一些競賽,我們和中國公司有非常緊密的聯繫,我們和TalkingData合作了兩次競賽,和騰訊也合作了競賽。幫助中國公司辦競賽最棒的一點就是我們吸引了很多中國的數據科學家加入我們的競賽,說明了AI在中國是非常火爆的。和中國公司更多的合作可以帶來更多的中國數據科學家,這正是我們所期待的。


主持人:非常好,我們也談了很多內容,那接下Kaggle有什麼計劃?

A: 我們從一開始做機器學習競賽平台到我們現在有了雲端的工作平台和公開數據集,你可以看到我們是一直在擴大我們的涉獵的範圍。我們希望Kaggle可以為數據科學家的工作平台。我為我們創建的這個社群感到非常驕傲,人們學習,然後在Kaggle上做他們喜歡的項目,我希望能看到有更多的團隊開始使用Kaggle來處理現實中的工作。所以這應該是下一步,Kaggle Kernel 會成為數據科學家的工作平台,就像有人會用Google Doc


主持人:像是一個軟體?


A :是的,但是比軟體更多,Kaggle Kernel 可以像軟體做數據科學,但是同時大家在一個數據集下也可以分享代碼。如果你去其他地方做數據科學家機器學習,就是從游標開始,什麼都沒有,但是在Kaggle 你可以學習別人的代碼選擇你想要學習的數據。下一步就是你會發現你在Kaggle上可以更多產更高效相比其他平台。


主持人:那有哪些挑戰呢?


A: 挑戰有很多,最大的一個我認為是,每個人都面臨的數據科學工具非常的新,我們嘗試引入一些新的概念,怎麼樣可以讓數據科學家更好的工作,怎麼樣讓他們更多產。這是我們努力的方向但是目前還沒有完全的去找到解決方案。我們是在這樣一個未知的領域給數據科學家最好的工具和平台


主持人: 對我們的觀眾說幾句吧,尤其是那些對數據科學感興趣的人

A:如果你是初學者,Kaggle Learn 絕對是最佳的開始。如果你是高階一點的,可以從我們公開數據集里選你感興趣的數據作為項目或者參加我們的競賽。有很多有意思的數據在我們的平台上,Kaggle Kernel 是你最佳的操作平台,你不需要在本地部署編程環境,你可以在雲端編程。如果你是公司想要主持一個競賽,這也是一件很有意思的事,你可以僱用表現優異的參賽者,我們也可以提供諮詢,我們有非常多的模型。你可以提出一個數據問題,這個問題會公開給社群里的所有人。但是首先你得準備一個非常具體的問題,在準備好這個很有針對性的問題之後放在我們的社群里,很有意思你會看到你的問題被解決了。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 TalkingData 的精彩文章:

影兒時尚集團與TalkingData達成戰略合作,打造數字化會員運營閉環

TAG:TalkingData |