從 Kaggle 困局,看國內數據競賽平台如何突圍
國內數據競賽市場,能做好的話,預測一兩年就會有繁榮景象。
——DataFountain COO 陳娟
要說本月開發者圈子的頭等大事,毫無疑問是 Kaggle 被谷歌雲收購。作為全世界首屈一指的數據科學、機器學習開發者社區和競賽平台,Kaggle 不僅開拓了一個全新市場(雖然該市場的當前商業價值有限),還為國內近幾年冒出的數據競賽平台樹立了學習、模仿的榜樣。
李飛飛宣布穀歌雲收購 Kaggle
目前看來,這場收購可謂是皆大歡喜。
Kaggle 得到了谷歌雲的計算資源、數據資源和業界關係支持,也對投資者有了交代。谷歌得到了對該社區的直接影響力,以及一個谷歌雲的業務突破口。
但作為一個細分市場的霸主,Kaggle 卻從未有過「霸主」的春風得意。自 2010 年成立至今,Kaggle 耕耘數據競賽領域已有七年。這時間說長不長,說短不短,但足以打消風投和部分商業觀察家「超級獨角獸」的夢想。平台上的競賽數目,並沒有指數級地增長;其商業模式到底是不是眾包,業內也存爭議;但最重要的一點,直接指向了 Kaggle 的「七寸」:缺乏商業變現能力。
嫁給谷歌雲,或許已經是最好的結局。
於是我們不禁要問:一家在所處行業成為全球第一、沒有重量級競爭對手、並踩在大數據風口的創業公司,為何「被收購」卻成為最佳選項?
(註:並不是說被谷歌收購不理想,而是許多人認為 Kaggle 原本可以做得更好。)
在雷鋒網看來,這個問題折射出的現實情形,要比答案本身更有價值。相比 Kaggle 的自身經營狀況,我們更關心數據競賽這個市場——究竟是貧瘠的鹽鹼地,還是未經充分開墾的處女地?
太平洋的另一端,在中國,2014 年之後湧現出大大小小多家數據競賽平台。目前比較有名的,有阿里雲旗下的天池,中科院孵化出的 DataFountain,成都電子科大教授周濤創立的 DataCastle,以及上海 SODA 大賽的指定運營方科賽網。各家平台在將來的發展側重點各有不同,但當下的核心業務都是線上數據競賽。
大數據競賽究竟有多大的市場空間,行業前景如何,就成了至關重要的問題。
為此,雷鋒網採訪了DataCastle CEO 張琳艷, DataFountain COO 陳娟,天池高級專家王一婷,以及「中國 Kaggle 第一人」、商湯科技研發總監張偉;從 Kaggle 商業化的努力,談到國內數據競賽的市場環境,以及最重要的:如何把這個市場做「活」?
我們先從 Kaggle 被收購折射出的困局談起。
1. Kaggle 的商業化探索Kaggle 的商業化之路十分坎坷,這在業內廣為人知。
自 2013 年起,Kaggle 就設立了能源諮詢業務。當時恰逢美國頁岩油、頁岩氣革命,Kaggle 希望用大數據幫助能源公司進行石油勘探。這本將是一筆利潤頗豐的生意。可惜隨後的全球原油價格暴跌,使得石油公司大幅減產;新的勘探、開採計劃紛紛被推遲或取消,相關研究也被擱置。Kaggle 從能源行業入手,逐步建立跨行業數據諮詢業務的計劃就此擱淺。更何況,人們逐漸意識到,數據諮詢業務的成長性實在有限,不適合風投參股的企業。
與此同時,Kaggle 在 2013 年推出了 「Kaggle Connect」諮詢平台:將社區最精英的數據科學家介紹給有需求的公司,以解決不適合以競賽形式封裝的現實問題。
Kaggle 還推出了招聘服務,這倒用不著多說。重點是,直到今年被谷歌收購,Kaggle 在商業變現上始終沒有找到一個好的突破口。
2. 如何看待 Kaggle 被收購
因此,對於 Kaggle 被收購,行業內認為理所當然者有之,驚喜者有之,惋惜者也有。
堪稱「中國 Kaggle 第一人」的張偉,自 2012 年參與 Kaggle 平台上的比賽。當前排名世界第十,歷史最高排名世界第六、中國第一。他認為,Kaggle 尋求商業支持、被谷歌收購是水到渠成的事情。
從他的角度看,Kaggle 一直在進行商業化的嘗試,業務上也面臨較大瓶頸,競賽的數量到現在也不是很多。這其中的一大問題,是與工業界的關係不夠緊密,不足以說服更多公司在 Kaggle 平台上開放數據、舉辦競賽。藉助谷歌對業界的影響力十分合情合理。這將有助於更進一步拓展平台用戶,把市場做到此前難以企及的規模。另外,大量 Kaggle 參賽者使用亞馬遜 AWS,如能免費提供谷歌雲,確是一件好事。
持相似觀點的還有阿里雲天池。天池高級專家王一婷直截了當地表示:
「 Kaggle 在歷經了六、七年的發展後始終沒有找到一個很好的商業模式,主要靠賣比賽收取服務費賺錢。但平台上的比賽頻率並不高,大部分獎金也很少,所以收益應該不高。雖然 Kaggle 號稱沉澱了一批數據愛好者、開源數據集和演算法模型,但沒有計算能力,數據的價值就無法真正變現。他們一定是需要尋找突破口的,所以現在被谷歌雲收購是最好的歸宿。」
值得注意的是,關於谷歌之於 Kaggle 的價值,王一婷更強調計算資源。在她看來,無論在數據、AI 還是機器學習領域,企業的最核心競爭優勢或者說行業門檻,都是大數據+雲計算。換句話說,只有與谷歌雲的基礎設施結合,Kaggle 才算是完成了生態鏈的閉環。因此,Kaggle 加入谷歌是理所應當的戰略布局(對谷歌亦然)。而在這一點上,結合了阿里雲計算資源的天池,同樣擁有巨大優勢。
同樣對 Kaggle 關注已久的 DataCastle CEO 張琳艷,則十分強調 Kaggle 的數據科學家社區 DNA。她向雷鋒網表示:
「我的第一反應是驚訝。一直覺得 Kaggle 是不小心闖入商業圈子的數據科學聖殿,說是一股清流也不為過——感覺商業模式不賺錢,卻也堅持做了這麼多年而且越做越大,題目越來越豐富,必定有種堅持在裡面。一直感覺他們離商業和資本很遙遠,但是總體來說很高興,因為這個消息給我們帶來了很大的信心。」
張琳艷十分認同谷歌雲計算資源對於 Kaggle 的價值,無論是針對數據安全,還是提供更大規模的數據集,並表示「這很有可能是 Google 對 Kaggle 吸引力最大的其中一點」。但她同時指出,計算環境對不同語言、框架的支持,帶來了額外的公平性和技術問題需要考慮。
DataFountain COO 陳娟的觀點,又與上述三位不同。她認為,加入谷歌固然帶來諸多優勢,但長期來看,Kaggle 將專註於僅僅作為一個競賽平台,業務單一,因而有利有弊。另一方面,她反對將計算資源看做數據競賽行業一項關鍵競爭力門檻的觀點。接入第三方計算資源並非難以做到,真正開放的平台也應該面向所有雲計算服務。
集合上述各位的表態與 Kaggle 的現實情況,一條現實情形變得十分清晰:只做競賽和社區,在資本層面沒有多少想像空間。國內的數據競賽平台,除了背靠阿里雲的天池(但阿里高層也希望天池做到收支平衡),均要另找出路。
路在何方?
3. 數據競賽平檯面臨的挑戰3.1 業務定位上文提到,平台很難通過核心的競賽業務賺錢。對此,張琳艷的解釋十分透徹:
「競賽是個小眾、低頻的行為,所以只是單純的競賽業務是很難大規模商業化的,而且競賽對於出題單位的門檻也很高,更進一步的縮小了業務的可擴展和複製性。所以競賽只是形式,通過競賽沉澱下來的方案、人才等才是真正有價值的。那麼變現渠道就不僅僅是競賽傭金這一種形式,解決方案眾包、人才眾包、獵頭招聘等都是它的變現渠道。」
雖然競賽是立身根基,但衍生業務才是平台活下去的手段。出於此,國內幾家主要競賽平台,均強調自身與 Kaggle 定位的不同:並沒打算像 Kaggle 那樣專註做競賽和社區,而要與其他服務對接、整合。
DataFountain 與 DataCastle 都打出了「培養下一代大數據人才」的口號。因而我們可以作出合理預期——培訓、招聘業務將成為他們的重點。
而天池的定位則十分不同。天池最早是為阿里巴巴集團內部服務的團隊,它的成立從一開始就考慮到滿足阿里雲的戰略需要。天池的許多經典競賽,其實是原先阿里內部的數據課題。天池打出的口號是:
「外腦+內腦」,利用「眾智」模式向外輸出大數據解決方案。
即把天池平台的個人開發者,與阿里雲內部專家團隊的智慧結合到一起,向企業客戶提供最頂尖的數據、AI 諮詢服務。而阿里 ET 人工智慧系統,便是阿里雲諮詢業務的核心品牌。
3.2 競賽屬性 VS 產品屬性可以看出,天池的定位十分重視 B 端。甚至可以說,在根本上是為有大數據解決方案需求的企業客戶創造價值。而早在 2015 年,《連線》雜誌就引用知情人士的發言,稱競賽的優勝方案有時不能給主辦企業帶來價值。這就牽扯出另外一個問題:
數據競賽和產品級的解決方案之間,究竟相隔多遠?
對此有一個圈內共識:Kaggle 的競賽優勝方案,只有很少一部分能直接應用於企業產品。對此的通常解釋是,比賽隊伍為追求極限,使用了大量 ensemble。而這對於實際產品非常雞肋,計算資源耗費過大。
Cloudera 的數據科學主管 Sean Owen認為,比賽就是單純的比賽,其應用意義有限:
「如果有任何公司認為,這些數據競賽能產生即刻能用的機器學習模型,他們一定腦子有毛病。這些參賽團隊把 Hadoop 輸出的點流數據表(clickstream table)作為比賽輸入,然後給出一連串在 Windows 上運行的 Python 或 R 語言代碼——但他們壓根兒不知道用這些代碼做什麼。而這也不是 Kaggle 的目標。數據競賽,是公司尋找技能人才,並做點品牌營銷的途徑,僅此而已。」
這就牽扯到了數據競賽的本質:到底是為競賽主辦方、企業客戶創造價值,為他們提供有實際價值的解決方案?還是偏向為參賽者提供價值,提供最佳的展示技能和練手的機會?
當然,這兩個方向並不矛盾,也不互相排斥。但在實際操作中,比賽的方式尤其是排名機制,往往要求在開發實用解決方案方面做出犧牲,兩者之間很難達到一個完美兼顧的平衡。而競賽平台,則可能不得不在比賽的競賽屬性 VS 產品屬性之間做出選擇。
3.3 B 端主辦競賽的企業客戶不足,是數據競賽平台發展緩慢的一大原因,國內國外皆是如此。這也是為什麼,張偉會看好與谷歌結合為 Kaggle 帶來的業界客戶關係。
張琳艷認為,B 端薄弱是受制於時下的市場發展階段。無論是她、陳娟還是王一婷,均認為當下的大數據競賽行業處在十分原始、不成熟的階段。企業對於數據開放、組織競賽心有疑慮。說白了,國內大多數企業並不懂得如何向「數據驅動型」組織轉型。
張琳艷列舉出三條市場不成熟的「癥狀」:
幾乎每個上規模的企業都有大量數據,但是如何合規合法合理的使用,不清楚;
企業內部的數據團隊實力參差不齊,對於平常的業務也許還可以,但是整理成一份賽題,無疑要求更高。
大家對競賽的理解,還停留在類似學校考試的層面。其實現在競賽平台上的競賽,問題和數據都來源於真實場景,而非之前的學術科研層面的理想環境,也就是比大家印象中的所謂『競賽』更落地。
受限於這些客觀因素,數據競賽的 B 端客戶少之又少、增長緩慢,新合作關係的拓展十分困難。各家競賽平台每年新舉辦的競賽數目,多則十幾個、少則個位數。然而競賽平台又沒有實力和資源來改變市場大氣候,導致拓展 B 端企業客戶效率低下、十分困難。
3.4 C 端當下的參賽者群體,國內國外有天壤之別。
DataFountain 透漏了一組數字:在 2016 年的 CCF 大賽,有 55% 的參賽者是在校學生。當問及這背後的原因,陳娟笑著說:「你看國內哪個做 IT 的,下班後還有時間搞競賽?」
採訪中,DataFountain 陳娟更傾向於從國內大數據行業發展的維度看待問題。據她觀察,其平台的參賽者主要有三個群體:學生、公司團體和個人。其中,學生群體在大多數比賽中佔據參賽者的絕大多數,而且在大多數時候表現非常不錯,常佔據排行榜的前幾位。究其原因,朱明倫認為,在校生有空閑有興趣,肯花時間肯鑽研,加之有明師指導,成績好實不足為奇。
第二個群體,是公司組織員工參賽。而這背後往往有明確的參賽目標——達到某個名次,為企業技術實力宣傳造勢。業內確實有公司在知名比賽中拔得頭籌,結果客戶絡繹不絕的例子。因此,這一參賽群體有經驗有壓力有動力,加之公司安排時間專門去做這件事,往往成績也很不錯。
第三個群體,是個人開發者。這一群體在國內不如 Kaggle 活躍,客觀上也難以大幅增長。
按照這一分類,C 端用戶唯一有增長潛力的群體是學生。而這未必是一個好消息。陳娟強調,C 端用戶的成長,是繁榮大數據競賽的必要條件,靠學生群體能否將之支撐起來?
目前,國內除天池以外,其餘幾家平台的用戶基數不多,在數千名到萬餘左右徘徊。相比號稱有 80 萬註冊用戶的 Kaggle,只相當於它的零頭。這裡的問題顯而易見——參賽用戶不足,社區難以活躍,好的方案也難以產生。如何耕耘 C 端,實是各平台的當務之急。
但對此也有不同聲音。張琳艷認為,國內競賽剛剛起步,現在的用戶未必具有代表性,尚待進一步觀察。而王一婷的觀點則更加樂觀,她認為,隨著國內市場逐漸成熟,國內參賽者群體會與國外逐漸趨同。在她看來,國內用戶與 Kaggle 的最大區別在於分享習慣。Kaggle 有積累了多年的社區氛圍,用戶樂於在論壇進行技術討論和分享。相比之下,國內用戶的分享習慣尚未養成。如何把社區內部的溝通氛圍營造起來,培養用戶粘性,才是最大挑戰。
4. 天池向左,DataFountain 向右?首先需指出,各平台現階段的商業模式仍在摸索,下一步的計劃也更多是「思路」,而非「戰略」。
天池和 DataFountain 應對上文這些挑戰的方式,截然不同。
天池的計劃總結起來,可概括為:「高精尖」,加速國際化,結合阿里 ET;
而 DataFountain 的思路可概括為:眾包,深耕 C 端,建立開放的全生態。
4.1 「高精尖」VS 眾包
天池的目標,無論是在數據、題目設置還是最終解決方案上,都希望達到業內頂尖水平。因此而集中精力做精品賽題,甚至是世界級難題,是謂「高精尖」思路。天池將聯合英特兒、國內公立醫院推出的肺癌診斷競賽,便可作為代表。天池的重點,是向阿里雲的企業客戶輸出技術。在競賽的性質上,也偏重於實際解決方案,務求儘可能還原真實業務場景。
DataFountain 同樣強調為 B 端企業客戶創造價值的必要性。陳娟認為,這是數據競賽平台行業的最大門檻。長期來看,擁有一支能高效與企業對接的數據專家隊伍,能進行高水平的賽題設置,是平台的核心競爭力之一。但是,陳並不看好以數據競賽形式解決世界級難題這樣的「大單」,而認為真正的市場是「多而小」的數據任務:若把數據競賽市場比喻為金字塔,塔尖所代表的業務量很小,絕大部分市場空間都在中底部。雖然當下的競賽市場離真正的眾包還有很遠,但 DataFountain 更看重中小企業的數據服務需求,並希望最終能將之與參賽者進行充分對接。
4.2 B 端在當下 B 端市場不成熟,工業界對數據競賽認識不足的情況下,各平台頗有「等風來」的意味。引用王一婷的表述:
「我覺得數據競賽市場真正打開需要的是時間,讓更多的傳統企業能擁抱 AI 的時間。」
陳娟則樂觀得多:
國內數據競賽市場,能做好的話,預測一兩年就會有繁榮景象。
這背後的原因,在於政府。陳娟認為,我國各級政府單位近年來推動數據公開的力度越來越大,上海市政府便是範例(比如 SODA)。這帶動的國企、公立醫院等也開始進行相關嘗試。開放公共數據是大勢所趨,而在一兩年內,就可能量變引發質變,並由此帶動民營經濟領域的數據開放。
屆時,便是行業洗牌的時候。
4.3 C 端兩家平台的 C 端思路也完全不同。近年來,阿里雲在國際市場上動作頻頻。去年與軟銀合作,在日本推出「SB Cloud」品牌,便是一個頗令人矚目的例子。作為阿里雲的子部門,天池是國內競賽平台中迄今為止,唯一有國際化大動作的一家。王一婷表示:
「天池的國際化腳步才剛剛邁開,這是我們需要加快步伐的地方,所以今年我們成功申請了國際數據挖掘領域最頂級賽事 KDD-Cup 2017 的舉辦權,以此向全世界的數據愛好者張開雙臂。」
在與雷鋒網的採訪中,王一婷多次提到,當下天池平台的用戶基本都是海內外華人,她們有意改變這一點。
陳娟則認為,如能充分挖掘國內市場,單是把全國計算機專業的學生動員起來,就是十分可觀的用戶基礎。在這方面,作為中國計算機學會 CCF 官方指定平台的 DataFountain,有著天然優勢。陳表示,「深耕 C 端這件事必須有人去做」。如果國內沒人做,數據競賽市場很難真正做大。
最後,針對國內市場, DataCastle 張琳艷如此評論道:
「最經典的就是賣鞋的例子了,沒有人穿鞋,到底是挑戰還是機遇呢?」
※三星Note 7 之後,你對三星發布會還有期待嗎?
※地平線自動駕駛的野心:兩年內部署1000輛車,我們的技術有可能跑贏美國
※揭密谷歌的下一個野心: 複製一個新矽谷
※收購特斯拉5%股份,騰訊要開車啦
※蘋果推出 iOS 10.3 更新,升級前來看看有哪些新功能
TAG:雷鋒網 |
※如何使用Python對Instagram進行數據分析?
※E3在全球反響如何?看看Facebook的數據統計吧
※OurWorldinData:用數據看世界
※當Kotlin遇見RxJava多數據源
※AR數據平台Escher Reality亮相Y Combinator路演
※從比賽數據入手,Pandascore 希望從周邊撬動電競行業產業鏈
※lolesports發布S7入圍賽數據,Zero完美KDA高居榜首
※AI Challenger 開賽:國內最大規模深度學習數據集上線
※國內首屆AI Challenger正式開賽,數據集已開放下載
※從 Snapchat 那裡抄襲而來的 Stories 功能上線一周年,Instagram 分享了一些數據
※ThreatMetrix最新數據顯示全球品牌在中國面臨網路犯罪挑戰
※Ralph Toledano離開Puig品牌,Lululemon發布不佳業績數據
※SpringMVC+Mybatis實現的Mysql分頁數據查詢
※ColumnStore在大數據中的應用實踐
※如何用Python對數據進行差分
※springmvc(四)springmvc的數據校驗的實現
※無Home鍵!iPhone 8現身網站數據:屏幕如此彪悍
※Infinidat發布對比測試數據,其HFA性能比Pure和EMC的AFA都好,但是……
※用數據告訴你sViper對陣WeFun競猜怎麼壓