當前位置:
首頁 > 知識 > 從數據競賽到專業第三方數據平台,科賽是如何高效提升「數據工作者」價值的?

從數據競賽到專業第三方數據平台,科賽是如何高效提升「數據工作者」價值的?

高新技術人才在數據智能方向上的招募和培養,是互聯網企業所面臨的最主要的問題之一,而關鍵人才的招募和培養,有著很高的試錯成本。數據人才永遠是招聘市場上最稀缺、搶手的崗位之一,入職後也會頻繁面臨獵頭拋出的橄欖枝。在這種激烈的人才爭奪的環境下,能在求職者中發掘真正認可自身事業的優秀專業人才,就成為了企業招聘工作的重點。

近年來,國內外的科技公司逐漸採用數據競賽的形式來招聘、篩選、培養人才。數據競賽能夠把前沿問題開放出來,包括背景問題、相關數據、評價標準、賽事獎金。對於喜歡挑戰,有好奇心,有自信的專業數據人才來說,數據競賽要比宣講會、招聘廣告有更強的吸引力。

自 2014 年起,國內湧現出多家數據競賽平台,如阿里雲旗下的天池,中國科學院孵化出的 DataFountain,成都電子科技大學創立的 DataCastle 等。尤其是去年穀歌雲收購世界首屈一指的數據科學、機器學習開發者社區和競賽平台 Kaggle 之後,大數據競賽平台呈現出一片欣欣向榮的景象。然而,數據競賽有多大的穩定持續的市場空間,行業前景如何,以及如何實現商業變現,是所有數據競賽平台的組織者和運營者所要面對的問題。

從 2014 年上海交通大學的一間宿舍開始,范向偉創建了擁有賽事報名、方案提交、活動管理、團隊管理等簡單功能的早期網站 —— 這便是科賽網(https://www.kesci.com/)的前身。4 年過後,科賽網目前已經成為國內頂尖的第三方專業數據平台,意在通過線上社區與在線數據分析工具與線上社區結合打造高質量的數據人才平台,並採用數據演算法比賽、訓練營、培訓及企業諮詢等完整解決方案對接企業需求,不斷釋放數據和人才的價值。AI 研習社採訪到了科賽網 CEO 范向偉,讓他來為開發者們解讀科賽網的發展現狀,數據競賽平台遇到的困境以及未來的發展方向。

以下是採訪內容:

1.您本科學的是會計專業,曾經做過一年的金融分析,為什麼後來會選擇去上海交通大學學習統計學並創辦科賽網?

我本科學的是財務管理,畢業的第一份工作是在法國最大的私人銀行之一、羅斯柴爾德家族銀行從事資產管理的工作,用資產管理的方法論分析了我自己的興趣、志向和當前的環境之後,我決定離開金融行業,轉專業到數學和統計的方向,由於基礎知識差太多,用了一整年在圖書館自習補課。

我在金融行業的時候就接觸了很多風險投資領域的項目,對於創業和投資有了基本的認識,我覺得相比投資,自己對於創業有更大的興趣。

創業最開始是從自己的痛點出發,我在數學系學習的過程中,發現理論聯繫實際其實很不容易,只有極少數人能夠把學到的知識真正應用於生活和工作中,尤其在數學這樣抽象的學科,就更困難了。於是我萌生出一個想法,希望能夠去幫助他人在實踐中學習知識、應用知識、積累知識。由於我的專業是數據相關,所以將起步的切入點對準了數據工作者,也選擇了數據競賽這樣一個脫胎於數學教學的運營模式。

我發現「數據工作者」的職能非常重要,但卻也很小眾,甚至在許多機構中是被邊緣化的。國內當時還並沒有一個公司或產品,以提高數據工作者的價值為目標去開展工作。

競賽平台這個模式的意義是整合資源,讓用戶能夠通過接觸真實問題、真實數據,得到相應激勵,找到對口合作夥伴,更好的實踐與成長。

同時,為了幫助用戶提升數據分析的工作效率和協同痛點,我們經過兩年的研發推出了在雲端管理底層基礎架構,統一數據資源、算力資源、演算法框架、項目文件的在線分析工具 K-Lab 。

2.近期,科賽加入了百度 AI 加速器,請問未來科賽在人才、數據、競賽等方面會跟百度有哪些合作?

百度作為國內 AI 領域的領導企業,在 AI 領域有很多的先進的經驗積累和技術積累,這些對於科賽網的用戶來說,都是寶貴的資源,可以幫助他們實現更快速、精準的成長。

科賽和百度 AI 事業部會深度合作,舉辦一系列的 AI 應用大賽與AI創新大賽。

科賽已經和百度完成了一次賽事合作,即基於 PaddlePaddle 的深度學習框架和愛奇藝的綜藝視頻數據,希望找到能夠自動識別視頻中精彩片段的深度學習演算法模型。在比賽過程中,冠軍選手提交的演算法已經達到了百度AI部門的最好成績,提出這一問題的百度 AI 科學家也很驚喜,認為行業中還有很多有挑戰、有價值的 AI 問題值得用競賽的方式來探索和解決。

3.很多數據競賽往往會在開發實用解決方案方面做出犧牲,那在為企業客戶創造價值和為參賽者提供價值方面,科賽是如何平衡的?

為客戶創造價值和為參賽者提供價值並不矛盾對立,二者同在數據價值創造上的目標和要求是一致的。

舉幾個例子:

我們和聯通合作,預測哪些用戶會在短期內置換手機,從而可以進行手機套餐的精準營銷,最後方案的預測準確率提高了 15%。

我們和攜程合作,基於航班時刻表數據和機場天氣數據,進行航班晚點的預測分析,這個問題是攜程的 CEO 梁建章提出的老大難問題,在科賽網,一個月內就得到了比過去方案好出 12% 的預測效果,目前優秀選手的方案已經應用在了攜程的系統之中,在特定航線之中進行晚點預判和預報。作為上海最大的互聯網公司,攜程已經和我們合作了六個數據分析項目,100% 都取得了超過企業內部的效果,平均每個項目的 ROI 是 200 萬。

從培訓角度,為了幫助我們的平台用戶學習成長,我們已經和好未來、百度、雲叢、拍拍貸合作,舉辦過涵蓋教育、金融、視頻、人臉、金融等垂直行業的在線人才訓練營,把行業裡面最好的專家、最好的問題、最好的案例拿出來給到我們社區的用戶,讓學習圍繞著問題和需求展開。

從項目角度,為了幫助我們的平台用戶積累項目經驗,科賽已經開放了 50 個行業真實問題,積累了 2000 多個數據項目案例,這些問題的數據規模和實用性,比許多高校所能夠提供的資源都豐富。

最後從社會協作能力角度來說,科賽吸引了 3 萬名數據人才的加入,這些人才的總體質量非常高,他們一共形成過 15000 個項目團隊,許多團隊的典型配置就是學長帶學弟,在職用戶帶高校用戶,這種高質量的項目互動經驗對於一個人的成長是隱藏但關鍵的的寶貴資產。

4.目前,各平台現階段的商業模式仍在摸索,對於科賽來講有哪些商業變現的方式?

科賽的商業模式面向企業級服務,包括了諮詢服務和軟體產品,數據項目眾包和數據人才招聘是我們目前主要的營收來源。

在諮詢服務方面,為了服務像平安、聯通、華為、招行這樣的一線客戶,科賽團隊安排了精兵強將進行賽事項目的籌備和運營,科賽的賽事運營團隊包括畢業於哥大、CMU、華威等知名院校的專業數據分析人才,從賽題籌備、數據清洗、規則制定、賽事宣傳、選手答疑、作品分析、總結彙報的每一個環節都深度參與、確保組織工作的準確無誤。

軟體產品即 K-Lab,面向需要進行數據分析團隊管理、數據分析教育及協作等工作的機構,以高校、培訓機構、企業類客戶為主。

5.除了商業變現,數據競賽行業還面臨哪些挑戰?

主要的挑戰就是可持續發展和商業化的平衡。

6.與 DataCastle、阿里雲天池、DataFountain 等國內數據競賽平台相比,科賽的優勢和特點在哪裡?

優勢在於團隊和產品。團隊是所有產品和服務的出發點,我們很重視團隊建設。科賽團隊的大部分成員是知名院校和知名企業出來的專業人才,和科賽合作過的客戶都會對我們團隊的專業性留下深刻印象,所以也很願意為我們推薦新的客戶,再次與我們合作。

企業客戶和開發者社區了解科賽主要是因為數據比賽,但實際上科賽大部分的人員投入是在產品研發上,科賽的工程師團隊大多來自BAT的核心研發部門。

我們的核心產品 K-Lab,整合了 Docker、Kubernetes、Jupyter 等最新技術,對數據分析與機器學習的多人協作場景進行了深度優化。

K-Lab 對於科賽的數據競賽業務是極大的賦能,大幅提高了賽事組織的效率和效果。數據競賽是一種開放式的數據分析項目,成百上千的團隊會從不同的角度對數據進行處理加工,並基於分析結果展開競爭。數據賽事項目出現的常見問題,比如數據質量、測評方式,都會對比賽選手和主辦方造成很大的溝通解決成本,如果問題無法得到及時解決,不僅會影響賽事選拔人才、吸收創意的目標,也會在技術社區中留下主辦方不專業的印象。

通過 K-Lab 的協作平台,數據分析項目所需要的元素都儲存在統一的環境中,賽事籌備和組織的效率有了顯著提升,賽事過程中發現的細節問題,也可以得到及時調整。

優秀的演算法方案,除了更高的準確度之外,還需要有良好的運行效率、可拓展性、可解釋性等等,這些具體性質都需要通過代碼復現來確認。參賽團隊的模型成果、分析結果可在 K-Lab 中得到完整復現,便於主辦方篩選人才,交流演算法。

7.企業以及政府推動數據公開的力度越來越大,開放公共數據逐漸成為趨勢,這會對數據競賽和數據分析行業帶來哪些改變?

數據越來越多對大家來說都是好事,可以用的數據資源、算力資源都變多了,對於數據分析行業來說會是一個重要推動。

8.數據競賽行業的發展趨勢是怎樣的?未來究竟有多大的市場空間?

數據競賽的需求一直都會存在,但市場空間並不大,因為沒有什麼門檻和壁壘,如果沒有很強的專業度和附加值,企業也願意讓 HR 和市場團隊自己來辦比賽。我們相信企業級的數據服務、人才服務的市場是會一直增加的,因為數據在增加,人才的潛力也在增加,賦能人才、激活數據,這個對於企業來說就是很大的價值,相比競賽的模式本身,這更多是產品層面、諮詢層面的服務。

9.關於科賽網的未來,您是如何規劃的?

未來的市場機會很廣闊,市場格局的變化也會很快,我們認為只要積累了核心能力,未來就會有機會去承擔更大的責任,這個具體的機會窗口往往是很難預判的。科賽的核心能力就是做好產品和服務,然後用這個能力去幫助中國新一代的數據工作者一起成長,伴隨中國最優秀的企業完成數據化和智能化的升級。

NLP 工程師入門實踐班

三大模塊,五大應用,知識點全覆蓋;

海外博士講師,豐富項目分享經驗;

理論+實踐,帶你實戰典型行業應用;

專業答疑社群,討論得出新知。

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

Kaggle 大神 Eureka 的高手進階之路


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

看阿里 AliOS 神燈團隊在推薦系統上的獨門秘籍
手把手教你用 R 語言分析歌詞

TAG:AI研習社 |