這才是數據人才的黃金時代
「
如今,我們每個人都在談論「數據科學」,哈佛商業評論雜誌甚至將數據科學家定義為「21世紀最性感的職業」。在這個大數據時代,究竟什麼是數據科學?數據科學領域的科學家、頂尖從業者們又究竟是怎樣的一群人?他們在創造著什麼令人著迷的東西?DT君將在2018年走訪50位來自各行各業的數據科學領域的頂尖專家,希望能讓你們了解這些神奇的人和他們神秘事兒,為你們一窺數據科學的未來與未知。
數據科學如今像一個科技圈的「萬人迷」,它彷彿有著某種引力,吸引著各界人才、資本和新聞的頭條。你是想當看客,還是也想入場?DT君專訪獵聘網首席數據數據官單藝,帶你了解數據科學的人才市場。
▍數據的風,吹起來了
1999年的美國矽谷,互聯網行業正一片欣欣向榮的景象。
幾年前,Mosaic網頁瀏覽器(DT君註:Mosaic是最早的網頁瀏覽器之一,支持多種互聯網協議,是微軟Internet Explorer瀏覽器的前身。)的出現正式掀起了美國互聯網的熱潮。建立一個公開的網站,迅速成為上市公司們的必選動作。突然間,大家開始意識到:互聯網這種高效、雙向、即時性的通訊模式正在變革原有的商業社會。
廣告、銷售、製造等各行各業的人們,開始湧入互聯網這個新興行業。一時間,各路科技公司遍地開花,股票市場上的科技股漲勢兇猛,並在日後醞釀了一場「互聯網泡沫」。
對於當時很多在學校讀計算機科學的學生們來說,那是他們投身這場科技革命的原點——因為當時在矽谷,到處都是工作機會。
(圖片說明:舊金山的矽谷路標。作為互聯網科技的「革命聖地」,矽谷聚集了全球最優秀的科技公司和人才。雖然2000年的互聯網經歷了一波泡沫經濟的破裂,但是包括互聯網基建、互聯網工具、還有門戶網站等在內的科技行業卻也因此而得益,最終發展了起來;圖片來源:視覺中國)
如今,獵聘網的首席數據科學家單藝,就是在那個時候加入到了互聯網的大潮。
當時單藝剛來到美國,正在亞利桑那大學攻讀信息管理系統的博士學位。「比起科研,我感覺自己對解決業界的實際問題更感興趣」,單藝說當時美國熱烈的科技氛圍,讓他最終決定提前離開象牙塔。
告別了亞利桑那炙熱的沙漠和學院派寧靜的科研生活,他從學校轉身進入矽谷,開始了自己的數據科學職業生涯。
今天,活躍在各行各業的數據專家們,大多都經歷了那個時代,走在了數據騰飛的風口浪尖。
「當時還沒有什麼數據科學的概念。在我學習的信息系統專業時,課程會要求我們用信息去決策(數據決策)。所以在讀書的時候,我就逐漸感受到了數據的重要性。」學生時代培養的數據直覺,潛移默化中影響著單藝的職業選擇和判斷。
「我在矽谷的第一份工作,是負責CRM(客戶關係管理)領域的數據挖掘。」從數據界「出道」的時候,單藝最開始選擇的是CRM數據分析師的職位。
當年的數據挖掘還沒有Hadoop等分散式系統架構,也沒有完善的工具和語言。單藝他們當時做數據分析,都是用的Excel,不夠用的時候也會用Java自己寫一些程序。那個時候數據挖掘的目的也非常實際,不是人工智慧,也無關人類未來,「就是解決實際業務問題,那一單單的數據可都是錢吶。」 快20年過去了,雖然如今數據科學行業與當時已經大不同,但單藝談論起剛工作那會兒的事兒,依然興趣盎然。
「『數據科學家』這個稱謂最早在矽谷出現」,單藝說,「曾經坊間傳言稱『數據科學家』即是在矽谷工作的統計員」。在單藝看來,現在的數據科學與統計學密切相關。它以數理統計學為核心,結合了現代的概率論、機器學習、數據可視化、資料庫、軟體開發等多領域的理論和工具,目的是通過分析、挖掘數據,形成業務洞察和數據驅動的決策,並為此提供高效的工具。
「我當時每天思考的,都是如何根據業務從簡單的統計做起,怎麼建模,怎麼打通數據,最終解決實際問題。」對單藝自己來說,當時的他並不希望留在學校成為一個傳統的科學家,受到科技大環境影響的他,更希望進入到業界,把數據真正和業務結合起來。於是他放棄了繼續留在學校讀博,轉身投入到了更接地氣的工業界,開啟了自己的數據科學之路。
▍從分析師到CDO,他把數據科學上的「坑」全都踩了一遍
雖然第一份工作做的是數據分析師,但是單藝骨子裡還是一個程序員。
他一直喜歡自己寫程序,在工作之餘還保持著高昂的寫代碼熱情。後來他甚至為公司開發了一個複雜的中間鏈系統(用於打通公司內部的數據傳輸),然後順便,走上了系統開發的程序員道路。
從分析師到程序員的轉型跨度,不亞於重新換了個職業。
「其實,到現在來看,這也是區分數據科學行業兩種不同人才的重要標準。」單藝認為,分析師其實更偏諮詢,它要求與人溝通的能力和解決實際業務的能力;而程序員,或者說數據工程師,則更偏研究,要求的是編程、演算法等技術攻關能力。
「不過我自己轉型的時候還是蠻順利的,這可能跟我之前一直比較喜歡編程有關吧。」單藝靦腆地笑了笑。他現在仍然每天都在寫代碼,順手寫個小插件解決一些業務問題。對他來說,編程是日常生活的一部分。
隨著技術和計算能力的不斷發展,數據的應用開始迅速超越傳統行業,向數據量更大、計算更複雜、應用價值更超前的互聯網領域邁進。一時間傳統的描述性統計和Excel已經越來越力不從心。於是,單藝接下來從程序員又轉變角色,成為一名演算法工程師,完成了從商業數據挖掘到數據科學業務的轉型。
「當時離大數據最近的行業:一個是搜索,後來是廣告。」 如何實現搜索的個性化。怎麼樣根據上下文,把搜索變得更精準等等?基於海量的搜索數據,單藝有機會在最前線去探索數據科學的價值。
誤判了移動搜索的業務前景,算是單藝在數據科學路上踩過最大的坑。隨著智能手機的普及,他起初認為如日中天的互聯網搜索業務將來也會成為移動端的一大特點。但是移動端的搜索入口最終被海量APP佔領。單藝坦言,這是他當初沒有想到的。
後來他的角色又陸續發生了變化,擔任過幾家公司的演算法工程師,也勇敢地成為過創業者,一直到今天出任獵聘網的首席數據官,管理一個數十人的數據科學團隊。這麼多年來,可以說數據圈裡的「坑」,單藝多多少少都踩過一遍了。
「數據是用來解決問題的。」這是他多次職業選擇中始終堅持不變的原則。
▍「數據科學」是為了實踐,不是搞場實驗
一身Polo衫,穿著休閑短褲,如今的單藝還保留著當年程序員的那種質樸、實誠的感覺。
訪談中他一直強調自己是「做技術的」,是「要解決問題的」。DT君覺得,這可能是如今那些「十天掌握Python、零門檻機器學習實踐、一個月速成全棧工程師」等滿天飛的數據廣告,所欠缺的一份態度。
單藝說,在公司,數據科學家的職責核心是:如何讓數據在公司里產生最大價值。
「在實際中,我的工作內容是分階段的。開始的時候,我要負責搭建一個數據團隊;後來就根據問題、業務驅動來做項目;當團隊比較大、項目較為成熟後,我就要負責戰略方向,變現數據資源和人才的培養等。」
是騾子是馬,拉出來溜溜。在今天的數據科學產品中,最核心的關鍵詞一定是「智能化」。在獵聘,單藝一直致力於通過數據科學讓招聘更加「智能」。
(圖片說明:Google Trends顯示的最近五年Big Data與Artificial Intelligence在中國區域內的搜索指數。從2014年底開始,大數據和人工智慧開始逐漸受到人們關注,2015年迅速升溫。2016年初,AlphaGo的橫空出世帶動了人工智慧的持續火爆。到今天,人工智慧作為數據科學應用的一個主要載體,依然活躍在公眾的搜索視野中。)
單藝這兩年交的答卷,是機器伯樂和薪酬資料庫。
在互聯網招聘領域,最核心的問題在於:人崗匹配。獵聘做的是全行業招聘,但是三百六十行,每個行業都有不同的技能組,如何去量化這些技能組?然後智能匹配崗位和職業呢?
「比如招聘程序員和記者,程序員相對好一些,你可以說他需要會Hadoop,會Python,會R;但是記者又要怎麼量化呢?你說他會寫文章?什麼叫『會寫文章』?這個問題程序員也一樣可以細化,比如如何判斷他是一個熟練的Python工程師?什麼叫『熟練』?這個是非常有挑戰的任務。」
這就需要一套智能的機器學習模型。整體邏輯就是針對不同對象,考慮不同的體系,然後用歷史數據不斷去訓練機器,學習HR、用戶的使用偏好,從而推薦最合適的職位。用當下最時髦的話說,就是「人工智慧」。
這有點像淘寶的推薦系統。公司的HR就是購物的人,一份份的簡歷就是淘寶頁面的商品,當HR不斷去在上面選擇簡歷的時候,機器就會越來越懂公司選人的偏好,給HR推薦更加優質的簡歷。反過來也是一樣,當求職者不斷投遞簡歷的時候,機器也會根據你的投遞偏好、簡歷內容推薦更合適的單位。
「從數據上說,機器伯樂的應用讓網站推薦系統的滿意率,比以前高了一倍。」這是用數據創造的價值。
單藝還表示,未來獵聘還在考慮將求職者性格和公司文化這些因素也納入機器運算的範疇。從技術上來說,這會涉及更多心理學、社會學的內容,以及大量的標註數據。這是之後數據智能發展的方向。
談錢不傷感情。所謂求職,形式上是人崗的匹配,本質上是一個利益關係的交換。那錢的問題就不能不談。
「獵聘製作了一個內部的薪酬資料庫用來服務市場對薪酬數據的需求。」這是一個主要服務於B端的查詢產品,獵聘的數據來源包括線上採集和線下調研兩個方面。在確保數據準確性上,單藝表示資料庫大部分數據都是通過演算法來矯正、清理的。他們會經常把資料庫的分析結論製作成報告,發揮數據產品的社會價值。
比如,他們最近發布的報告就稱:中國數據科學行業正在蓬勃發展,但是人才難覓,行業薪資普遍較高。
▍21世紀最貴的是什麼?人才!
於是DT君問了單藝一個很關鍵的問題:為什麼這個數據科學行業會如此火爆呢?
DT君:「是不是因為它賺得多?」
單藝:「前提是你要考慮自己的興趣,你要真正喜歡。」
DT君:「但是它確實賺得多?」
單藝:「如果硬上弓,很容易觸摸到天花板。」
DT君:「但是它確實賺得多?」
單藝:「它確實賺得多。」
那到底賺的有多多呢?單藝說,根據獵聘的統計數據,數據科學的幾個行業缺口很大,不同的職能方向、年齡等因素,都會成為影響薪酬的因素。「整體來講,比同齡的的其他職位,薪酬水平要高出20%~50%。」
DT君在獵聘網上隨便找了兩個職位,你感受一下:一個三年工作經驗的記者的年薪在10-18w;同樣的,三年工作經驗的大數據系統工程師的年薪則在24-48w
。
(圖片說明:獵聘網上隨機搜索「記者」與「大數據工程師」職位的公開招聘信息對比)
當然,從數據分析的角度看,這麼比較薪酬並不科學,但是數據科學行業的火熱還是能通過互聯網直接地感受到的。
另一方面,這個行業也確實很缺人。根據獵聘網內部的人才短缺指數,數據科學人才的短缺指數,相較於其他行業,要高出2~3倍。原因主要有兩個方面:
第一,歷史上沒有積累; 第二,對人才的綜合素質要求高。這個崗位普遍要求人們掌握複雜的技能,演算法、編程、架構理解、業務等。
「但是歸根結底,對於每個人來說,這是一次重要的職業選擇。你要真正喜歡它才行,薪酬和人才指數,並不是關鍵。」
單藝接下來講了一個他在美國工作時候的故事。
大概十年前,互聯網開始流行網路博客的產品。當時他住在斯坦福的大學校園裡,在工作之餘,他很喜歡上博客瀏覽博主們分享各種有趣的事情。當博客文章越來越多後,他在尋找某些博客時,開始變得非常困難。
「我發現中文的博客上竟然沒有搜索功能,我想,為什麼我不自己寫一個博客搜索引擎呢?」於是,他就從斯坦福的校園裡拉了一根網線,建了個伺服器,不聲不響地把自己悶在家裡一個月,hack了一個中文的博客搜索引擎。
「當時我就在想:啊!斯坦福的網是真快啊哈哈。」
這個小產品當時在國內的博客圈裡還引起了一陣騷動。「每天都會有幾千人來訪問,我當時就覺得,嘿,還蠻好玩兒的。」
這個故事不僅要告訴你,興趣是最好的老師;還要告訴你,興趣也是最好的財神爺。
「當時我是出於個人愛好,做了這麼個小產品。後來一個在雅虎工作的朋友看到了,感覺:哎呦不錯。他就找到我說:我們正在雅虎做搜索引擎,你要不要來一起做做看?」
於是,單藝就加入了當時的搜索行業巨頭雅虎。時間一晃,就到了現在的位置。
「做數據科學,最重要的是:你要做的東西,是有價值的,這是最關鍵的。」回顧過去,單藝坦言自己也走過彎路,經歷過低潮,但是每當遇到岔路的時候,他總會問自己:這個東西能不能產生價值?你是不是真的喜歡?
沒錯,這個行業很熱,這個行業錢很多,但當你也想當弄潮兒的時候,DT君建議你不妨先問問自己:我真的喜歡么?如果答案是Yes,那就不要猶豫。
再多的坑,也怕有心人一個一個地踩。踩實的路,回頭看,就是一條康庄大道。
題圖 | 站酷海洛
▍關於數據科學50人
數據科技50人項目是DT財經旗下數據俠計劃重點內容產品,旨在與數據科學領域KOL共同挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。
※區塊鏈+能源,能擦出什麼樣的火花?
※互聯網球鞋數據洞察:耐克、阿迪誰更火?巴黎世家緣何崛起?
TAG:DT數據俠 |