Airbnb Head of Data Science:一文帶你看懂數據科學
在一家高速增長的企業擔任領導工作特別有意思。為什麼這麼說呢?因為與其他企業不同,你不僅要把握住一個個改變現狀的機會,還被賦予了推動企業源源不斷推陳出新的使命。而我又從事數據科學,這本就是當下發展最迅速的領域之一,這就對「推陳出新」的速度提出了更上一層的要求。
在Airbnb,我們認為Data不僅僅是數據,而是代表了Airbnb全體用戶的一個聲音。我們的目標則有兩個,一是讓Data Scientist(數據科學家,簡稱DS)將這個聲音的影響最大化,二是讓我們麾下的這些數據科學家們能夠熱愛自己的工作。想實現這兩個目標,要走的路還很長,但我們正在不斷地探索改進的方法。近來,我司針對目標建立了一個定義數據科學角色的框架,在此分享給大家。我們也希望其他公司在尋找數據科學的角色定位時,能夠在這個框架的幫助下建立起屬於自己的戰略模式。
簡單來說,這一框架將企業的數據科學工作劃分為三個方向:分析方向、推理方向及演算法方向。下面,我會向大家講述Airbnb是如何在數據科學部的發展中這孕育出三個方向的,且聽我慢慢道來。
五花八門的title
在Airbnb,數據科學部的源起只是一個做分析工作的小團隊。我將這一階段的團隊戲稱為「A-team」,這個詞在英文中大約是「精英小組」的意思。當公司招募到第一名從事專業分析工作的員工時,「A-team」也就誕生了。2012年的時候,我從事的崗位名稱叫做「Data Scientist」。後來公司招了一名「Data Architect」,負責數據質量的相關工作。其後,又招了一個「Data Analytics Specialists」,其主要工作是幫助彌合數據存取及不同工具之間的gap。再後來,隨著機器學習研究工作的出現,我們又開始招「Machine Learning Data Scientists」。這些崗位名稱的演變不僅反映了不同時期的團隊需求,也是市場競爭格局變化的體現。2015年,我司正式成立了數據科學部門,但我們團隊依然自稱「A-team」,因為這樣叫起來更有趣兒,也體現了我們所珍視的那一段團隊發展史。
2017年中的時候,我走上了數據科學部的領導崗位,那時我們部大約有80名DS,且按一定人數組成了數個團隊。其中有的負責建dashboard,有的負責建NLP,其他人則負責建一些決策及實驗設計相關的模型……DS們的工作內容繽紛多樣,每個人都各司其職。
一門新興學科的快速崛起
數據科學的內容之豐富其實是可以想見的。雖然數據科學相對而言是一門較新的學問,但其增長速度卻不可小覷。這一點我們通過數據就可以驗證。首先,我們可以從Airbnb內部來看。下面這張圖表展示了Airbnb從2015年至2018年收到的對數據科學職位的申請數,可以看到這一數字在四年間翻了兩番(也即2018年為2015年的四倍)。
(當然,這一數據也受到應聘者對Airbnb公司本身的興趣以及其他因素的影響)
據GoogleTrends數據顯示,datascience的相關搜索次數也有明顯增長。
如上圖所示,人們對數據科學的興趣大約於2012年開始增長,六年內同樣翻了兩番。
除迅速成長為熱門行業之外,「數據科學」這個詞兒的含義也始終非常豐富。有時它指的是純粹的機器學習,有時則指一家科技公司的商業智能。儘管「數據科學」本身就是一門新興的學問,但它卻還在不斷地演變著、發展著。
數據科學內含的多樣性
觀察發現,大眾對數據科學這門學科的研究目標其實並不太清楚。至於從業者們的工作內容,也就自然不甚了解。
前面說了,數據科學的內含非常豐富,DS的工作內容也是繽紛多樣。但這種多樣性在公司中會表現為一種負面影響,即組織架構的混亂。由於不了解數據科學,團隊中的其他成員不知道DS能承擔怎樣的工作;而DS們自身也會搞不清自己在團隊中的角色定位。有的DS在日常工作中建模做得較多,其同事可能就會認為讓他們改做分析工作是一種資源浪費。反之,有的DS平日里分析做得多,其同事可能就會希望讓他們多去做建模。
正是這種外界的誤解,給DS們的工作帶來了挑戰:做分析的DS會覺得,雖然自己的工作對企業而言至關重要,但相比負責機器學習的DS而言,他們沒有得到足夠的尊重。之所以說分析工作重要,是因為企業的決策者們往往最需要的就是分析結果,這些分析結果能讓決策者越過技術的門檻,直觀地理解各類數據。Airbnb也曾對數據教育做過投資,建立了著名的Data University。但在公司內部,專業數據科學工作人員的數量還遠遠達不到預期。後來我們才意識到,這可能是我們在招聘啟事中的不當表述導致的。在崗位名稱上,雖然招募對象是隸屬於數據科學部的,但我們卻用了「Data Analytics Specialist」,導致這個崗位看起來就不像數據科學崗。但即便崗位名稱中寫了一個「Analytics」,在具體的工作描述中,我們的某些不當表述似乎反倒暗示了分析工作相比建模工作的不平等地位。
由此可見,數據科學部門在企業中的構建並沒有什麼一刀切的方法。儘管如此,領導層可以從自己企業的戰略及目標出發,定義數據科學工作者的身份以及其提升價值的形式。拿Airbnb來說,我們的目標是「championthe mission」。換句話說,我們要做的,永遠是公司最需要的。由此,我們認為我們最需要的數據科學人才,是那些符合當前商業需要的人。但與此同時,我們也會考慮到這個人是否擁有個體獨特性、是否對自己有著清晰的未來預期等等。
解決方案:給數據科學設計三種「口味」
經過大量的經驗交流和觀察研究,我們最終決定打造一個全新的數據科學企業架構,這一架構可細分為三個方向:分析方向、演算法方向及推理方向。
- 分析方向:適合那些能提出關鍵問題、能準確找到數據切入點、能通過dashboard及可視化工具將分析自動化,以及能通過個人建議推動企業變革的人。
- 演算法方向:適合擁有機器學習領域的專業知識,能將數據融入產品及服務並創造企業價值的人。
- 推理方向:適合能運用數據改進我們的決策、測度我們工作影響力的統計學、經濟學、社會學研究者。
作為我們團隊中的DS,你必須至少在以上三個方向中的一個擁有足夠的專業知識。此外,我們還要求你能根據企業需要或個人興趣,「跨方向」掌握多種不同技能。當然了,在具體的每個方向內還會有更深層、更專業的分支。數據科學部的所有成員的崗位稱號都是「DataScientist」,而在崗位後的詳細描述中,則會進一步闡明其工作方向。
數據科學和其他行業不同,它沒有那些描述細分崗位的專業辭彙。比如工程師可以分為「前端」和「後端」。加上其中一個詞兒,你就會對這個人的技能及研究領域有更清楚的了解。雖然這種簡單的劃分並非完美,但相比簡單的一個「Engineering」而言,至少能更清楚地體現一個人的專業知識。數據科學就沒有這種語言上的便利,但也正因如此,我們才更要努力去推動、去創造。
Airbnb數據科學家們的方向選擇
新的考評機制
重塑部門架構之後,我們還根據新架構修改了對員工的績效考評標準,這其中又包含了不同層級的DS及管理人員。總體而言,我們的評判是根據每個人給企業帶來的影響做出的。針對技術性員工,我們在以下這些方面對評估框架做出了修改:
技術能力評估
- 分析方向:定義、監測指標,描述數據,設計能夠推動決策的工具
- 演算法方向:設計、闡釋能夠支持數據產品的演算法
- 推理方向:運用統計學建立因果關係
- 基本要求:保證數據質量,對自己所寫的代碼負直接責任(各方向技術人員皆需評估)
業務能力評估(各方向技術人員皆需評估)
- 領導力:能夠推動項目走向成功,激勵他人,產生影響力
- 溝通交流:溝通清晰,展現出團隊合作精神,能和他人建立友好關係
- 團隊文化:通過導師制度、企業文化、企業招聘等多種方式增進團隊建設
能寫的還有很多很多,但這裡最需要關注的一點是,我們針對不同方向的技術人員設計了不同的評估方法。
專業化的步伐何時開始
之所以要設置這樣的細分架構,是因為Airbnb的數據科學團隊已經足夠龐大了。如果是規模較小的企業來問我是否需要在團隊中加入專業度更高的員工,我則會建議他們先從基本的做起。在企業運營的早期我們也並沒有這種specialist,但這種缺失反倒讓我們得以快速完成最緊迫的項目,因為團隊中沒有過分嚴格的專業限制。隨著時間的發展,專業化是要會漸漸提上日程的,但我的建議還是從基本做起,畢竟迄今為止也沒有直接從專業化開始的商業案例。
我們是在2015年開始進行專業化的,那時我們的數據科學團隊共有30人。
隨著企業需求的變化,估計將來我們還會不斷修改數據科學部的角色定位。
改革的成果
即便是在完成了專業化的今天,我們每個方向上的DS也都會從事一些其他類型的工作,我們也非常鼓勵這種做法,希望每個人都能成為「博物學家」(雖然這種『博學』的發展趨勢可能會造成之前說過的那種職能『混亂』)。但總體而言,在改造組織架構後,員工們很少像以前那樣反應職能混亂的問題了。合伙人們也似乎適應了這一框架,不是會要求幾名「推理方向和演算法方向的員工」。如此看來,這樣的方向設定似乎也給大家帶來了業務溝通上的便利。
新架構的推出也有助於我們發現團隊短板。最近有一名產品經理向我反應,其團隊總是沒法提出創意性的實驗方法。在對其團隊構成做了簡單分析之後,我很快發現了問題:這位經理的數據科學小組中,沒有隸屬推理方向的員工。這一點或許可以在下次招聘的時候進行彌補,又或者可以讓這個小組向一位推理方向的專業化員工取取經。
此外,我們還高興地得知,分析方向的員工們不再像從前那樣有被排斥、被輕視的感覺了。分析方向的員工們也明白,如果他們在工作中應用機器學習方面的技能,其績效評估可能會變低。因此,他們將更積極地從事分析工作。
未來展望
我希望通過分享我們在Airbnb的故事,能夠讓更多的公司採用我們設計的框架。如果繼續使用「DataScience」這個模糊的、有歧義的說法,企業的招聘過程也會變得非常複雜繁瑣。如果所有企業都能夠使用相似的框架,數據科學界在向外傳遞自己的價值時,也會更加便利。
TAG:BitTiger |