怎樣才能持續聘到優秀的數據人才？

最新 06-30

按要求轉載自36kr

作者董老師

原作：How to Consistently Hire Remarkable Data Scientists 作者是Jeremy Stanley，Sailthru公司的主力數據科學家和EVP工程師，他負責將搭建公司智能的個性化營銷平台。他的數據科學團隊致力於預測、推薦及優化演算法。

數據人才們可以處理不確定性。不管我們打交道的數據有多「大」，它含有有限個有偏的潛在樣本。我們的模型在太簡單以至於無實際意義和太複雜以至於無法置信這兩種極端情況間平衡選擇。為了能找到控制數據雜訊的方法，我們不斷嘗試模擬、測試驗證。一個傑出的數據人才能夠對他的數據、方法以及結論保持適度的懷疑態度。

那麼當有一天數據科學家面對出現的全新挑戰：評估將成為他們團隊中一員的面試者。這個樣本空間下降的很快，實驗方法看起來不會那麼實用，面試中的偏差比我們實際工作中精心控制的數據偏差更呈現數量級的顯著倍增。

許多數據人才的領導者藉助於下面傳統的招聘技巧（實際上他們本不該這樣做）：

在開始建立我的新團隊時，我與許多數據科學人才溝通收集他們的想法和最佳實踐經驗。 Riley Newman（Airbnb公司的數據科學領導，他設計並實施了招聘數據人才完全不同的方法，他也是我之前溝通過幾次的這套系統的設計人）的想法對我的影響很大。我也從Florida項目中從Drew Conway身上學到了很多，他持續不斷的改進他的數據人才招聘流程，在他著名的數據科學維恩圖上正中目標。

在這篇文章里，我將闡釋我所採用的Riley開發的新流程目標，描述它的潛在原則，體驗我們開展的實驗。當然，這個嚮導離開發掘改善的機會同時更好的改進流程將是不完整的。

如何開始一場招聘改革？

在開展我們的招聘流程時，我們設定了以下測量目標：

準確：使新聘員工成為優秀員工的機會最大化

損失：使有好的應聘者過早離開招聘流程的機會最小化

成功：使聘任意向書被接受的機會最大化

努力：減少招聘團隊注意力長期分散機會。

任何有經驗的招聘經理乍一看，都會覺得同時提高這四項目標不現實。前三項目標在實際上是相互矛盾（例如：應聘者越優秀，讓他們接受聘任意向書的困難越大）。除此之外，提高全部目標看起來會給團隊施加更大的前行壓力。

在傳統的招聘流程中，如果他們的準確性高於50%，多數招聘經理會感到幸運。也就是說，他們所聘任的員工最終被證明優秀的機會將不超過一半。損失則很難測量（畢竟流程中失敗的應聘者將不會為你工作），同時多數招聘經理擔心他們會時常失去優秀人才，原因是冗長並困難重重的招聘流程。

在招聘數據人才這種競爭激烈的領域，強有力的應聘者經常會接到3個甚至更多offer，因此成功率通常低於50%。

招聘所需的當下的努力會輕易消耗數據工作團隊20%甚至更長時間。在向其他數據團隊的領導人證實這個實驗，我尋求實施流程能夠達到如下目標：

準確性：90%的新聘員工應該能成為傑出員工

損失：給與80%優秀的應聘者offer，使其通過招聘流程

成功：65%的聘任意向書被接受

努力：招聘只耗損數據團隊10%的時間精力

通過設計更智能的招聘流程——提高識別優秀應聘者的機會同時降低失去他們的風險——可以同時提高前三項目標。同時，增加早期投資，團隊當下的努力和精力分散狀況將會得以改善。

為了保障達成我們的目標，我們設置了一系列核心原則能夠用以招聘中任何模塊。促使每個人聚焦並使其流程化的原則能夠顯著的改善整個流程。這也在你不斷重複這個流程時也成為一個健康的生態基礎。它們是：

1、確保你的招聘流程持續完善。

招聘經常被認為是一個你所偶爾參與的任務或者一場周期性強消耗的閃電戰。相反，將你招聘流程構架為一台經常運轉的發動機，伴隨人才通過招聘漏斗不斷進入明確的下一步。這保證你不斷招聘，無論優秀的人才何時進入市場，你將都有機會參與。

投資一個常規運轉的流程將要求你將招聘作為鐵律。這將保持協議與結果的一致性，使你能收集你成功和失敗數據，促使你能夠像管理你的數據管道一樣用心的管理人才管道。

用你招聘流程映射你招聘需求的現實情況。

2.無情的事實：標準化的面試問題是致命的缺陷

詢問應聘者他們之前的經驗，你會發現他們是否能夠陳述另一項工作發生了什麼。問他們技術性問題，你會發現他們重新組織知識的能力。讓他們在白板上解決「玩具」一樣的問題，你會發現他們能怎樣快捷的解決玩具問題。一個能夠順利通過所有障礙的應聘者或許在實踐中是完全無用的數據人才。

為了重視這些缺陷，你必須首先對你想要應聘者在實際數據工作做什麼有一個非常清晰的理解。最高的要求是，你應該清楚你的團隊應該最終呈現什麼樣的最終產品。是否它是供決策制定者可視覺呈現和可分析的？設計或者原型是否給予開發者？或者實施者能夠在生產環境中被測量並給與支持？

接下來，你應該對你想讓成功的應聘者做什麼有一個清晰的理解。確定給一個數據人才5個解決問題的機會。對於每一個問題，保證你有（或者應該有理由能收集到）所需的數據，能夠呈現有效的結果（即使你不能親自設計它）。這些機會與你公司的近期目標，你的組織或產品如何可靠運轉，數據的現有或有理由產生的限制相關。

知道你的團隊如何完成數據項目以及你最想讓應聘者能夠處理什麼問題的挑戰，你能設計一個近似反映你的工作條件的招聘流程。這意味著你應該把應聘者放進一個近似代表你們天天面對的環境。如果他們能夠成功的在面試過程中適應環境，那麼他們長期成功的機會將大大增強。

進行目標評估首先要減少你的偏見。

3、有潛力成為最優表現者的應聘者可能會在傳統面試流程中失利

元兇是面試官的偏見。一旦你進入應聘者的面試房間，你就開始形成對他們能力的判定（很可能是無意識產生的）。有很多種這樣的偏見（這裡可查詢100多種認知偏見），但最常見的偏見是偏好那些與我們自己相似的人。

優秀的數據人才必須具備強大的數理及編程能力。這一點不折不扣。因此我們首先設計流程來測試這方面，接下來輪到問題解決和溝通能力等更主觀的能力（仍可被測量）。

越到最後階段，主觀原則越多，評估最耗時，也最容易產生評估偏差。使優秀的應聘者能夠在招聘流程漏斗的後部繼續將要平衡減少團隊工作量的益處和降低過早損失一個優秀應聘者的風險。

設計你要嚮應聘者展示的流程。

大多數面試流程在向高水準應聘者的應用中是失敗的。面試最好的情況是充滿壓力，而最差時單調苦悶。應聘者經常被迫向4個或更多面試官重複他們的故事並不斷回答他們的問題。之後當他們可以問幾個自己的問題時，他們會經常盡量設想自己在公司工作的樣子。接下來他們會為少有真誠的面試結果而等待很長時間。你將如何處理這種支離破碎的狀態。

創造一個你能給予應聘者數據以及能夠反映他們將在你的組織中面對實際挑戰的問題的流程。在此之上，確保你的招聘流程與你團隊的實際動態和文化相符，以使應聘者能夠獲得很多與實際工作相同的體驗。每一位應聘者應該帶著加入你的團隊可獲取的信任感完成整個面試流程。

與你的團隊一起做明智的決定，而不是你單槍匹馬。

不管如何招聘，每一位招聘經理都不得不面對艱難的抉擇。建立對招聘漏斗每一階段應聘者的清晰的評估框架，並依據此自信決策。這包括定義團隊所共識的目標和測量。

同時，與團隊一起開放的決策。這保證招聘經理能夠從參與招聘流程的每一個人那得到對於應聘者的直接反饋。更重要的是，這確保你們在尋求同一質量標準。開放的討論幫助你不斷改進招聘要求和策略。

最後，在評估應聘者時引入跨領域的招聘夥伴。數據科學領域從不是真空中工作。你將與決策者、工程師、產品經理合作。引入這些領域的關鍵招聘夥伴能夠使你所挑選的人才能夠跨越組織各部門。

優秀數據人才的招聘市場競爭激烈，因此你的流程應該確保你能夠快速在招聘漏斗中前行，保持高動能，降低他們接受競爭者offer的機會。快速的招聘需要有流線型的流程設計以確保速度與置信。投資能夠追蹤應聘者在招聘漏斗中每一階段多長時間的工具和後勤設施並快速到位的優化你的招聘系統將會為你贏得競爭優勢。

比市場行動更快

開始「遊戲」

在電影《模仿遊戲》中，Alan Turing的管理技能使英國對德國編碼設備的反情報破解工作幾近破產。當他意識到他需要幫助時，他已經在Bletchley公園孤立無援。無論如何，千鈞一髮時這個知名計算機科學家的優秀品質幫助他嘗試另闢蹊徑招募新的團隊成員。

為了打造他的團隊，Turing通過發布在《倫敦每日電訊報》一個猜字遊戲來尋找新的人才，邀請那些12分鐘之內完成該遊戲的應聘者申請神秘職位。成功的應聘者被召集在一個房間里在可控的環境下限定時間內挑戰他們的數學和問題解決能力。Turing最終給大約30個應聘者其中表現最好的2人發放了offer。

從這個案例中可以學習到很多東西。

這樣的流程確保Turing最大可能的向現有人才廣撒大網，用挑戰性問題和工作機會吸引他們，然後在可控的環境下驗證他們的技能。影片中的一個虛構環節，Turing招募了一個叫Joan Clarke的女應聘者，她成為了非常緊密的一名合作者。Joan是一個難得的天才，但是如果不是Turing採取了科學的招聘方法，而是存在一定的偏見，Joan幾乎可以確定從密碼破解團隊的角色中被忽略掉。

就像電影《模仿遊戲》，我們將應聘者放進一系列可以模擬他們工作環境以及容易評價他們在聘任後能否勝任工作所具備的問題解決能力的體驗環節。令人驚訝的是，通過正確的規劃和前期投入，這種方法比傳統的面試更加有效率，節省你的團隊時間。

面試流程在高的水準要求下包含兩個關鍵要素：

開放答卷：一種測試應聘者解決一系列逐漸增加難度問題的簡短練習

數據工作日：需要在團隊中針對一個或更多開發性問題工作一整天時間，用一個他們整體的工作報告向面試團隊做總結。

我們將這個流程作為招聘流程漏斗。在500個進入的申請者中，250人（50%）提交了開放答卷，25人（10%）通過了測試，20人（80%）參與了數據工作日，4個人（20%）將會通過測試，最終3個人（75%）接受了offer 。這意味著每發現一名優秀的僱員，我們需要超過150名申請者。

提升的關鍵幾個環境是（A）漏斗中申請者的質量，（B）申請開放答卷和數據工作日的成功率，（C）開放答卷和數據工作日的準確率。通過跟蹤你在漏斗中應聘者以及檢測每個階段的損失率（如：他們從哪裡來），你能確定成績較好和較差的測試環節。

給定我們四個直接目標——準確率（聘任優秀的人才）和成功率（確保他們接受offer）最大化，同時降低損失（應聘者過早放棄）和團隊時間精力損耗（團隊的長期時間精力損耗）——我們投入大量的時間來設計一個數據驅動並且有吸引力的清晰高效的流程。

這個流程包含如下6個階段，從簡單客觀逐漸過渡到複雜主觀：

前期核查：診斷脈搏

開放答卷：測試各項技能

銷售宣傳：確保他們能參加數據工作日

數據工作日：在現實、可控的環境中測試能力並評估文化

決策：進行快速決定性決策

溝通：跟進每一個數據工作日應聘者

讓我們看看每個階段更深入更策略的分析。

前期檢查

值得說明的是，我們不用提前篩查數據應聘者。我們不必核查他們的簡歷或者探討他們的經驗或認證。

如果他們有興趣（並且有email地址），我們給他們開放答卷測試。

這是我們版本的《模仿遊戲》字謎，這節省了大量的時間和精力去更快速服務更有希望的應聘者。

但是不進行核查的最重要的原因是它將會移除大量初始的偏見來源。很多非常有才智的應聘者沒有招聘者所期待的教育和經驗信息。這不僅僅意味著你將失去優秀的應聘者，同時也讓你更加激進的去尋找少數文案測試表現好的應聘者名單——每一個其他應聘者都想成為名單中的人。

開放答卷

開放答卷是極其重要的。這是過濾應聘者的第一道保障線，因大量的潛在申請從而需要你的團隊大量工作。這也是應聘者第一次能了解你的團隊工作的機會。這個階段不僅是一道阻攔在不合適的應聘者上浪費過多時間的屏障，同時也是向匹配角色的應聘者極其重要的宣傳窗口。因此，當你通過招聘漏斗收集了應聘者成績和興趣數據時，你應該不斷的優化該流程步驟。

有效的開放答卷應該具備如下的特徵：

可自我解釋——你想減少應聘者有問題詢問或者需要說明的機會

時間限制——對於有技能的應聘者完成應該花費不超過2個小時

分散脫敏——分布應該寬泛，不包括任何財產性或敏感性數據

相關性——與你實際工作中面臨的挑戰問題匹配

直接——清晰準確的表明你想通過測試考察的答案，你想怎樣評估應聘者的業績

循序漸進——逐步提升所問問題的難度，以便於簡單的辨認應聘者的實際技能水平。

設計開放答卷測試，首先從你數據團隊中現存的重要問題開始著手。在這些問題中，你可以從（A）擁有或者可以編纂出好的數據，（B）對於應聘者樂於解決，（C）能夠被簡化（大概粗略）成2個小時內被優秀的應聘者解答的問題，中挑出一個或者兩個。

當你收窄了問題的範圍後，編纂開放答卷中問題答案數據。理想情況下，這些數據來源於你的生產環境並足夠清晰，進行過修改或者加工匯總的，以至於當它落入任何人手中也不造成公司損失（假設數據最終將會這樣）。

替代方法是你能構造完全的虛假數據，但是要謹慎對待一些因數據不連續或者異常點引發的很多數據處理難題。我建議提供一百萬行數據(可能涉及多個文檔)——足以對代碼成效引起關注也不至於成為負擔。

一旦你配備了數據，創造2-3個非常清晰的，由易到難依次排列，並且具有確定性可測量答案的問題。確保你的問題不僅能測試應聘者的數據處理能力，同時也能測試他們的邏輯分析能力和模型解釋能力。

給出了配備的數據、選擇的問題和撰寫的指導文檔。應該有一份簡短易懂的文檔來描述所提供的數據並包含最終的問題；同時你應該指出應聘者應該用多長時間，不是強加給他們時間限制，而是暗示你評估需用多長時間，以便他們不會花費幾天時間在一個本應該花費幾個小時時間的問題上。

更重要的是，包括一個如何期待應聘者回答問題的部分。你希望他們使用什麼工具？你希望他們提交什麼樣的答案結果？代碼的質量方面你有何期待？可視化或者解釋是否對你重要？認真對待這些問題。這是你推薦你和你的組織的關鍵機會。

接下來，讓你其他的團隊成員或者社區朋友們測試開放答卷。通過這些讓你的答卷標準化，確保對你的判斷答案有反饋。你所要做的最後事情是避免給應聘者問題混淆。

最後，建立對所提交答卷的清晰的框架。考慮如下原則：

正確——他們是否得出了最終的正確答案？

符合邏輯——答案的推理是否符合邏輯？

假設——是否做了一些清晰的假設？

代碼質量——代碼是否可執行、可測試、有功能分塊、有標註？

有效率——代碼是否簡潔併合理有效？

技術可用性——他們使用的現代工具或參考是否合適？

溝通——答案是否清晰，呈現是否符合常理？

銷售宣傳

當應聘者通過開放答卷測試，你的下一個挑戰是確認他們能參加你的「數據工作日」面試。多數人會以為在你的辦公室的進行不超過4個小時的傳統面試——當然不會是一整天。讓他們相信值得花費一整天在你這裡是必要的。

銷售宣傳的關鍵部分是你如何與應聘者聯繫，你如何表述你將呈現的令人興奮的機會，你如何描述並準備「數據工作日」。這些應該指向建立他們的興趣和熱情——這不是你評價他們的時候。

每一個應聘者會被不同的因素所激發興趣，因此對於你來講認真傾聽並與他們直接談論他們在意的話題變得尤為關鍵。根據我的經驗，我發現如下的關鍵因素：

產品與公司的總體潛力

數據工作是如何開展的？哪裡報告的？對日後有什麼影響？

不久的未來數據工作的主要挑戰或機會是什麼？

數據工作如何跨部門與其他團隊配合？

所需數據的未來的範圍、大小與質量，未來可收集的機會

團隊如何管理他們的工作並協調不同優先事項與決定。

團隊要用到什麼特定的工具與技術。

最終你會發現那些不願或不能參加「數據工作日」的應聘者。或者這意味著你將失去一些應聘者，但也不得不承擔這個風險。

「數據工作日」會成為你評估所有應聘者的良好標準。

「數據工作日」

「數據工作日」是整個招聘流程的核心部分。它把對應聘者最終的技術、策略和技能評估以及對他/她在工作日中對於團隊和公司的文化體驗的適應性彙集在一起。有了充足的準備，完成這些並不比你的團隊開展傳統面試多需多少時間。

這些準備清單包括：

介紹：言簡意賅的描述工作日挑戰任務、數據和評估原則、應聘者成功所需指導的其他事項等介紹文檔。

數據：豐富的被抓取的生產數據可以挑戰並激發你的應聘者。優秀的數據人員應該能不知疲倦的在數據中工作長達一周時間。

筆記本電腦：嶄新性能良好的筆記本電腦將會和他們未來實際工作使用和處理數據所需的預備工具相同。

籌備是成功的數據工作日的關鍵。確保應聘者有激發他們更有產能的環境，可以最大限度地提高他們達成出色工作的時間。

準備介紹：

當應聘者來到他們的「數據工作日」現場，你該做的第一件事是給他們提供一份列印的系列指南。其中的部分包括（儘可能的詳細）：

簡介——一封歡迎信和對「數據工作日」的日程及任務介紹

免責聲明（或許是保密協議）——向你的法務部門諮詢是否需要免責聲明

目標——工作任務的總體精要概況和你所期望成功的「數據工作日」應得到的成果

建議的時限——你預期應聘者需要多長的時間。讓他們了解自己最大的挑戰是時間的限制。

數據——你所提供的數據的一個寬泛的描述，足以給下面章節的一些背景信息。

主題——4個或5個精簡的主體列表。

評價——你想從成功的應聘者中得到什麼

技術安裝——筆記本電腦提供的簡要的工具解釋。

數據信息

所提供數據的更全面詳盡的描述。每一個文檔，作為一個整體的內容描述，每一個包含的領域，和數據集的大小（行或觀測值的數量）。

最重要的事情是選擇研究主題。主題應該盡量差異化以便不同背景的應聘者能夠找到他們自己感興趣同時也是可進行的主題。同時，確保這些主題聚焦在對於你工作有價值的實際應用上。這樣既可以確保你所需要測試的技能，同時也能給應聘者關於你們團隊工作更加真實的感觸。

最後，研究主題應該只是作為建議。我更願意給與應聘者自由發揮的空間。最重要的是在結束時他們能夠對自己所做的有意義的分析和記錄感到自信。

記住，如果你的說明清晰切中要點的話，應聘者將花費更少的時間回答問題。

數據

下一個需要考慮的問題是應聘者所使用的數據。這個數據集將和開放答卷的數據集有兩點不同。第一數據不是廣泛分布的，因此你應該務必使用生產數據。但是記住當應聘者使用你提供的筆記本電腦時，他們將相互聯網，因此你無法確保完全的控制數據集。因此，確保沒有可確認個人身份的信息或者重要的戰略性數據在裡面。第二，數據集應該更大更豐富。可以包括更多觀測值，更多的數據集，更複雜的時間序列和每個觀測值更分散的數據點。數據工作日的一個重要的挑戰是需要應聘者執行「真實世界」的數據並且進行實證分析或者模型選擇。這通常需要忽略大量的現存的數據或者通過過濾或者歸併來顯著簡化數據。

最後，你會因優秀的應聘者使用你所提供的條件進行的創造而驚嘆不已。

你需要提前多少來預處理數據是一個重要的因素。總體而言，除非你特別想測試他們清洗繁雜數據的能力，我建議保持樣本數據足夠乾淨以確保他們不會把本該用於分析或者建模的時間浪費在數據清洗上。

筆記本電腦

嚮應聘者提供一台在可查詢的路徑下預裝了說明、數據和軟體的筆記本電腦。我們使用蘋果的MacBook Pro（所有的數據科學家和工程師使用Mac或者Linux工作），我們安裝了如下軟體：

HomeBrew

Anaconda (Python distribution)

RStudio

Emacs and Vim

Java 7

Eclipse

在HomeBrew的幫助下，數據人員能很快安裝其他需要的軟體。同時，我們把.CSV的數據文檔放進他們的根目錄下。我們建議應聘者使用開源的編輯語言（如Python，R或者Julia）提交他們的開放問卷以便每個人都習慣使用它。

時間表：

在公司一個典型的數據工作日是這樣的：

上午10:00—簽到

應聘者簽到，受到我們招聘團隊的歡迎，並參觀指定地點

上午10:05—搭檔

應聘者的搭檔（指定的數據科學團隊成員）帶應聘者喝咖啡並帶他/她參觀辦公室。

上午10:15—培訓

數據工作日拍檔給候選用筆記本和簡要說明嚮應聘者在哪裡可以找到數據

上午10:20—指導

應聘者坐下來閱讀行動指南檢查數據，並決定選擇一個研究方向

上午11:30—籌備會

應聘者認真聽取團隊籌備會，了解他或她的工作內容，並陳述他或她的研究方向是什麼。

上午12:30—午飯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大數據文摘 的精彩文章:

※埃森哲發布AI行業報告：十大經濟影響和八大應對策
※騰訊在Github上開放Angel代碼、新一季度京東市值大漲與百度僅差6億美元
※吳恩達重出江湖創deepinglearning.ai，域名在老東家百度之下
※數據主義：如果把全人類及其進化史看作一個數據處理系統……
※數據軍備競賽：如何武裝自己的數據團隊？《頂級數據團隊建設報告》7月11日重磅發布

TAG:大數據文摘 |

您可能感興趣

※又到了跳槽的黃金季節，帶你探究下所謂的直聘到底靠不靠譜
※發審委辦法將修改，委員人數由66人減至35人，從解聘到追責都更嚴，請看十大變化
※從小米、獵聘到51信用卡，為什麼互聯網科技公司扎堆在港股上市？