數據科學進階之路:了解數據科學工作,管理數據科學家團隊
雷鋒網 AI 研習社按:本篇是來自 Schibsted 多媒體組的數據科學經理 Alex 發佈於 Medium 上的一篇文章,作者結合自身四年的行業經驗,詳細介紹了實際的數據科學工作,以及如何管理好數據科學團隊,雷鋒網 AI 研習社對原文進行了編譯整理,譯者 s5248、隔壁王大喵。
2014 年我加入 Schibsted 傳媒集團的一個小團隊,當時是第六位數據科學家。這些年,我在這家公司研究了許多數據科學方法,目前該公司已經有 40 多名數據科學家了。在這篇文章中,我將回顧過去四年所學到的經驗-——首先是作為數據科學家的經驗,然後是作為數據科學管理者的經驗。
這篇文章仿效 Robert Chang「在推特搞數據科學」一文,他的那篇文章非常有價值。我希望能為世界各地的數據科學家和數據科學管理人員提供同樣有價值的思考。
這篇文章分為兩部分:
第一部分:數據科學家的實際工作
第二部分:如何管理數據科學家團隊
第一部分著重於描述數據科學家要做的實際工作,而第二部分則討論如何管理數據科學團隊以獲得最大的影響力。我認為這兩個部分對科學家和管理者來說是相互聯繫的。
我不會花很多時間來界定怎樣才算或不算數據科學家?,網上已經有很多文章來討論這一點了。
關於 Schibsted:這是一家在全球 20 多個國家擁有用戶和市場的媒體公司,我主要負責市場業務。如果你想看幾個 Schibsted 數據科學工作的一些具體案例,這裡有 3 個選擇:
汽車定價
預測可能的新聞訂閱者
推斷用戶屬性
說完這些,讓我們進入正題吧!
第一部分:現實世界中的數據科學
充滿雄心壯志,在一家公司當數據科學家,這真的很讓人興奮,但也會讓人望而生畏。比如:周圍人對自己的期望是什麼?同齡人有什麼技能?應該怎樣工作才能對公司有用?
作為一位被吹得天花亂墜的數據科學家,有時很難覺得自己不是騙子。
由於擔心被認為是在做一些容易的事情,數據科學家常常被迫選擇首先關注更複雜的情形。這就引出了第一課。
1. 太複雜會增加成本——從簡單的開始
他們聘請了一名數據科學家,所以這個問題肯定很複雜,對吧?
不要被複雜的事物所誘惑
這種假設常常會使你誤入歧途,從而不能成為一名真正的數據科學家。
首先,你在行業中遇到的問題通常可以用相當簡單的方法來解決。
其次,重要的是要記住太複雜會增加成本。一個複雜的模型可能需要更多的工作,具有更高的錯誤風險,更難向股東解釋清楚。因此,你首先應該採取最簡單的方法。
那麼,怎麼知道最簡單的方法是否足夠好呢?
2. 總有基準
如果沒有比較模型性能的基準,那麼你的評估指標可能毫無意義。
我們建立了一個模型(保留模型,retention model)來預測用戶回到我們網站的概率。基於用戶的行為,我們的模型大約有15個特徵,ROC-AUC 在 0.8 左右。與隨機性能的 0.5 相比,我們對這個結果相當滿意。
但當我們把模型分解為兩個最有預測能力的特徵:recency(最近訪問的那一天)和 frequency(過去訪問的天數),通過這兩個變數的 logistic 回歸,ROC-AUC 達到了 78% 。換句話說,我們可以扔掉多餘 85% 的特徵來達到超過 97% 的性能。
我有很多次看到數據科學家基於複雜的模型報告離線實驗結果,沒有任何比較基準。每當你看到這種情況,你都應該問:我們能用一個更簡單的模型取得同樣的結果嗎?
3. 使用你所擁有的數據
一天,我和一名數據工程師、一名數據科學家共進午餐。這位科學家談到,只要他有 X,Y,Z 的數據,就能做出令人驚奇的事情。他的眼神都在發光。但工程師突然說道:「你們數據科學家總是在談論你獲取了實際獲取不到的數據時能做什麼。那麼就你所擁有的數據你能做些什麼呢?!」
這聽起來很刺耳,但工程師表達了一個重要的真理:永遠也不會有完美的數據集,而且總會有你可以使用的數據。在大多數情況下,你可以用你的數據做點什麼。
4. 擁有數據
與上述觀點相關的是,數據質量和完整性幾乎總是同一個問題。你需要去獲取你需要的數據,而不是坐在那裡等待某人把數據給你。
我不是在討論數據治理模型中的真正所有權。我的意思是擴展你的角色,幫助你找到自己需要的數據。
這可能有助於數據收集的模式和格式,這可能意味著查看 Web 應用程序前端執行的 JavaScript 代碼,以確保在合適的時候才觸發事件。或者這可能意味著建立數據管道——不要期望數據工程師來為你做好一切。
5. 忘記數據
這似乎與我上面說的一切相矛盾,非常重要的一點是不要太受束縛於手頭的數據。
空白的黑板
當出現一個新問題時,首先應該嘗試忘記數據。為什麼?現有的數據會限制你想出更多的解決辦法,它會分散你尋找最佳方法的注意力。你會陷入局部最優,只在手頭已有數據的基礎上思考問題(開發勝於研究)。
6. 形成一種微妙的因果性
我們都知道相關性並不意味著存在因果關係。問題在於,許多數據科學家都止步於此,並迴避做出因果聲明。
懦夫對因果關係的探討
為什麼那是個問題?因為產品經理、營銷團隊、CEO,或者和你一起工作的人都不在乎相關性。他們更關心因果關係。
產品經理希望當她決定推出這個新功能時,有信心將訂單量提高 10%。營銷團隊希望知道,電子郵件數量從每周 2 封增加到 4 封不會導致人們退出郵件列表。CEO 想知道,投資於更精準的功能可以帶來廣告收入的增加。
那麼有折中辦法嗎?似乎有兩個。
最著名的是在線實驗。基本上你會進行隨機試驗?——?A/B 測試是最常見的。想法很簡單,隨機選擇目標群體和對照組,如果發現兩組之間有統計學上的顯著差異,我們所採用的辦法就被認為是因果參數。
根據我的經驗,大多數數據科學家在構建機器學習模型和離線評估方面有豐富的經驗。而在在線評估和實驗方面有經驗的數據科學家要少得多。原因很簡單:你可以從 Kaggle 上下載一個數據集,訓練一個模型,並在幾分鐘內對它進行線下評估。另一方面,對該模型進行在線評估,需要訪問真實世界。即使你在一家擁有數百萬用戶的互聯網公司工作,你也常常需要越過層層關卡找到一個針對當前用戶的機器學習模型。
現在,很少有數據科學家有廣泛的在線評估以及因果模型推斷的經驗,出現這一現象的原因有很多。其中一個原因是大多數因果關係的文獻都是相當理論性的,對於如何在現實世界中構建因果模型並沒有實際的指導意義。我預測在未來幾年我們會看到更多關於因果建模的實用指南。
形成微妙的因果關係觀意味著你可以給股東提供可行的建議,同時也能保證科學性。
第二部分:如何管理數據科學家團隊
和許多其它公司一樣,Schibsted 有兩條職業路線——「個人貢獻者」和「人事經理」。在數據科學領域,前者適用於那些真正想要減少數據科學專業知識,並通過實踐工作和技術為公司做出貢獻的人。而經理的路線則是為那些對開發人員和領導團隊更感興趣的人而準備的。
實際上一開始我也非常不確定自己最適合哪一條路線,我最終決定試試經理人路線。幸運的是,在決定不久之後我便發現這是條適合我的路線,儘管這一決策導致我面臨許多的挑戰。
你將面臨的第一個挑戰便是,你會發現在這個世界上只有很少的人從事數據科學經理這一工作。如果你認為經驗豐富的數據科學家非常罕見,實際上經驗豐富的數據科學經理的數量比這個還少。所以在工作中你基本上只能依靠自己。
但是管理一支數據科學家團隊真的就和管理其他團隊如此不同嗎?
如果你以前從未管理過一個團隊,那麼你肯定會從閱讀 Andrew Grove 所寫的《高產出管理》一書中獲益匪淺。此外,主動向其他更多高級管理人員尋求建議也至關重要。
但是,數據科學家團隊在幾個關鍵方面與其他團隊有著本質不同,所以接下來我將重點關注與數據科學家團隊特別相關的內容。
1. 數據科學家團隊實際上並不是一個團隊
每當我們談到團隊時,大多數人腦海中的第一反應也許是聯想到以下的畫面:
像巴薩羅那這樣的足球隊具有哪些特質呢?在我看來至少有三個方面:
一個共同的目標
團隊中有不同的角色,並且每個角色都有自己不同的分工職責
每個人都擁有實現目標的自主權
如果你要管理一支僅由數據科學家組成的團隊,那麼以上的這些特質可能都不適用。你的團隊將具有:
多樣、多變的目標
高度專業化,並且他們都擅長於同一件事情:數據科學
需要與其他團隊協作,最終對用戶的收入產生影響
比起足球隊,對數據科學團隊一個更合適的類比是:
X-檔案
Mulder 和 Scully 的服務需求會隨著時間的推移而發生變化。當需要他們的專業知識時,他們會被帶進去。但是如果不與聯邦調查局(FBI)之外的人交談,他們將永遠不會解決任何案件。
為什麼這種區別如此重要呢?
因為如果你擁有一支數據科學團隊,然後以管理「傳統」團隊的方式管理他們,也就是給團隊設立統一的目標、不同的角色分工和完全的自主權。那麼你很快就會感到團隊的表現令人沮喪。
我曾經見過有人將數據科學團隊按產品或者是工程團隊的方式進行運營,這麼做無法避免的後果是:除了數據科學之外,團隊中的數據科學家們什麼都需要做,他們最終將變成做工程、開發或者是產品管理。
因此數據科學家是不同的。但是這樣我們又將面臨另外一個問題,即怎樣保證數據科學家不被束縛於象牙塔中?
2. 將數據科學家融入到其他團隊中
當你將數據科學家和產品經理、工程師、用戶體驗專員、市場銷售以及其他成員組合到一塊的時候,神奇的事情將發生。
基本上,你希望最大化的目標函數是:團隊中的數據科學家與其他團隊的成員能夠展開頗有建樹的合作。
我喜歡用寬信道(Wide channel)的概念來思考這一問題。讓我們使用產品經理作為數據科學家的合作對象來說明這一點。
最糟糕的情況就是數據科學家和產品經理之間沒有任何信道:
數據科學家(DS)和產品經理(PM)之間沒有任何信道
這意味著數據科學家和產品經理之間沒有任何交流和溝通。換言之,就是數據學家對產品經理所面臨的產品挑戰沒有一絲了解,這就使得數據科學家不可能分析和解決這些問題。
稍微好點的情況就是,數據科學家和產品經理之間有一條很窄的信道:
數據科學家和產品經理間有一條很窄的信道
在這種情況下,信息可以進行流動,但通常非常有限,而且是非同步進行的。任何一種信息都可以通過第三者(例如管理者)或請求表單等手段來實現。當數據科學家需要服務於很多不同的利益相關者時,這種類型的交流是非常常見的。但這可能令人沮喪,因為商業環境通常不存在,並且會導致誤解和無意義的來回折騰。
而最高效的配置方式則是擁有一條寬信道:
數據科學家和產品經理之間存在寬信道
從最直觀的角度理解寬信道就是,數據科學家就坐在產品經理旁邊。這自然能夠促使他們更高效地進行溝通。雖然要讓人們總是能夠坐在一起進行協作並不方便,而且也不容易實現(我們 Schibsted 的成員分布於 22 個不同的國家),但是已經有很多軟體足以支持我們在線協作,例如 Slack 和 Hangouts。
當然我們不可能讓隊伍中每一位產品經理和團隊中每一位數據科學家建立一條寬信道——這樣不便於擴展。而這正是你作為數據科學家經理的職責,你需要負責確定哪些寬信道是需要建立的,一旦完成建立,你就可以離開了。
這裡有一個來自 Schibsted 的例子,證明我們正積極致力於建立一個寬信道。該例子涉及一款汽車評估工具的開發,這個工具可以幫助你在出售汽車時設定價格(在我們的挪威市場 Finn 進行了測試)。最初我只有一條非常窄的信道,然後嘗試構建最準確的定價模型。但是我們發現這樣做效率非常低,因為有很多產品決策,如果我們不及早對用戶進行試驗,就無法進行正確回答。
過了一段時間之後,我們最終將一位數據科學家融入了產品團隊中,並且取得了不錯的結果。你可以在該博客的文章中閱讀到我們關於汽車評估工具的一些早期工作。
我們一個寬信道的例子是數字新訂閱的預測模型。該模型有助於將銷售額轉化率提高 540%,並在 2017 年榮獲 INMA 的「數據分析最佳使用獎」。
3. 掌握分析生產力
在《高產出管理》一書中,Andy Grove 曾表示「作為一個經理,你掌握了你們團隊的產出」。這意味著一個數據科學經理必須要盡全力來為數據科學家創建一個最佳環境,以便於數據科學家能夠保持高產。
高效的組裝車間
這在很多方面是對前述嵌入模型的一股反作用力。如果每個人都始終處於嵌入狀態,那麼你很可能會多次面臨數據孤島(Data silos)和次優基礎架構。
一些工程經理聲稱,當你成為經理時你應該停止編程。作為數據科學經理,我認為你應該花高達 10% 的時間來親自完成一些編程工作,如訓練模型、數據可視化等。這些工作可以幫助你以一個數據科學家的角度看待問題。
每次我想進行特設分析(Ad-hoc analysis)時,我都必須花費 15 分鐘等待這個集群啟動!必須有一個更快的方式來實現。
我們架構格式的文檔說明似乎有點過時了——如何測量不同網站上這種按鈕的點擊次數?
諸如此類。當然,這種類型的實踐工作不應該取代獲取團隊反饋意見,成為你的主職。但是它肯定有助於你發現關鍵問題,以讓數據科學家更輕鬆地工作。
你還可以更加有條不紊,使用精益管理等框架,以消除各種數據科學流程中出現的浪費現象。這篇 xkcd 的文章可以作為一個很好的起點:
還需要謹記的是,數據科學家的工作需要相當多的靈活性和探索空間。你不是在經營工廠!
4. 數據->權利->政治
了解自己作為數據科學經理的「政治」背景非常重要——特別是在一個龐大而複雜的機構中。運營數據科學團隊意味著你可以管理稀缺和高度需求的資源。這反過來又意味著你必須偶爾處理一下政治事務。
權力的遊戲
一些假設:
副總裁正準備提出一項新的戰略措施。她的幻燈片已經完成了 98%,但是希望你的團隊用數據來支持她的提議(......儘管結論已經出來了)。
業務部門拒絕與你的團隊共享數據,因為擔心你會發現一些他們不知道的數據。
一個部門堅持認為他們需要數據科學家的支持,但是當你深入了解的時候,發現這裡並不存在真正的需求。
另一個有著類似職責的團隊拒絕分享技術方案,擔心你會剽竊他們的工作。
你花費在這些事情上的時間很大程度上取決於公司文化,以及激勵人們如何行事的機制。但是,能提前意識到可能發生這些事情總是好事。
我有一個天真的想法,公開透明是最好的良藥:所有會議記錄都向公司的每個人開放。所有 Slack 信道都是開放的。公司內部任何人都可以檢查所有其它團隊(和個人)的目標。實際上這意味著以身作則。
另外,公開透明是不夠的。你必須積極與利益相關者建立信任。建立信任需要很長時間,但打破信任卻可以非常快!
現在,只要讓團隊成員掌握到能夠理解自己當前工作環境的程度就足夠了,不需要讓他們接觸政治。這並不意味著讓你的員工處於黑箱之中,但這確實能讓他們專註於做好數據科學。
不要讓政治剝奪了你的大部分精力。請記住,當你有權訪問數據和資源以從中獲取價值的時候,你就立即擁有了權利,政治將永遠圍繞著權利展開。
5. 充分利用資源,實現高投資回報
現在許多公司都在招聘數據科學家。在很多情況下,這些公司根本不知道該用這些數據科學家來幹什麼。這些公司只是迷信他們肯定會產生某些魔力。
如果你購買了法拉利,就不要把它放在車庫裡。
另外,不要只用它來購買雜貨。
用斯柯達干這事可能會更好
法拉利就該用來干它該乾的事。
法拉利在它的自然棲息地賓士
數據科學家是一群雄心勃勃、聰明、有商業頭腦的人。這意味著你必須確保他們正在處理那些不僅富有挑戰性,而且有很高的投資回報(ROI)的問題。
數據科學經理在這裡起著關鍵作用。你必須始終將正確的業務挑戰與團隊中擅於此題的人員相匹配。
回到我們的第一個觀點,我們往往最容易關注到那些最複雜的挑戰。根據我的經驗,在考慮往哪投入資源時,主要應該考慮在哪裡使用團隊中的員工 。
6. 設定 OKRs
不論你是一名管理人員還是一名數據科學家,擁有一個好使的工具箱對大家而言同等重要。我的經理工具箱(Manager toolbox)中最強大的工具是目標和關鍵結果(Objectives and Key Results, OKRs)。簡而言之,OKRs 就是要設定一些遠大的定性目標,並將量化的關鍵結果與這些目標聯繫起來。通常你在每個季度都需要這麼做。儘管 OKRs 還有很多其它內容,但這是它的本質。
OKRs 非常重要,因為它以一種簡單明晰的方式讓所有人知道我們將前進的方向,以及我們正在嘗試去實現的東西。
從管理者的角度來看,它們也很吸引人。OKRs 的方法非常容易學習,但是實際上卻難以掌握。通常情況下,你需要幾個季度的時間才能正確做到:如何設置合理的 OKRs,然後跟進和審核。
當提到 OKRs 時,我有兩項理解,並且認為這對於管理者非常有幫助。
第一點:鼓勵團隊中的每個人分別設立自己的 OKRs。你的個人「總體」的 OKRs 應該以團隊的 OKRs 為基礎,然後具體細化到個人在該季度應該完成的任務。當我說「總體」的時候,這意味著個人成長目標以及個人對組織和團隊的貢獻。將這兩件事放在一起非常重要。雖然它是一件很基本的事情,但它確實能幫助你將個人目標和公司目標保持一致。
想要了解更多關於 LSTMs 的內容?我會給大家介紹一些 LSTMs 將被用到的項目,以便於大家參與進來做出貢獻。渴望提高自己的演講技巧?你可以和市場營銷一起來完成這個留存分析項目。對經理職業感到好奇?那麼嘗試領導這個小組,致力於細分用戶以實現盈利。
隨著個人目標和公司目標的一致,所有的團隊成員將擁有一頁 OKRs,他們可以將其列印出來然後張貼在顯示器旁邊。
理想情況下,公司所有人都可以看到其他人的 OKRs。這創造了一種關注員工成長並互相幫助實現各自目標的文化。
其次:幫助團隊成員將 OKRs 集成到他們的日常工作和每周常式中。我開始使用一個簡單的電子表格,儘管它並不好看但是卻有效:
每周五回家前,我們會花費大約 10 分鐘來填寫本周的專欄。其實你寫的內容並不是那麼重要——真正的價值來自於填寫專欄本身,這有助於提醒你本季度自己的首要任務。
在跟進 OKRs 時,沒有一種最佳的方法可以適用於每個人——關鍵是幫助你的團隊成員找到一種方法,將它們自然地構建到日常工作和每周例行程序中。
7. 心理安全是第一
最後一點也是最重要的一點。
谷歌曾花了兩年多的時間對他們團隊進行研究,以了解團隊表現得好和表現不佳的原因,他們發現一個因素非常突出,那就是心理安全。
心理安全可以被簡單概括為,你相信自己在犯下錯誤之後不會受到懲罰。
現在,該對第一部分的介紹進行反思了。在數據科學中,冒名頂替者綜合症(Impostor syndrome)是真實存在的。當你覺得自己像是個騙子的時候,你擔心的是什麼?那就是犯錯誤。
多年來,我發現許多擁有各色各樣知識背景的人進入到了數據科學領域,例如 Schibsted 的團隊中,有來自金融、研究、教育、諮詢、軟體工程等多個領域的專業人員。
假設這些人都知道同樣的事情是件愚蠢的行為。擁有如此多種不同方向人員的價值在於,每個人都能為團隊帶來新的東西。
數據科學家獨角獸的概念是心理安全的毒素。
是否存在快速解決方法以增加心理安全?我不這麼認為。但是我確實認為,作為一名經理,它需要成為你事務列表中優先順序最高的那一個——尤其是當你正在建立一個新團隊,或者有新成員加入時。雖然沒有快速解決辦法,但是你依然可以通過採取一些明確的行動來增加成員們的心理安全。以下是我們的一些實踐經驗:
建立起反饋文化。在團隊內指明每個人在做完報告之後需要大家給出意見。並培訓人們如何正確給出建設性反饋意見——因為並不是每個人都擅長這麼做。
增加面對面交流的時間。兩兩結對編程、在白板上解決問題……這對於遠程協作的團隊而言尤為重要。為此而花費的機票費用肯定是值得的。
兩兩結隊或者是組成小團體。作為一個團隊,你可能會做更少的事情,但你會做得更好。而那些一起工作的人會相互建立起信任。
鼓勵大家在全體會議上進行公開和坦誠的討論。積極平衡所有參與者的對話時間——因為有些人可能需要被指定才會發言。
注意文化差異。你可能關注平等主義、顯性文化(Explicit Culture)和直接文化(Direct culture)。那麼你很可能會錯過來自等級文化、隱性文化(Implicit culture)和非直接文化(Indirect culture)成員的信號。
進行團隊實驗以持續提升團隊。讓整個團隊參與到「如何成功運營團隊」這個問題上,讓每個人都對團隊的幸福感擁有主人翁意識。
衡量幸福和心理安全。找到一些簡單的方法來定期測評幸福感與心理安全。如果你沒有這個花哨的 HR 系統,那麼只需要從一個 Typeform 開始,並一直迭代,直到你和團隊成員們發現它是有用的。與團隊分享(匿名)平均得分或調查結果,並讓他們一同參與改進。
恭喜你,你已經閱讀完了這篇文章!希望這篇文章對作為數據科學家或者是數據科學經理的你能有所幫助。
via 4 Years of Data Science at Schibsted Media Group
https://towardsdatascience.com/4-years-of-data-science-at-schibsted-media-group-abba83854509
4 月 AI 求職季
8 大明星企業
10 場分享盛宴
20 小時獨門秘籍
4.10-4.19,我們準時相約!
新人福利
關注 AI 研習社(okweiwu),回復1領取
【超過 1000G 神經網路 / AI / 大數據資料】
Must Know! 數據科學家們必須知道的 5 種聚類演算法
※加速 AI 2.0,ARC 推理挑戰賽等你來戰!
※它山之石:AI 攻城獅的精進術
TAG:AI研習社 |