一篇文章告訴你如何成為數據科學家
通常來說,年輕人都很容易立志成為什麼,例如成為一名科學家,然後又很快放棄。這一方面是因為擺在他們面前的誘惑太多,也因為成為一名科學家真的很不容易。
這一點放在數據科學上尤其突出。實際上,近年來隨著數據科學和機器學習的火爆,我們經常能遇到剛畢業的大學生立志成為數據科學家,但很快又放棄的例子。究其原因,我認為在很大程度上是因為要成為一名真正的數據科學家,需要掌握的專業知識實在是太多了:包括計算機科學、編程基礎、數學知識、機器學習演算法甚至商業洞察力等等。
看起來這些知識無窮無盡,而且還在不斷地發展和變化,似乎終其一生也無法完全掌握。但實際上並非如此,下文我們整理了成為數據科學家的四個關鍵因素,它們並沒有想像中的龐雜,而且正是由於不斷的發展和變化,因此對於新手來說通常只需要關注其中比較核心的基礎知識就可以了。
成為數據科學家的四個關鍵因素:
編程基礎:例如 R 語言和 Python 語言,這兩種語言是數據科學家們最常使用的數據建模、數據清理和數據管理語言。
機器學習核心演算法:例如回歸、樸素貝葉斯、支持向量機 SVM(Support Vector Machine)、隨機森林等,大部分面試官都希望面試者們能了解這些最基本的機器學習演算法。
在恰當的問題上磨鍊自己:對於數據科學家而言,優秀和偉大之間的一個重要差別就是:找准一個恰當的問題並為之鍥而不捨的能力。
能講述一個激動人心的故事:這將有助於你說服客戶並讓他們最終採納你的意見。
下面我們圍繞這四點展開闡述。
編程語言與精通一門或者一系列編程語言相比,數據科學家應該更關注編程的靈活性。即他們需要具備遷移學習的能力,將一種語言的編程技巧輕鬆遷移到當前項目需要的語言中,目標是找到解決問題的最佳方案。
為此,對新手來說最好的辦法是先學習一些應用廣泛的基礎性語言。例如專註於統計計算的 R 語言,以及更具通用性的 Python 語言。一旦你熟悉了這兩種語言,那麼學習其他新語言就會容易得多,因為它們之間一定存在一些通用的特性和語法細節。
總之,作為一名數據科學家,編程語言只是一種工具,你並不需要成為編程領域的專家。但你必須熟悉它們,以便於利用這些工具解決一些現實的數據研究問題,以及一些簡單的編碼和調試問題。
機器學習演算法
這裡首先需要強調的是,在機器學習演算法中我們仍然應該專註於基礎知識,避免盲目追求最新技術。
這是因為沒有了基礎的支持,最新的技術成果也將變得毫無意義。一個數據科學家應該關注於技術核心,例如評估機器學習分類演算法的優劣,了解客戶更關心哪些分類錯誤等。畢竟,真實成本分析比準確率更有價值。
同樣,懂得各種機器學習演算法之間的差異,能夠為模型選擇最恰當的參數也非常重要。一般基礎的機器學習分類器包括邏輯和線性回歸、樸素貝葉斯、隨機森林和 K 均值聚類等。這裡需要強調的是:機器學習是一個不斷發展變化的學科,不要試圖一蹴而就。也就是說,作為數據科學初學者,你不應該把太多的精力放在機器學習和人工智慧上,而應該多考慮一些非技術的要素。
非技術性要素
認為技術要素是促成最終成功的最大驅動力,是一個非常常見的錯誤,對於數據科學家而言,我認為溝通技巧和解決問題的能力也許更加重要。因為這些能力將有助於你取得諸多具有影響力的成果:包括增加公司收入、創新產品甚至改變整個行業的走向。最終你將從一名普通的 SQL 程序猿成長為一個值得信賴的商業夥伴。下面列出我認為最重要的三點非技術要素。
1.我認為最關鍵的一個非技術要素就是「數據直覺」(data intuition),即結合領域內的專業知識和商業敏感性,提出最深刻的見解,並能夠快速決策的能力。數據直覺可以讓從業者以多種不同的方式理解數據,找出數據中的異常值,以及最不容易發覺的變化趨勢。
通常情況下我都會把處理數據問題視為一個檸檬,即隨著時間的推移,通過不斷努力,我究竟能從這顆檸檬里榨出多少有價值的果汁。而這也是數據直覺的含義:為了找到最優的解決方案,你已經嘗試了所有可能的方法,從數據中發掘了所有有價值的信息。
當然,培養自己的數據直覺需要時間,也需要實踐的積累。實際上,一個最有效的培養方法就是參與一些與自己的工作和生活息息相關的項目,例如買房子、或者買一輛新的山地自行車。另一個方法是處理與自己的愛好相關的數據。這種方法的優勢是:你對自己喜歡的行業已經有了一定的前期了解,另外你對該問題的結論也具有天然的熱情。最終,在這些項目中總結和積累的「直覺」將被應用於其他的數據分析場景。
2.我認為第二點非常關鍵的非技術因素是解決問題的能力,也就是將客戶的需求轉化為具體的問題,並將其分解成一系列可以切實執行的解決方案的能力。以下是我在這方面的一些經驗總結,僅供參考:
深刻認識問題的內容和意義,只有充分認識了問題,才能解決問題;
找到可用數據,如果數據的格式有問題,找出解決辦法;
分析數據,並發掘其中決定性的變化趨勢,找到最能說明問題的變數或特徵;
研究哪種分析演算法和模型最高效,並預測、解釋結果;
將你的分析結果分享給利益相關者,並向他們徵求意見。
3.最後一點非技術要素:認識到你的工作不僅僅是數據分析,它也包括向非技術人員提供大數據意見指導。因為大多數普通用戶並不會談論數據,他們只關心營收、銷售、推廣和產品。將專業技術轉化為業務支持,這才是作為數據科學家的工作核心。
現在,請牢記上述四個關鍵點,向著數據科學家的目標奮勇前進吧,助你好運!
註:本文來源 medium,原作者是 UCLA 統計學博士,雷鋒網編譯
雷鋒網(公眾號:雷鋒網)相關閱讀:
數據科學家=最佳職業?美招聘平台將其評為全美最理想工作
一張圖看懂數據科學家、數據工程師和軟體工程師之間的區別
亞馬遜數據專家十年經驗總結:成為數據科學家的關鍵四步
※瞄準區塊鏈聯盟,三星推出企業級區塊鏈平台 Nexledger
※建南京總部、推概念車、繼續融資,造車一年的FMC步調更快了
※人工智慧醫療落地崎嶇,折戟15年後今天他們再出發
TAG:雷鋒網 |
※如何成為一名數據科學家?
※李鴻章是如何成為一代名臣的?
※向法布爾學習如何成為博物學家?
※劉正成:只會抄四書五經唐詩宋詞的人不可能成為書法家!
※魏坤琳:成為科學家是一種什麼樣的體驗?
※陳沂臉書向羅志祥道歉 他認為這案子成為法界笑話
※成為一名學道者
※諾獎得主專訪:兒時夢想成為科學家的你,為什麼沒有成功?
※《被告人》申隣雅:希望成為像池晟爸爸一樣的人
※魔獸世界:如何成為一名法師
※帕慕克:想成為畫家卻成了作家
※李政道是怎樣成為科學大師的?
※謝謝你選擇我成為家人 「為你讀詩」聲音禮物
※科學何以成為科學:愛因斯坦品讀牛頓
※啟功:我寫字是怎麼成為「書法家」的呢?
※向孔子學習如何成為真正的學霸——《論語》閱讀心得
※我是如何成為小說家的
※如何成為一名職業攝影師?
※如何從零基礎成為正式醫學插畫師?