當前位置:
首頁 > 最新 > 如何成為一名厲害的數據科學家?

如何成為一名厲害的數據科學家?

作者 | Pascal Potvin

撰稿 | Liu Zhiyong

編輯 | Vincent Chen,Emily Chen

AI 前線導讀:眼下 Data Scientist,數據科學家,實在太火了,已經成為新一代改變世界的職業,引得每一個人都想往這個方向轉。學 CS 的覺得做碼農太底層,給人打工,要轉數據科學家,完美。學統計的覺得這個不需要過多的 Coding,適合自己,要轉數據科學家,完美。學商科的覺得終於自己也可以成為科學家了,要轉數據科學家,完美。似乎每個人都覺得自己可以成為,應該成為,也一定能夠成為一名數據科學家。然而現實呢?現在,我們就來分享一篇 Pascal Potvin 撰寫的「How to be a bad data scientist!」,給大家上上課。Pascal Potvin 是 Ericsson 公司的一名數據科學家,他給我們分享了如何成為一名厲害的數據科學家的經驗,以及要避開那些坑,給那些有志於從事數據科學家的新人們提了醒,AI 前線編譯此文,以饗讀者。

更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)

你想成為一名數據科學家,或者你根本認為你就是一名數據科學家,並且做好了初次應聘的準備,那麼,你要確保你沒有下面所列出的「想成為數據科學家」的刻板印象之一。不然,你可能會在面試中屢屢碰壁。本文只是羅列了我所見過的幾類人留下的刻板印象,並不全面。然而很不幸的是,這些刻板印象,一次又一次地在面試中復蹈前轍。

我想成為一名數據科學家,因為很能掙大錢!

這類人聽說搞數據科學能掙大錢,並希望能夠分一杯羹,有這種想法的人,多數都不知道干這行需要在知識和技能上要付出多大的努力,而且他們也不知道數據科學是一項持續不斷的長期研究工作,幾乎不會有什麼明晰的解決方案。特別是每天層出不窮的新技術和新想法,以及你不得不提出有關深度學習的新想法,情況更是如此。如果你要在社交媒體上發帖詢問「我該從哪裡開始?」之類的問題的話,那麼你就不具備成為數據科學家的條件了,好好端正態度,有了創新意識再說吧!

我可以干數據科學,但請給我「乾淨」的數據。

如果你剛學完一門或者幾門數據科學的相關課程,並參加過幾次類似 Kaggle 的競賽,你可能會覺得數據都是已經清理過的(或者大部分已經準備好),並且有幾條語句或命令,這些都會為機器學習做很好的準備。但問題在於,這些課程和競賽為你準備好數據,是為了讓你更快找到問題的核心,並了解機器學習的主題。而在現實生活中就不是這樣了,數據是雜亂無章的。數據難以駕馭,你必須自己準備數據。你可能需要自己收集數據。大多數數據科學家的工作中,很大一部分就是處理數據、準備數據、清理數據等等。如果你沒有這樣做的話,請找出你自己的問題,然後解決之,再說當數據科學家的事兒。

AI 前線:Kaggle 是由聯合創始人、首席執行官 Anthony Goldbloom 2010 年在 Melbourne 創立的,主要為開發商和數據科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享代碼的平台。該平台已經吸引了 80 萬名數據科學家的關注,這些用戶資源或許正是吸引 Google 的主要因素。

我不懂數學,也不擅長數學,但人們卻告訴我可以做數據科學。

不是這樣的,這根本就是個謬論。如果你沒有數學頭腦的話,將來總有一天你會陷入無法更上一層樓的境地。好處是你可以學習數學。但首先你要打掉這種「數學太難了!」的念頭。你要知道,數據科學可比這難多了。所以,你最好從學習數學這樣簡單的事開始。去學習微積分、統計學什麼的,掌握數學語言和思維後再說數據科學的事兒。

只需給我一個定義「明確」的問題。

有些人,只是想要他們的小盒子裡面有定義好的介面,輸入什麼樣的數據,期望輸出什麼樣的數據。我再強調一遍,這是患有綜合征的人在作戰中精心準備了罐頭而已。事實上,不僅數據是混亂的,而且你要解決的問題也是混亂的、不確定的、模糊的……這點你可要搞清楚。有時你可以自己定義、完善問題,但有時你不得不接受這個混亂的狀況並隨時隨地設法去解決。如果你不能通過思考、研究以及與利益相關者討論來確定模糊、近似的目標,並提出解決方案來完善它們,你就不要想著成為一名數據科學家。這裡有個很大的誤解是,這並不是說如果你有博士學位就不會遇到這種問題的,根本不是這樣的,我看到博士也一樣深受困擾。因此,你要堅強,挺起脊樑,做好接受挑戰的準備再說吧!

我學過數據科學,有博客 / 作品集……我覺得我可以勝任這一行。

可沒那麼快。這類人學習了數據科學,更加註重市場營銷,知道它可以幫助建立個人品牌,構建他的投資組合,或者撰寫博客、文章等,但就是從來沒有在現實生活中實踐過。那人自認為什麼都懂,能夠解決任何問題。這種人很可能對數據科學和機器學習所能達到的目標進行了過度的炒作,而這點對於該行業來說是有損無益的。要學會腳踏實地,誠實做人,再考慮當數據科學家的事兒吧!

如果你想成為一名數據科學家,最簡單的就是:努力學習,努力工作。你必須充滿激情地走自己的路。尋找你感興趣的知識並學習、進行嘗試。要不斷學習新事物,而不是僅僅學習幾門課程就完了。不要把自己限制在課程中,去找一些現實世界的例子來練習,要誠實面對你所能做的,孔子不是說過么:「知之為知之,不知為不知,是知也。」要做一個好學生!

AI前線

緊跟前沿的AI技術社群

想看更多這類文章, 請給我們點個贊吧!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI前線 的精彩文章:

看谷歌團隊如何做位置偏差估計
淺析eBay聯盟營銷的上下文廣告機制

TAG:AI前線 |