如何成為一名數據科學家?
機器之心原創
主持人:張晨卉 機器之心波士頓地區特派觀察員
編輯:張晨卉,Rita Chen
從人類發展至今,有歷史即有數據。然而隨著互聯網的高速發展與當下的信息不對稱現狀,數據正在變得越來越繁雜,也越來越具有價值。
早在 2011 年,McKinsey 公司就預測到 2018 年,僅在美國本土就可能面臨缺乏 19 萬具備深入分析數據能力人才的情況,同時具備通過分析大數據並為企業做出有效決策的數據管理人員和分析師也有 150 萬人的缺口,美國專業招聘公司羅致恆富(Robert Halt)公布的《2015 薪資指南(2015 salary guide)》也已把大數據人才列為薪資漲幅最大的六大行業之一。數據科學家(data scientist)正在作為企業數據分析的核心崗位,受萬眾矚目。
9 月 28 日機器之心與大型創業社交平台燎原進行合作,舉辦了關於數據科學的線上討論會。數據科學究竟是怎樣起源興起的?要怎樣理解數據科學和計算機科學、統計學的關係?數據科學的應用價值到底體現在哪裡?成為數據科學家需要具備哪些基本的知識儲備?現在興盛的各類數據大賽是怎麼一回事?大數據時代「隱私」已死?
活動中,數據應用學院(Data Application Lab)的創始人耿傑森和資深數據科學家陳允喻結合了自身的專業領域和工作經驗,和我們分享了他們眼中的數據科學的世界。
以下內容為這次活動的文字版,請大家繼續關注機器之心 SYNCED talk 系列線上活動。
Synced:大家好,今天機器之心有幸和兩位數據科學領域的專家一起探討近幾年特別「神秘」和「熱門」的職業-數據科學家。要了解數據科學家首先要了解一樣數據科學。數據科學(DataScience)起初叫「」datalogy」,最初在 1966 年由 Peter Naur 提出,用來代替「計算機科學」。在兩位看來,數據科學和計算機科學有什麼關係?數據科學和統計學又有怎樣的異同?你們是怎樣看待這些概念的?這種傳統意義上的數據科學在當今社會,其內涵及外延有沒有什麼改變?
Jason:我認為在概念上數據科學是一個交叉的學科,包括 1. Math, statistic and machine learning 2. Computer science and programming 3. Business logic. 簡單的說,數據科學就是計算機科學和統計在商業的應用,其中我認為計算機科學、統計和機器學習是數據科學的三個支柱。在具體工作中,就是先命題,在找數據,然後試驗演算法,反覆校驗,最終把模型放到產品裡面。相比傳統意義上的數據科學,現在的數據科學可以說是和大數據密不可分的。
Synced:確實,隨著數據指數式增長與爆發,傳統的數據處理手段與編程手段已經無法處理「大」數據,所以需要結合現今計算機科學的方方面面來幫助處理。這也就是「數據科學」應運而生的原因。
Chris: 我是計算機科學出身, 最早是 C++程序員,後來發現對於數據處理興趣更大,就慢慢轉到了 BI,Data Warehouse 的方向,現在工作重心主要轉向了數據科學。我個人的感受是,數據科學和其它科學的最大區別在於數據科學的最大驅動力是應用。由應用帶動了很多突破。所以對於數據科學家的要求,除了研究能力,同時還需要能夠和業務領域還有工程緊密結合。一個好的數據科學家除了具備理論知識外,對於業務領域的熟悉和工程的實現也必須有相當程度的了解。
Sycned: 既然說到了應用,那麼兩位覺得當今社會數據科學在哪個領域的應用價值最大呢?哪個領域的可能性還沒有被挖掘出來?
Chris:我認為從社會意義和潛在經濟價值角度來說,醫療行業最有潛力;從現實意義來說,圖像識別,語音識別是正在也最有可能實現突破的方向。
Jason:我覺得其實數據科學在各個行業的應用都很強大,舉幾個例子:
Internet Search:所有的搜索引擎都在利用數據的科學演算法,為客戶提供最好的結果,在幾秒鐘內分數我們搜索查詢的許多其他搜索引擎,比如谷歌 Google 是其中最大的搜索引擎,還有雅虎 Yahoo,必應 Bing,ASK,AOL,Duckduckgo 等。
Pagerank 演算法:谷歌的 AD 就是一個很強的例子:為什麼有時候你看到分析培訓的廣告,而你的朋友在同一時間在同一個地方看到的是服裝廣告?這是數字營銷大量使用了數據科學的結果。還有比如數字標牌廣告的投放,幾乎也都由數據科學的演算法來決定了。這種數據科學參與到的數字廣告,相比傳統廣告,得到了更高的點擊率。
Recommender Systems:最著名的例子就是 Amazon 亞馬遜 - 通過 Recommender Systems,亞馬遜優化了用戶體驗,同時可以提供數十億關聯產品。還有很多其他企業,目前也都在使用這個引擎/系統,來了解產品與用戶興趣及個人信息的相關性,並得到建議。還有一些企業,比如 Twitter、Google Play、Netflix、LinkedIn、IMDB 等,在使用這個引擎/系統來改善用戶體驗。甚至 Social Network 的公司也在做推薦,我認識 Snapchat 做推薦好友的首席,他們在用 Spark 的 GraphX。
Image Recognition:具體體現在比如 Facebook 可以根據朋友上傳到 Facebook 上的形象和你開始時的建議來標記你的朋友,這種自動標籤建議功能使用的是面部識別演算法。還有比如,在使用 WhatsApp 的網站時你可以使用手機 Web 瀏覽器掃描條形碼,還有谷歌以圖搜圖的選項,採用的也是圖像識別並提供相關的搜索結果。
Speech Recognition:語音識別產品的最佳例子是 Google Voice 谷歌語音、Siri、Amazon Echo 等。即使你並不方便鍵入消息,你的生活也可以通過語音識別功能繼續進行,簡單的語音消息通過識別會被轉換為文本。我從洛杉磯辦公室出發以前,就口頭問了 Echo 交通情況,它馬上就能回答出來。當然,有時候語音識別執行地並不準確。
Gaming:遊戲目前正在使用的是機器學習演算法,來提升玩家的體驗並優化設計。EA Sports、Zynga、Sony 索尼、Nintendo 任天堂、Activision Blizzard 動視暴雪等代表著遊戲體驗使用數據科學的一個新的水平。最明顯是在運動類遊戲,計算機通過分析玩家的動作,來實現遊戲的創建。我最近拜訪了 Riot Games, 他們也在使用數據科學來做用戶分析。Chris 老師以前也是用數據科學做客戶流失分析的,和 Riot Games 的做法差不多。
Fraud Detection & Risk Control:銀行類企業通過客戶分析、支出和其他必要的變數數據,來分析風險和違約的概率。Credit Card 通過機器學習來調查金融欺詐。
Logistic:DHL、Fedex、UPS、Walmart 等物流公司正在利用科學的數據來提高運營效率。數據科學可以計算出最佳的出貨路線出貨、最適合的交付時間、運輸的最佳模式等,幫助公司優化選擇以提升成本效率。同時,這些公司也在產出 GPS 數據,為數據的科學探索提供了數量的可能性。
Chris:我同意 Jason 老師的看法。在傳統行業,數據科學也在帶來一系列變革。比如我自己所在的通信行業,數據科學正在幫助我們降低用戶流失率,提高營銷精確度,優化網路和服務流程。通信行業另外一個很重要的應用就是識別欺詐行為,這個事情在最近電信欺詐負面新聞頻發的背景下具有特別的社會意義。
或者說一些更大膽的想法,比如說之前有篇論文是討論通過分析 Twitter 的用戶情緒來預測股市,甚至還有專門基於 Twitter 的對沖基金產生。應該說,我們處在一個偉大時代的開端,數據科學正在給所有行業帶來巨大衝擊。
Synced: 當然,數據科學的世界裡我們還有很多疑問,比如數據的獲得和隱私。普林斯頓大學的計算機科學家阿爾文德·納拉亞南 (Arvind Narayanan) 稱,只要有合理的商業動機來推動數據挖掘的進程,任何形式的隱私都是「演算法上不可能」(algorithmically impossible)的。想請問二位如何看待?如何準確評估數據科學對隱私構成的潛在威脅?數據科學時代,如何保護隱私?
Jason:這是個大話題。10 月 25 日,南加州數據科學大會(socaldatascience.org)上,齊聚了 24 位演講嘉賓和 625 位到場嘉賓。其中有一場演講就專門探討了數據與隱私。相信大家都認識 Edward Snowden 愛德華?斯諾登。12 年的電影《Citizenfour 第四公民》和 16 年現在正在上映的《Snowden 斯諾登》都在講述他的故事。然而,他究竟是個英雄、叛徒還是笨蛋,到現在都還沒有定論。無論怎樣,我們需要感謝他有一點:是 Snowden 成就了大數據時代關於隱私和安全的討論。這樣的討論不僅從美國一直延伸,成為了一個全球性的話題。
在數據安全圈子裡,(大)數據生命周期常見有六個階段:創建,存儲,使用,共享,歸檔和銷毀。每個階段都需要以安全為基礎,然而安全隱患在每個階段都是無法避免的。特別是使用和共享兩個階段,隱私可以說是問題的核心。企業、公司和組織分享內部系統和外部合作夥伴之間的數據,不可否認為我們的生活帶來了便利,可一旦信息發生泄漏,後果也是不堪設想,美國發生過多次的信用卡個人信息泄漏就是個例子。工業界當然是在努力保護個人信息的。當建立新的帳戶時,通過其網站/應用程序的組織,個人被要求閱讀並同意服務及隱私政策的條款。該法律合同通常會定義個人數據在組織內外部將被如何管理和使用,預期是讓企業對我們的數據「負責任」。但隨著社交網路和「智能」設備的出現,共享數據有時成為了一種公共消遣,比如「自拍」暴露於人前成為一種常態。
Chris:數據和隱私是個很有意思也是很大的話題。我最近剛參加了一個 Kaggle 的數據科學比賽,主辦方是中國最大的第三方移動數據提供商 TalkingData。在這個比賽中我們被挑戰去根據用戶手機的基本信息:品牌、型號、安裝的應用等等,去預測用戶的性別和年齡。這也算是從某種程度上驗證了阿爾文德的斷言吧。我個人的看法,在大數據的時代,我們需要對個人隱私的定義以及如何保護隱私進行新的探索和思考。舉個例子,一個人得了癌症,這樣的病情是他自己的隱私對吧?但如果在就診期間,他估計就得指望醫生能夠盡量準確預測他的病情了。那麼問題來了,這種預測算不算對他隱私的侵害?你可以說這是在他的同意之下做的預測所以不算。那麼,對於一個地區疫情的預測,從而採取對策,這算不算對隱私的侵害?再進一步,為了能夠準確預測病情,我們事先得收集大量的數據。如果沒有這些數據的話,所謂的預測和數據科學都是一紙空話。這種對於個人數據的收集,和這些數據為人類整體帶來的福祉相比,我們應該如何權衡?作為個人,我們又該如何在隱私保護和享受數據科學成果之間如何取捨?從業者又該如何去保障數據提供者和使用者的權利和義務的平等?
Synced : 結合觀眾的提問,我相信也是很多讀者關心的問題,如果想轉行做一名數據科學家,應該具備哪些基本的知識儲備?
Jason :學習任何一門技能都包括兩個階段,學習知識和練習。學習階段,現在網上有很多 Online 的課程,教授數據科學和數據分析。同學們都可以看看 :
https://www.coursera.org/learn/machine-learning
https://www.coursera.org/learn/practical-machine-learning
練習階段,我會推薦大家參與數據競賽。比如 Kaggle 是一個數據科學的競賽平台,很多公司把數據放上來,同學們可以拿 Kaggle 作為聯繫和獲得經驗的地方。我 2014 年幫助 UCLA 和 UCSD 的兩個同學做 kaggle,最後都找到了數據科學工作。
https://www.kaggle.com/competitions
Chris :Jason 推薦的第一個估計是很多從其它行業轉到數據科學的人的啟蒙課吧,包括我自己。
Synced:今天特別開心能夠請到 Jason 和 Chris 兩位來和大家一起討論關於數據科學的話題,從中我們了解了數據科學的概念、現狀和應用,還交流了數據和隱私這樣一個大命題。機器之心 Synced Talk 系列每個月都會推出不同的話題,貼合前沿趨勢,邀請嘉賓和大家互動、交流。希望大家都能有所收穫,感謝大家的參與!
————————————————————————
如果讀者想了解更多關於數據科學及數據科學家的問題,請在文章下方留言。另外,Synced Talk x 燎原的線上活動向所有讀者徵集主題。快告訴我們你想了解的科技話題和你期待出現的嘉賓吧!
本文由機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※從MIT-CHIEF 到YC:Robby無人車的最後一公里
※谷歌互聯網氣球持續飛行三個月全靠人工智慧認方向
※人工智慧、機器學習、深度學習,三者之間的同心圓關係
※人工智慧讓好奇號更聰明:可以自己選擇激光槍的攻擊目標
※梵高究竟長啥樣?深度神經網路根據油畫重建出他的照片
TAG:機器之心 |
※如何成為一名數據科學家
※一篇文章告訴你如何成為數據科學家
※如何才能獲得一份數據科學家的職位
※科學家如何計算基因的數量?
※周元華教授:如何成為一個醫師科學家?
※科學家為什麼是科學家?人類所需要的科學家是什麼樣的?
※魏坤琳:成為科學家是一種什麼樣的體驗?
※成為科學家最重要的因素是什麼?
※機器人取代數據科學家嗎?
※國內這位科學家的新基因編輯技術,為何被多個國家科學家質疑?
※為什麼科學家把人類當成了計算機?
※數據科學家與數據工程師
※華人科學家近期研究成果一覽
※科學家如何參與科學決策?
※強!科學家把光變成了一種液體
※讓科學家成時代明星
※一位科普作家爸爸給10歲女兒的信:如何像科學家一樣思考
※陳立傑:我想成為一名理論計算機科學家,你呢?
※謝宇:成為科學家最重要的因素是什麼?