數據科學家與數據工程師
編者按:
現在公眾號有置頂功能了,大家把微信更新到最新版本,點開「大數據實驗室」公眾號。點「置頂公眾號」鍵,就可以置頂了,這樣。不管我們什麼時候更新,您都能容易找到。
數據科學家和數據工程師的主要區別,可以用ETL和DAD的區別來解釋。
ETL(提取/變換/載入)是數據工程師,還有數據架構師或資料庫管理員(DBA)的職責。
DAD(發現/獲取/提煉)是數據科學家的職責。
數據工程師往往把重點放在軟體工程、資料庫設計、生產環境代碼上,並確保數據在來源(在那裡它被收集)和目的地之間平穩地流動(在目的地那裡通過統計摘要提取和處理,或通過數據科學演算法產生結果,並最終轉移到源或其他地方)。數據科學家卻需要了解數據的流動和如何優化(尤其是使用Hadoop時)。實際上不是優化數據流本身,而是數據處理的步驟,從數據中提取出價值。數據科學家與工程師和商業人員一起工作,定義指標、設計數據收集方案,並確保數據科學流程與企業數據系統(存儲、數據流)有效地集成。對於在小公司工作的數據科學家,尤其如此,這也是數據科學家應該能編寫可被工程師重複使用的代碼的原因。
有時數據工程師也操作DAD,有時數據科學家也操作ETL,但這並不常見,且他們通常是在公司內部才這麼做。例如,數據工程師可以做一些統計分析,以優化一些資料庫流程,而數據科學家可以做一些資料庫管理,以管理一個保存匯總信息的、小型的、本地的私有資料庫。
DAD包含以下內容。
發現:識別良好的數據源和指標。有時(與數據工程師和業務分析師一起工作),對應該創建的數據提出需求。
獲取:獲取數據,有時通過API、網路爬蟲、互聯網下載或資料庫,有時是從內存資料庫獲取數據。
提煉:從數據中提取信息,做出決策,增加投資回報率,並採取行動(比如,在自動投標系統中,確定最佳的投標價格)。它包括以下內容。
— 通過創建數據字典和進行探索性分析,對數據進行探索。
— 清洗數據雜質。
— 通過數據匯總進一步提煉數據,有時是通過多層匯總或分層匯總來
實現的。
— 對數據進行統計分析(有時會採取像實驗設計這樣的做法,所以在前面的「獲取」階段也可以進行),自動和手動都可以。可能需要設計統計模型,也可能不需要。
— 在某些自動過程中呈現結果或集成結果。
數據科學是計算機科學、商業工程、統計學、數據挖掘、機器學習、運籌學、六西格瑪、自動化和行業知識的交叉點。這些不同的領域,加上業務的願景和行動,彙集了一系列的技術、流程和方法。數據科學是連接不同組件的過程,有助於業務優化,並消除那些降低業務效率的孤島。它也有自己獨特的核心,(例如)包括以下主題。
高級可視化。
分析即服務(AaaS)和API服務。
大規模數據集的聚類與分類。
計算大數據的相關性和R平方。
任何資料庫、SQL或NoSQL都應該有的11個特徵。
快速特徵選擇。
Hadoop/Map-Reduce。
網路拓撲。
大數據中關鍵詞的相關性。
在常規空間、超平面、球面上或單純形上的線性回歸。
無模型置信區間。
特徵的預測能力。
無模型的統計建模。
大數據「詛咒」。
MapReduce不能做的事。
請記住,一些僱主尋找的是具備豐富統計知識的Java或資料庫開發人員。這些開發人員是非常罕見的,所以僱主反而有時會試圖僱用數據科學家,但希望他在開發生產代碼方面很優秀。所以職位到底是需要具備統計知識的Java開發者,還是具有較強的Java技術的統計學家,你應該事先詢問僱主(如果可能的話,在電話面試的過程中去詢問)。然而,有時招聘經理不知道他真正想要的是什麼,如果你告訴他你的專業知識所帶來的附加價值,你可能會說服他僱用你,哪怕欠缺他們預期的某些技能。對於僱主,招聘Java軟體工程師,再要他們學習統計學,比反過來更容易。
數據科學家與統計學家
許多統計學家認為,數據科學是關於分析數據的,但它遠不止分析數據。數據科學還涉及實現演算法、自動處理數據,並提供自動化的預測和行動,比如:
分析美國宇航局的照片,以尋找新的行星或小行星。
自動報價系統。
自動駕駛(飛機和汽車)。
在Amazon.com或Facebook上推薦書和朋友。
針對所有酒店客房的客戶定製(實時)定價系統。
在計算化學中模擬用於癌症治療的新分子。
流行病的早期檢測。
(實時)估計美國所有房屋的價值(Zillow.com)。
高頻交易。
為用戶和網頁匹配谷歌廣告,以最大限度地提高轉化率。
為所有谷歌搜索返回高度相關的結果。
信用卡交易評分(欺詐檢測)。
稅收欺詐檢測與恐怖行為檢測。
天氣預報。
所有這些都涉及統計科學和TB級的數據。大多數做這些類型的項目的人,並不稱自己為統計學家。他們稱自己為數據科學家。
幾個世紀以來,統計學家一直在收集數據並進行線性回歸分析。300年前、20年前、現在或在2015年由統計學家進行的DAD,跟如今數據科學家進行的DAD大相徑庭。關鍵是,最終隨著越來越多的統計學家學會這些新技術,而更多的數據科學家學會統計科學知識(採樣、實驗設計、置信區間——不只是第5章中描述的那些),數據科學家和統計學家之間的邊界將變得更加模糊。事實上,我可以看到另一種數據科學家正在興起:具備深厚統計知識的數據科學家。
數據科學家和計算機科學家的區別是,數據科學家有更強大的統計學背景,特別是在計算統計方面,但有時則是在實驗設計、採樣和蒙特卡洛模擬方面。
數據科學家與業務分析師
業務分析師專註於資料庫設計(高層次的資料庫建模,包括指標定義、儀錶盤設計、檢索和生成管理報告,並設計報警系統)、評估各種業務項目和支出的投資回報率及預算問題。一些業務分析師從事營銷或財務的規劃、優化和風險管理工作。許多業務分析師從事高層次的項目管理工作,直接向公司主管彙報。
有些任務也由數據科學家完成,特別是在較小的公司:指標的創建和定義、高層次的資料庫設計(收集什麼樣的數據以及如何收集),或計算營銷,甚至增長黑客(最近創造的一個詞,來形容一種角色,它能夠快速增加公司互聯網訪問流量,擴大公司或產品的影響力,這種工作涉及較強的工程和分析技能)。
數據科學家讓業務分析師有提升空間,例如,幫助將報表製作過程自動化,使數據提取速度更快。數據科學家還可以教給業務分析師FTP和基礎的UNIX指令知識:ls -l、rm -i、head、tail、cat、cp、mv、sort、grep、uniq -c及管道和重定向操作符(|, >)。然後,可以在資料庫伺服器上編程或安裝一段代碼(業務分析師通常是通過瀏覽器或工具,如Toad或Brio訪問伺服器),以檢索數據。所有的業務分析師都必須做的是:
1.創建SQL查詢(甚至要有可視化工具),並保存為SQL文本文件。
2.將它上傳到伺服器並運行程序(例如,一個Python腳本,讀取SQL文件並執行它,檢索數據,並將結果存儲在CSV文件中)。
3.輸出結果(CSV文件)到業務分析師的電腦中,做進一步分析。
對於業務分析師和數據科學家,這樣的合作是雙贏的。在實踐中,這樣的合作已經幫助業務分析師提取的數據比他們過去所使用的數據要大100倍,而且提取速度快10倍。
總之,數據科學家並不是業務分析師,但前者可以極大地幫助後者,包括幫助業務分析師將任務自動化。此外,如果數據科學家能帶來額外的價值,具備額外的經驗,他更容易找到工作,特別是在只有一個職位預算的公司,當僱主不能確定是僱用業務分析師(開展整體分析和數據任務)還是數據科學家(有商業頭腦,可以執行一些通常分配給業務分析師的任務)時。在一般情況下,業務分析師是優先聘請的,但如果數據和演算法變得過於複雜,也會僱用數據科學家。如果你創建自己的創業公司,你需要扮演兩個角色:數據科學家和業務分析師。
13個真實世界情景中的數據科學應用
現在讓我們看看13個在真實世界情景下的例子,了解現代數據科學家可以幫助我們做些什麼。這些例子將有助於你學習如何專註於一個問題和如何形式化一個問題,以及如何仔細評估所有潛在問題——總之,是學習數據科學家在提出解決方案之前,如何定位問題和進行戰略性思考。你也會看到為什麼一些廣泛使用的技術,如標準回歸,可能並不適合所有情況。
數據科學家的思維方式不同於工程師、運籌學專業人士、計算機科學家。雖然運籌學涉及很多分析,但這一領域的焦點是具體業務優化層面,如庫存管理和質量控制。運籌學涉及國防、經濟、工程、軍事等領域。它採用馬爾可夫模型、蒙特卡洛模擬、排隊論、隨機過程,以及(由於歷史原因)Matlab和Informatica工具。
數據科學會遇到兩種基本類型的問題。
1.內部數據科學問題,如損壞的數據、粗心的分析或使用不恰當的技術。內部問題不是針對業務而言,而是針對數據科學社區。因此,解決辦法包括訓練數據科學家更好地工作,要他們遵循最佳做法。
2.業務應用問題是現實世界中的問題,因此要尋求解決方案,如欺詐檢測,或識別一個因素是原因還是結果。這些可能涉及內部或外部(第三方)數據。
作者:Vincent Granville,吳博、 張曉峰、季春霖參與編譯。
來源:36大數據
量化投資實戰課程——全明星六大海龜豪華陣容傾囊相授
吳帆? AIMA中國區總經理
聶軍? 凱思博香港總經理
毛煜春? 安誠數盈董事長
張弘?深圳盈富總經理
林健武?量化總監
章贇? 量化總監
2017年6月16日—18日 上海
※物聯網產業鏈全景圖
※這個熊孩子逆天了!9歲玩火箭,14歲造出核反應堆,16歲給奧巴馬講課!
※50個Excel逆天功能,一秒變「表哥」
※深度解析:你的廣告費去哪裡了?
※人類簡史作者Yuval Harari現場演講記錄
TAG:大數據實驗室 |
※數據科學與數據科學家
※數據科學進階之路:了解數據科學工作,管理數據科學家團隊
※大數據研究項目中數據科學家需要掌握遷移學習
※數據科學的大坑
※數據科學對科學研究的影響
※清華大學公管學院、數據科學研究院共同助力國家數據治理,國家數據與治理聯盟在京成立
※數據科學與大數據技術專業培養哪些人才?
※中科院先導專項「地球大數據科學工程」啟動
※人工智慧與數據科學在汽車工業中的應用!
※劉鵬教授為「數據科學與大數據技術」專業教學研討會作主題報告
※數據科學家必備的10種機器學習演算法
※數據科學家必用的25個深度學習的開放數據集!
※10個數據科學、機器學習和人工智慧播客
※每一位數據科學家都應掌握的5大機器學習演算法
※醫學、藝術類接本數據
※工業4.0時代下的數據科學家
※人物專訪:微軟首席數據科學家謝梁
※當前全美最火工作:數據科學家
※大數據的哲學觀
※「我的第一次數據科學家實習經歷」