當前位置:
首頁 > 最新 > 5個字母解釋數據科學管道 適合初學者的學習指南

5個字母解釋數據科學管道 適合初學者的學習指南

AiTechYun

編輯:Yining

從前,有一個叫「數據」的男孩。在他的一生中,他總是試圖弄明白他活下去的目的是什麼。比如:「我的價值觀是什麼? 我能對這個世界產生怎樣的影響? 數據從何而來? 我和數據之間有什麼相似之處嗎?」這些問題一直都縈繞在他的腦海中,幸運的是,「數據」最終找到了一個解決方案,並經歷了一個巨大的轉變。

這一切都始於「數據」沿著行(row)散步的時候,他遇到了一個奇怪卻又有趣的管道(pipe)。一端是帶有入口的管道,另一端是出口。這條管道上還標有5個不同的字母:「O.S.E.M.N.」。好奇驅使「數據」進入了這條管道。長話短說……在數據中,我們發現了洞察力(insight)。

提示:本文將簡要地介紹在典型的數據科學管道中你所期待看到的內容。從建立你的業務問題到創建可執行的洞察力。

理解數據科學管道工作流程的典型工作流程是實現業務理解和解決問題的關鍵一步。如果你對數據科學管道的工作方式感到害怕,那就不要再說了。這篇文章是為你量身打造的!

OSEMN管道

O(Obtaining)-獲取我們的數據

S(Scrubbing)-整理我們的數據

E(?Exploring)-探索我們的數據將使我們能夠找到模式和趨勢

M(Modeling)-建模我們的數據將給我們作為嚮導的預測能力

N(iNterpreting)-解釋我們的數據

業務問題

所以在我們開始OSEMN管道之前,我們必須考慮的最重要的一步是理解我們要解決的問題。假設這一次在我們開始用「數據科學」做任何事情之前,我們必須首先考慮我們要解決的問題。如果你有一個小問題想要解決,那麼最多你就會得到一個小的解決方案。如果你有一個大問題要解決,那麼你就有可能有一個大的解決方案。

問問你自己:

我們如何將數據轉化為美元?

我想用這些數據做什麼?

我們的模型帶來了什麼業務價值?

什麼能幫我們省下一大筆錢?

怎樣才能使我們的業務更有效率呢?

了解這一基本概念將使你走得更遠,並引導你成為「數據科學家」。但無論如何,不管你的模型預測的有多好,無論你獲得了多少數據,無論你的管道是怎樣的,這仍然是你必須做的非常重要的一步。

「好的數據科學更多的是提出關於數據的問題,而不是數據的整理(munging)和分析(analysis)」——萊利紐曼

如果數據科學家沒有任何數據,你就不能做任何事情。根據經驗,在獲取數據時,你必須考慮一些事情。你必須識別所有可用的數據集(可以來自互聯網或外部/內部資料庫)。你必須將數據提取成可用的格式(csv、json、xml等等)。

技能要求:

資料庫管理:MySQL,PostgresSQL,MongoDB

查詢關係資料庫

檢索非結構化數據:文本、視頻、音頻文件、文檔

分散式存儲:Apache spark、Apache spark/flink


管道的這一階段應該需要最多的時間和精力。因為機器學習模型的結果和輸出與輸入一樣好。基本上來說就是:無用輸入,無用輸出。

目的:

檢查數據:了解你正在使用的每個特徵,識別錯誤,丟失值,以及損壞記錄

清洗數據:丟棄、替換和/或填充缺失的值/錯誤

技能要求:

腳本語言:Python、R、SAS

數據整理工具:Python,Pandas,R

分散式處理:Hadoop、Map Reduce/Spark


現在,在探索階段,我們嘗試了解數據的模式和值。我們將使用不同類型的可視化和統計測試來支持我們的發現。這就是我們能夠通過各種圖表和分析得出數據背後隱藏的含義的地方。

目的:

通過可視化和圖表找到你的數據中的模式

通過使用統計信息識別和測試重要的變數來提取特徵

技能要求:

Python:Numpy,Matplotlib,Pandas,Scipy

R:GGplot2,Dplyr

推論統計

實驗設計

數據可視化


現在要進行的是最有趣的部分。從統計學意義上來說,模型是基本規則。把機器學習模型想像成在你的工具箱里的工具。你將可以訪問許多演算法並使用它們來完成不同的業務目標。你使用的功能越好,你的預測能力就越強。在清洗你的數據並發現哪些特徵是最重要的之後,使用你的模型作為預測工具只會增強你的業務決策。

預測分析正在成為一個遊戲規則的改變者,而不是回頭去分析「發生了什麼?」預測分析會幫助高管回答「接下來會發生什麼?」以及「我們該怎麼做?」這樣的問題。(福布斯雜誌,2010年4月1日)

預測能力的一個例子:在沃爾瑪的供應鏈中可以看到一個很好的例子。沃爾瑪可以預測他們是否可以在颶風季節賣光他們所有的草莓味的餡餅(pop-tarts)。通過數據挖掘,他們的歷史數據顯示,在颶風季節發生前最受歡迎的物品竟然就是「pop-tarts」。這是一個真實的故事,並得出了一個結論,那就是不要低估預測分析的力量。

目的:

深度分析:創建預測模型/演算法

評估和改進模型

技能要求:

機器學習:監督/無監督演算法

評估方法

機器學習庫:Python(Sci-kit Learn)/R(CARET)

線性代數和多元微積分

「模型是數學中嵌入的觀點」——凱茜奧尼爾

現在是講故事的時間!最重要的一步是了解並學習如何通過溝通來解釋你的發現。講故事是關鍵,不要低估它。它與人聯繫,說服他們,幫助他們。理解你的聽眾並與他們建立聯繫的藝術是數據敘述中最好的一部分。

情感在數據敘述中扮演著重要的角色。人們不會神奇地理解你的發現。產生影響的最佳方式是通過情感來講述你的故事。我們作為人類,自然受到情感的影響。當你展示你的數據時,請記住心理學的力量。再重申一遍,理解你的聽眾並與他們建立聯繫的藝術是數據敘述中最好的一部分。

目的:

識別業務洞察力:返回業務問題

將你的發現形象化:保持簡單的和優先順序的驅動

講述一個清晰可操作的故事:有效地與非技術受眾溝通

技能要求:

業務領域知識

數據可視化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn

交流:展示/演講和報告/寫作


不要擔心,你的故事不會在這裡結束。由於你的模型還在生產中,所以定期更新你的模型是很重要的,這取決於你接收新數據的頻率。你收到的數據越多,更新就越頻繁。假設你是亞馬遜,你為客戶推出了一項讓他們「購買鞋子」的新功能。如果你的舊模型沒有這個功能,那麼現在你必須更新包含該特徵的模型。如果不是,你的模型會隨著時間的推移而退化,並且不會表現得很好,從而導致你的業務也會退化。新特徵的引入將會通過不同的變化或者可能與其他特性的相關性來改變模型的性能。


獲取你的數據,整理你的數據,用可視化的方法來探索你的數據,用不同的機器學習演算法來建模你的數據,通過評估來解釋你的數據,並更新你的模型。

記住,我們和數據沒有什麼不同。我們都有價值觀,有目的,有理由在這個世界上存在。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 ATYUN訂閱號 的精彩文章:

終於等到你!亞馬遜無人商店今日正式向公眾開放

TAG:ATYUN訂閱號 |