DIKW模型與數據工程

最新 07-02

文章來源：Python數據分析

1.DIKW 體系

DIKW體系是關於數據、信息、知識及智慧的體系，可以追溯至托馬斯·斯特爾那斯·艾略特所寫的詩--《岩石》。在首段，他寫道：「我們在哪裡丟失了知識中的智慧？又在哪裡丟失了信息中的知識？」（Where is the wisdom we have lost in knowledge？ / Where is the knowledge we have lost in information？）。

1982年12月，美國教育家哈藍·克利夫蘭引用艾略特的這些詩句在其出版的《未來主義者》一書提出了「信息即資源」（Information as a Resource）的主張。

其後，教育家米蘭·瑟蘭尼、管理思想家羅素·艾可夫進一步對此理論發揚光大，前者在1987年撰寫了《管理支援系統：邁向整合知識管理》（Management Support Systems: Towards Integrated Knowledge Management ），後者在1989年撰寫了《從數據到智慧》（「From Data to Wisdom」，Human Systems Management）。

2.數據工程領域中的DIKW體系

D：Data (數據)，是 DIKW 體系中最低級的材料，一般指原始數據，包含（或不包含）有用的信息。

I：Information (信息)，作為一個概念，信息有著多種多樣的含義。在數據工程里，表示由數據工程師（使用相關工具）或者數據科學家（使用數學方法），按照某種特定規則，對原始數據進行整合提取後，找出來的更高層數據（具體數據）。

K：Knowledge (知識)，是對某個主題的確定認識，並且這些認識擁有潛在的能力為特定目的而使用。在數據工程里，表示對信息進行針對性的實用化，讓提取的信息可以用於商業應用或學術研究。

W：Wisdom (智慧)，表示對知識進行獨立的思考分析，得出的某些結論。在數據工程里，工程師和科學家做了大量的工作用計算機程序儘可能多地提取了價值（I/K），然而真正要從數據中洞察出更高的價值，甚至能夠對未來的情況進行預測，則需要數據分析師。

3.數據工程領域職業劃分

數據工程是一整套對數據（D）進行採集、處理、提取價值（變為 I 或 K）的過程。

首先介紹一下相關的幾種角色： Data Engineer（數據工程師）, Data Scientist（數據科學家）, Data Analyst（數據分析師）。這三個角色任務重疊性高，要求合作密切，但各負責的領域稍有不同。大部分公司里的這些角色都會根據每個人本身的技能長短而身兼數職，所以有時候比較難以區分：

Data Engineer 數據工程師：分析數據少不了需要運用計算機和各種工具自動化數據處理的過程，包括數據格式轉換，儲存，更新，查詢。數據工程師的工作就是開發工具完成自動化的過程，屬於基礎設施/工具（Infrastructure/Tools）層。

但是這個角色出現的頻率不多，因為有現成的MySQL, Oracle等資料庫技術，很多大公司只需要DBA就足夠了。而 Hadoop, MongoDB 等 NoSQL 技術的開源，更是使在大數據的場景下都沒有太多數據工程師的事，一般都是交給數據科學家。

Data Scientist 數據科學家：數據科學家是與數學相結合的中間角色，需要用數學方法處理原始數據找出肉眼看不到的更高層數據，一般是運用統計機器學習（Statistical Machine Learning）或者深度學習（Deep Learning）。

有人稱 Data Scientist 為編程統計學家（Programming Statistician），因為他們需要有很好的統計學基礎，但也需要參與程序的開發（基於 Infrastructure 之上），而現在很多很多的數據科學家職位都要求身兼數據工程師。是把 D 轉為 I 或 K 的主力軍。

Data Analyst 數據分析師：數據工程師和數據科學家做了大量的工作，用計算機程序儘可能多地提取了價值（I/K），然而真正要從數據中洞察出更高的價值，則需要依靠豐富的行業經驗和洞察力，這些都需要人力的干預。

Data Analyst 需要的是對所在業務有深刻了解，能熟練運用手上的工具（無論是 Excel， SPSS也好， Python/R也好，工程師給你開發的工具也好，必要時還要能自己充當工程師和科學家，力盡所能得到自己需要的工具），有針對性地對數據作分析，並且需要把發現的成果向其他職能部門呈現出來，最終變為行動，這就是把數據最終得出 Wisdom。

4.數據分析

數據分析是指用適當的統計分析方法對收集來的大量數據進行分析，提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中，數據分析可幫助人們作出判斷，以便採取適當行動。

數據分析的過程：

1. 數據收集：本地數據或者網路數據的採集與操作.

2. 數據處理：數據的規整，按照某種格式進行整合存儲。

3. 數據分析：數據的科學計算，使用相關數據工具進行分析。

4. 數據展現：數據可視化，使用相關工具對分析出的數據進行展示。

數據分析的工具：

SAS（STATISTICAL ANALYSIS SYSTEM，簡稱SAS）公司開發的統計分析軟體，是一個功能強大的資料庫整合平台。價格昂貴，銀行或者大企業才買的起，做離線的分析或者模型用。

SPSS（Statistical Product and Service Solutions，統計產品與服務解決方案）是IBM公司推出的一系列用於統計學分析運算、數據挖掘、預測分析和決策支持任務的產品，迄今已有40餘年的成長歷史，價格昂貴。

適合做學術性質的數據分析，在實際應用上需要額外轉換為Python或Scala來實現，而且MATLAB（MathWorks公司出品的商業數學軟體）是收費的。

是一門函數式編程語言，熟練使用後開發效率較高，配合Spark適合大規模的數據分析和處理，Scala的運行環境是JVM。

Python在數據工程領域和機器學習領域有很多成熟的框架和演算法庫，完全可以只用Python就可以構建以數據為中心的應用程序。在數據工程領域和機器學習領域，Python非常非常流行。

5.數據建模基礎

大數據分析場景和模型應用

數據分析建模需要先明確業務需求，然後選擇是描述型分析還是預測型分析。

如果分析的目的是描述目標行為模式，就採用描述型數據分析，描述型>分析就考慮關聯規則、序列規則、聚類等模型。

如果是預測型數據分析，就是量化未來一段時間內，某個事件的發生概>率。有兩大預測分析模型，分類預測和回歸預測。

常見的數據建模分類

分類與回歸

分類：是通過已有的訓練樣本去訓練得到一個最優模型，再利用這個模型將輸入映射為相應的輸出，對輸出進行簡單的判斷從而實現分類的目的，也就具有了對未知數據進行分類的能力。

回歸：是基於觀測數據建立變數間適當的依賴關係，以分析數據內在的規律，得到響應的判斷。並可用於預報、控制等問題。

應用：

信用卡申請人風險評估、預測公司業務增長量、預測房價，未來的天氣情況等

原理：

回歸：用屬性的歷史數據預測未來趨勢。演算法首先假設一些已知類型的函數可以匹配目標數據，然後分析匹配後的誤差，確定一個與目標數據匹配程度最好的函數。回歸是對真實值的一種逼近預測。

分類：將數據映射到預先定義的群組或類。演算法要求基於數據特徵值來定義類別，把具有某些特徵的數據項映射到給定的某個類別上。分類並沒有逼近的概念，最終正確結果只有一個。在機器學習方法里，分類屬於監督學習。

區別：

分類模型採用離散預測值，回歸模型採用連續的預測值。

聚類

聚類：就是將相似的事物聚集在一起，不相似的事物劃分到不同的類別的過程。

聚類分析：又稱群分析，它是研究（樣品或指標）分類問題的一種統計分析方法，同時也是數據挖掘的一個重要演算法。

應用：

根據癥狀歸納特定疾病、發現信用卡高級用戶、根據上網行為對客戶分群從而進行精確營銷等。

原理：

在沒有給定劃分類的情況下，根據信息相似度進行信息聚類。

聚類的輸入是一組未被標記的數據，根據樣本特徵的距離或相似度進行劃分。劃分原則是保持最大的組內相似性和最小的組間相似性。

不同於分類，聚類事先沒有任何訓練樣本，直接對數據進行建模。聚類分析的目標，就是在相似的基礎上收集數據來分類。在機器學習方法里，聚類屬於無監督學習。

時序模型

不管在哪個領域中（如金融學、經濟學、生態學、神經科學、物理學等），時間序列（time series）數據都是一種重要的結構化數據形式。在多個時間點觀察或測量到的任何事物，都可以形成一段時間序列。時間序列大多都是固定頻率的，數據點將根據某種規律定期出現。

應用：

下個季度的商品銷量或庫存量是多少？明天用電量是多少？今天的北京地鐵13號線的人流情況？

原理：

描述基於時間或其他序列的經常發生的規律或趨勢，並對其建模。與回歸一樣，用已知的數據預測未來的值，但這些數據的區別是變數所處時間的不同。重點考察數據之間在時間維度上的關聯性。

常見的數據分析應用場景如下

市場營銷

營銷響應分析建模(邏輯回歸，決策樹)

凈提升度分析建模(關聯規則)

客戶保有分析建模(卡普蘭梅爾分析，神經網路)

購物藍分析(關聯分析Apriori)

自動推薦系統(協同過濾推薦，基於內容推薦，基於人口統計推薦，基於知識推薦，組合推薦，關聯規則)

客戶細分(聚類)

流失預測(邏輯回歸)

風險管理

客戶信用風險評分(SVM，決策樹，神經網路)

市場風險評分建模(邏輯回歸和決策樹)

運營風險評分建模(SVM)

欺詐檢測(決策樹，聚類，社交網路)

編程從未如此有趣！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 二二二白 的精彩文章:

TAG:二二二白 |