當前位置:
首頁 > 最新 > 簡單八步:幫您打通數據分析的任督二脈

簡單八步:幫您打通數據分析的任督二脈

大量的數據中隱藏著商業價值,各行各業都在做大數據分析,挖掘數據價值,但是卻很少有人關注數據質量的問題,數據分析質量高不高,直接影響數據分析成果的價值,保證數據質量才是數據分析的關鍵。

數據質量體現為數據的正確性、準確性、不矛盾性、一致性、完整性和集成性這六大方面。數據質量在數據分析的各個環節都應用加以控制和保證,從數據採集、數據處理、數據分析到最後數據分析成果展現及應用,其中數據處理環節是提升數據質量的重要環節。《哈佛商業評論》近期的一項研究表明,人們將80%的時間用於數據清理和組織,而數據分析時間僅佔20%。有了Tempo,數據預處理將變得簡單高效!下面我們來看看其中一些重要的功能。

Tempo 支持多種數據預處理方法,包括對行、列、表的30餘種數據預處理節點,實現數據清理,集成,變換,歸約等數據預處理,為挖掘分析做好準備。其中行處理包括:數據過濾、排序、隨機抽樣、數據平衡等;列處理包括:重命名、屬性過濾、屬性生成、隨機數生成、缺失值處理、字元型/數值型/日期型屬性變換、設置角色等;表處理包括:數據連接、數據追加、數據拆分、數據分解、分類匯總、錶轉置等;高級處理包括:數據平滑、主成分分析、因子分析、孤立點分析、RFM、季節解構、異常值檢測、奇異值分解、分箱、局部多項式回歸等。

以某企業的全國銷售訂單分析為例,在構建挖掘分析模型前需要進行數據預處理。


將銷售訂單數據表與客戶信息數據表做數據表連接,連接方式為內連接,如下圖所示,將兩表以城市、顧客姓名及訂單號相同為連接條件,組合成包含銷售訂單信息及客戶信息的數據寬表。

第二步,數據過濾

通過數據過濾節點,將寬表數據中符合分析條件的數據篩選出來,如下圖所示,篩選出銷售額大於50萬的客戶。


通過屬性生成節點,構造新的屬性。如下圖所示,構建新的屬性產品評價單價和凈利潤。


將所有欄位進行缺失值處理,支持對不同的欄位類型採用不同的缺失值處理方式,如下圖所示,如數值型欄位支持用平均值、最大值、最小值、中位數、眾數或自定義等方式進行缺失值的處理,字元型和日期型數據支持最多次數項、最少次數項或自定義方式進行缺失值處理。

異常值檢測利用原始數據的分布的特徵情況,對存在異常和雜訊的數據進行檢測和識別。如下圖所示,可基於四分位距進行異常值檢測也可根據業務情況自定義異常值條件來檢測異常值,支持直接刪除異常值、用均值替換異常值、僅輸出異常值及標記異常值並輸出整表等操作。這裡我們自定義折扣點大於1或銷售額小於0或者訂單數量基於四分位距的異常值點,不作為分析數據,將異常值直接刪除,從而進行下一步分析。(我們也可以將異常值數據輸出單獨分析,也許能發現一些業務問題)

根據客戶的銷售額情況,請客戶分為小客戶、大客戶、重要客戶三個等級。如下圖所示,數值型屬性變換_區間轉字元,我們定義銷售額在50-100萬的客戶為小客戶,100萬-500萬的為大客戶,500萬以上的為重要客戶。

第七步,主成分分析

為了減少變數數目並避免多重共線性,用主成分分析方法,在保留原有數據90%的信息的基礎上提取主成分,然後再用主成分參與構建模型。


將主成分分析的計算結果作為自變數,構建KMeans聚類模型,進行模型評估,將模型結果輸出到指定的關係庫中,如下圖所示。

運用Tempo通過使用靈活多樣的數據預處理手段,大大提升了數據質量,為後續構建挖掘模型提供了更精準的數據,同時使構建的挖掘模型更貼合業務實際,為後續業務應用打下了堅實的基礎!

【Tempo大數據分析平台】

【熱文推薦】


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 美林數據MerirData 的精彩文章:

TAG:美林數據MerirData |