不同機器學習演算法的數據要求

最新 07-23

你是否曾經好奇過，為什麼你可以和Siri可以像朋友一樣無障礙地聊天？

為什麼你登錄京東、淘寶時推薦的產品都恰恰是你最近需要的？

這些日常生活中的智能小插曲都是由機器學習演算法驅動的。

Siri是通過建立基於深度神經網路的聲學模型來實現的，利用了上下文相關的深度神經網路-隱馬爾科夫模型（CD-DNN-HMM）的機器學習演算法。

而京東、淘寶的推薦是利用基於內容的過濾演算法、基於協同的過濾演算法、基於內容的協同演算法來進行預測和聚類。

不同的機器學習演算法的良好決策建立在相應的數據要求上，但現實中，海量的原始數據中存在著大量不完整、不一致、有異常的數據，並且不同機器學習演算法對於待處理數據的形式要求也不同，這些數據可能會影響數據挖掘的執行速度和效率，也可能會對數據的分析結果造成偏差。因此使用前，我們需要對原始數據進行預處理，即數據清洗、數據治理等，獲得能夠被不同機器學習演算法所接受的標準化數據。

下面小思就用3個小案例，向大家展示處理數據時的常見問題和解決方案。

案例1：缺失值的處理

客戶A公司計劃對本季度的財務報表進行分析，以總結本季度的公司財務狀況和預測下季度財務狀況的趨勢。客戶A公司的數據分析技術人員得到了季度財務報表，但是他發現在報表中有幾天的財務支出出現了空缺值。該技術人員發現缺失的數據對整個分析模型的影響比較大，可能會導致分析和預測結果的偏差。

小思解決方案：處理缺失值一般有兩種方法。第一種是刪除缺失數據的樣本，是最簡單直接的方法，缺點是會導致信息的丟失。第二種方法是利用均值補插、近似替代、模型預測等方法進行填補，在數據挖掘中彌補了第一種方法的缺點。一般而言小思推薦第二種做法，能最大程度保證數據信息的完整性。

案例2：離群值的處理

客戶B公司是一所生物製藥研究公司，現正在觀察新研發的藥物對於動物身體機能的影響。客戶B公司的生物技術人員在檢測對象動物血葯濃度時發現，檢測結果中出現一個或多個濃度點遠遠高於或低於前後濃度點的情況，即通常所說的「跳點」，即離群值。離群值的出現可能是製劑質量不均一、試驗過程中出現方案偏離或樣本檢測時的操作失誤等原因造成的。但是，由於離群值是在樣

本檢測完成、甚至是統計分析完成後發現的，也可能存在研究者主觀判定的因素。

小思解決方案：在處理離群值問題時，首先選擇合理的離群值的判斷方法，根據總體數據的分布狀況採用不同的方法判斷離群值，例如在正態分布情況下，總體標準差已知時採用奈爾檢驗法，總體標準差未知時採用格拉布斯檢驗法或狄克遜檢驗法。然後準確找出離群值，一般情況下，測量列中殘差較大者就是疑似離群值。最後確定離群值，在剔除前查找分析產生離群值的原因。

案例3：數據的匯總

客戶C是某市統計局，現正在對該市2017年進行統計年鑒編寫。客戶C已擁有2017年該市各區的人口統計、國民經濟核算、就業人員和職工工資、固定資產投資、城市概況、財政、農業、工業等各領域各季度的統計情況，現需要將各領域的統計數據分區、分屬性進行分類匯總，這是一項工作量很大、準確性要求極高的工程。

小思解決方案：分類匯總，是對資料庫中的數據進行分類統計，對要進行分類的統計欄位進行排序處理，再進行匯總操作。對同一對象的各個屬性進行匯總，對同一屬性的各個從屬對象數據進行求平均值、求和等分析操作。

看到這裡，想必大家都了解了針對不同機器學習演算法時進行針對性數據預處理的重要性，但是這是一項耗時耗力、並且要求結果具有高準確性的大工程，而採用一套成熟的數據治理系統就可以高效達到上述功能，在小思的「隨巢」數據治理系統里就可以找到答案，歡迎大家垂詢。

文獻參考:Choosingthe Right Machine Learning Algorithm

來源:https://hackernoon.com/choosing-the-right-machine-learning-algorithm-68126944ce1f

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※如無必要勿增實體——機器學習方法、應用與展望
※賽靈思公司收購深鑒科技提高機器學習解決方案水平

TAG:機器學習 |