機器學習：處理不平衡數據的5個重要技術

知識 02-18

數據分布不平衡是機器學習工作流中的一個重要問題。所謂不平衡的數據集，意思就是兩個類中一個類的實例比另一個要高，換句話說，在一個分類數據集之中，所有類的觀察值的數量是不一樣的。這個問題不僅存在於二進位類數據中，也存在於多類數據中。

本文中將列出一些重要的技術，幫助您處理不平衡的數據。

機器學習：處理不平衡數據的5個重要技術

打開今日頭條，查看更多圖片

1、過採樣(Oversampling)

此技術用於修改不相等的數據類以創建平衡的數據集。當數據量不足時，過採樣法通過增大稀有樣本的大小來達到平衡。

過採樣的一種主要技術是SMOTE(合成少數過採樣技術，Synthetic Minority Over-sampling TEchnique)。在這種技術中，少數類是通過生成合成算例而不是通過替換來進行過採樣的，而且對於每一個少數類的觀察值，它都計算出k最近鄰(k-NN)。但這種方法僅限於假設任意兩個正實例之間的局部空間屬於少數類、訓練數據不是線性可分的情況下，這種假設可能並不總是正確的。根據所需的過採樣量，隨機選擇k-NN的鄰域。

機器學習：處理不平衡數據的5個重要技術

優勢

·無信息損失

·減少過度採樣引起的過擬合。

深入研究SMOTE技術，請點擊這裡。

2、欠採樣(Undersampling)

與過採樣不同，這種技術通過減少類的數量來處理一個不平衡的數據集。分類問題有多種方法，如聚類中心和Tomek links。聚類中心方法用K-means演算法的聚類中心代替樣本的聚類;Tomek link方法去除類之間不需要的重疊，直到所有最小距離的最近鄰都屬於同一個類。

機器學習：處理不平衡數據的5個重要技術

優勢

·可以通過減少訓練數據集的數量來改進運行時。

·有助於解決記憶問題

有關欠採樣的更多信息，請單擊此處。

3、成本敏感學習技術(Cost-Sensitive Learning)

成本敏感學習(CSL)通過最小化總成本來將誤分類成本加入考慮因素中，這種技術的目標主要是追求將實例分類為一組已知類時的高精度，它在機器學習演算法中發揮著重要的作用，包括現實數據挖掘類應用。

該方法將FP(False Positive)、FN (False Negative)、TP (True Positive)、TN (True Negative)的成本表示為成本矩陣，如下圖所示，其中C(i,j)表示對實例進行分類的誤分類成本，「i」為預測類，「j」為實際類。這是一個二元分類的成本矩陣的例子。

機器學習：處理不平衡數據的5個重要技術

優勢

·該方法避免了參數的預先選擇和決策超平面的自動調整。

深入了解CSL技術，請單擊這裡。

4、集成學習技術(Ensemble Learning)

這個基於集成的方法是處理不平衡數據集的另一種技術，集成技術是將多個分類器的結果或性能結合起來，以提高單個分類器的性能。該方法通過裝配不同的分類器來修改單個分類器的歸納能力。它主要結合了多個基礎學習器的輸出。集成學習有多種方法，如Bagging、Boosting等。

Bagging(Bootstrap Aggregating)，試圖在較小的數據集上實現相似的學習器，然後取所有預測的平均值。Boosting (Adaboost)是一種迭代技術，它根據最後的分類調整觀察值的權重。該方法減少了偏置誤差，建立了較強的預測模型。

優勢

·這是一個更穩定的模型

·預測結果更好

了解有關此技術的更多信息，請單擊此處。

5、組合類方法(Combined Class Methods)

該方法將各種方法組合在一起，能夠更好地處理不平衡數據。例如，SMOTE可以與其他方法進行組合，如MSMOTE (Modified SMOTE)、SMOTEENN (SMOTE with edit Nearest neighbor)、SMOTE- tl、SMOTE- el等，來消除不平衡數據集中的雜訊。MSMOTE是SMOTE的改進版本，它將少數類的樣本分為三類，如安全樣本、潛伏雜訊樣本和邊界樣本。

優勢

·不丟失有用信息

·很好的歸納

原文作者：AMBIKA CHOUDHURY 來源：Analytics India Magazine

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 IT168企業級 的精彩文章:

※是時候拋棄傳統ERP系統，改用SaaS了！
※16個網站超6億用戶信息在暗網被叫賣!

TAG:IT168企業級 |