當前位置:
首頁 > 知識 > 機器學習:處理不平衡數據的5個重要技術

機器學習:處理不平衡數據的5個重要技術

數據分布不平衡是機器學習工作流中的一個重要問題。所謂不平衡的數據集,意思就是兩個類中一個類的實例比另一個要高,換句話說,在一個分類數據集之中,所有類的觀察值的數量是不一樣的。這個問題不僅存在於二進位類數據中,也存在於多類數據中。

本文中將列出一些重要的技術,幫助您處理不平衡的數據。

機器學習:處理不平衡數據的5個重要技術

打開今日頭條,查看更多圖片

1、過採樣(Oversampling)

此技術用於修改不相等的數據類以創建平衡的數據集。當數據量不足時,過採樣法通過增大稀有樣本的大小來達到平衡。

過採樣的一種主要技術是SMOTE(合成少數過採樣技術,Synthetic Minority Over-sampling TEchnique)。在這種技術中,少數類是通過生成合成算例而不是通過替換來進行過採樣的,而且對於每一個少數類的觀察值,它都計算出k最近鄰(k-NN)。但這種方法僅限於假設任意兩個正實例之間的局部空間屬於少數類、訓練數據不是線性可分的情況下,這種假設可能並不總是正確的。根據所需的過採樣量,隨機選擇k-NN的鄰域。

機器學習:處理不平衡數據的5個重要技術

優勢

·無信息損失

·減少過度採樣引起的過擬合。

深入研究SMOTE技術,請點擊 這裡 。

2、欠採樣(Undersampling)

與過採樣不同,這種技術通過減少類的數量來處理一個不平衡的數據集。分類問題有多種方法,如聚類中心和Tomek links。聚類中心方法用K-means演算法的聚類中心代替樣本的聚類;Tomek link方法去除類之間不需要的重疊,直到所有最小距離的最近鄰都屬於同一個類。

機器學習:處理不平衡數據的5個重要技術

優勢

·可以通過減少訓練數據集的數量來改進運行時。

·有助於解決記憶問題

有關欠採樣的更多信息,請單擊 此處 。

3、成本敏感學習技術(Cost-Sensitive Learning)

成本敏感學習(CSL)通過最小化總成本來將誤分類成本加入考慮因素中,這種技術的目標主要是追求將實例分類為一組已知類時的高精度,它在機器學習演算法中發揮著重要的作用,包括現實數據挖掘類應用。

該方法將FP(False Positive)、FN (False Negative)、TP (True Positive)、TN (True Negative)的成本表示為成本矩陣,如下圖所示,其中C(i,j)表示對實例進行分類的誤分類成本,「i」為預測類,「j」為實際類。這是一個二元分類的成本矩陣的例子。

機器學習:處理不平衡數據的5個重要技術

優勢

·該方法避免了參數的預先選擇和決策超平面的自動調整。

深入了解CSL技術,請單擊 這裡 。

4、集成學習技術(Ensemble Learning)

這個基於集成的方法是處理不平衡數據集的另一種技術,集成技術是將多個分類器的結果或性能結合起來,以提高單個分類器的性能。該方法通過裝配不同的分類器來修改單個分類器的歸納能力。它主要結合了多個基礎學習器的輸出。集成學習有多種方法,如Bagging、Boosting等。

Bagging(Bootstrap Aggregating),試圖在較小的數據集上實現相似的學習器,然後取所有預測的平均值。Boosting (Adaboost)是一種迭代技術,它根據最後的分類調整觀察值的權重。該方法減少了偏置誤差,建立了較強的預測模型。

優勢

·這是一個更穩定的模型

·預測結果更好

了解有關此技術的更多信息,請單擊 此處 。

5、組合類方法(Combined Class Methods)

該方法將各種方法組合在一起,能夠更好地處理不平衡數據。例如,SMOTE可以與其他方法進行組合,如MSMOTE (Modified SMOTE)、SMOTEENN (SMOTE with edit Nearest neighbor)、SMOTE- tl、SMOTE- el等,來消除不平衡數據集中的雜訊。MSMOTE是SMOTE的改進版本,它將少數類的樣本分為三類,如安全樣本、潛伏雜訊樣本和邊界樣本。

優勢

·不丟失有用信息

·很好的歸納

原文作者:AMBIKA CHOUDHURY 來源:Analytics India Magazine

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

是時候拋棄傳統ERP系統,改用SaaS了!
16個網站超6億用戶信息在暗網被叫賣!

TAG:IT168企業級 |