機器學習:處理不平衡數據的5個重要技術
數據分布不平衡是機器學習工作流中的一個重要問題。所謂不平衡的數據集,意思就是兩個類中一個類的實例比另一個要高,換句話說,在一個分類數據集之中,所有類的觀察值的數量是不一樣的。這個問題不僅存在於二進位類數據中,也存在於多類數據中。
本文中將列出一些重要的技術,幫助您處理不平衡的數據。
打開今日頭條,查看更多圖片
1、過採樣(Oversampling)
此技術用於修改不相等的數據類以創建平衡的數據集。當數據量不足時,過採樣法通過增大稀有樣本的大小來達到平衡。
過採樣的一種主要技術是SMOTE(合成少數過採樣技術,Synthetic Minority Over-sampling TEchnique)。在這種技術中,少數類是通過生成合成算例而不是通過替換來進行過採樣的,而且對於每一個少數類的觀察值,它都計算出k最近鄰(k-NN)。但這種方法僅限於假設任意兩個正實例之間的局部空間屬於少數類、訓練數據不是線性可分的情況下,這種假設可能並不總是正確的。根據所需的過採樣量,隨機選擇k-NN的鄰域。
優勢
·無信息損失
·減少過度採樣引起的過擬合。
深入研究SMOTE技術,請點擊 這裡 。
2、欠採樣(Undersampling)
與過採樣不同,這種技術通過減少類的數量來處理一個不平衡的數據集。分類問題有多種方法,如聚類中心和Tomek links。聚類中心方法用K-means演算法的聚類中心代替樣本的聚類;Tomek link方法去除類之間不需要的重疊,直到所有最小距離的最近鄰都屬於同一個類。
優勢
·可以通過減少訓練數據集的數量來改進運行時。
·有助於解決記憶問題
有關欠採樣的更多信息,請單擊 此處 。
3、成本敏感學習技術(Cost-Sensitive Learning)
成本敏感學習(CSL)通過最小化總成本來將誤分類成本加入考慮因素中,這種技術的目標主要是追求將實例分類為一組已知類時的高精度,它在機器學習演算法中發揮著重要的作用,包括現實數據挖掘類應用。
該方法將FP(False Positive)、FN (False Negative)、TP (True Positive)、TN (True Negative)的成本表示為成本矩陣,如下圖所示,其中C(i,j)表示對實例進行分類的誤分類成本,「i」為預測類,「j」為實際類。這是一個二元分類的成本矩陣的例子。
優勢
·該方法避免了參數的預先選擇和決策超平面的自動調整。
深入了解CSL技術,請單擊 這裡 。
4、集成學習技術(Ensemble Learning)
這個基於集成的方法是處理不平衡數據集的另一種技術,集成技術是將多個分類器的結果或性能結合起來,以提高單個分類器的性能。該方法通過裝配不同的分類器來修改單個分類器的歸納能力。它主要結合了多個基礎學習器的輸出。集成學習有多種方法,如Bagging、Boosting等。
Bagging(Bootstrap Aggregating),試圖在較小的數據集上實現相似的學習器,然後取所有預測的平均值。Boosting (Adaboost)是一種迭代技術,它根據最後的分類調整觀察值的權重。該方法減少了偏置誤差,建立了較強的預測模型。
優勢
·這是一個更穩定的模型
·預測結果更好
了解有關此技術的更多信息,請單擊 此處 。
5、組合類方法(Combined Class Methods)
該方法將各種方法組合在一起,能夠更好地處理不平衡數據。例如,SMOTE可以與其他方法進行組合,如MSMOTE (Modified SMOTE)、SMOTEENN (SMOTE with edit Nearest neighbor)、SMOTE- tl、SMOTE- el等,來消除不平衡數據集中的雜訊。MSMOTE是SMOTE的改進版本,它將少數類的樣本分為三類,如安全樣本、潛伏雜訊樣本和邊界樣本。
優勢
·不丟失有用信息
·很好的歸納
原文作者:AMBIKA CHOUDHURY 來源:Analytics India Magazine
※是時候拋棄傳統ERP系統,改用SaaS了!
※16個網站超6億用戶信息在暗網被叫賣!
TAG:IT168企業級 |