非平衡數據集 focal loss 多類分類

知識 04-23

本文為 AI 研習社編譯的技術博客，原標題：

Multi-class classification with focal loss for imbalanced datasets

作者 |Chengwei Zhang

翻譯 | 汪鵬校對 | 斯蒂芬·二狗子

審核 | Pita 整理 | 立魚王

https://medium.com/swlh/multi-class-classification-with-focal-loss-for-imbalanced-datasets-c478700e65f5

焦點損失函數 Focal Loss（2017年何凱明大佬的論文）被提出用於密集物體檢測任務。它可以訓練高精度的密集物體探測器，哪怕前景和背景之間比例為1：1000（譯者註：facal loss 就是為了解決目標檢測中類別樣本比例嚴重失衡的問題）。本教程將向您展示如何在給定的高度不平衡的數據集的情況下，應用焦點損失函數來訓練一個多分類模型。

背景

讓我們首先了解類別不平衡數據集的一般的處理方法，然後再學習 focal loss 的解決方式。

在多分類問題中，類別平衡的數據集的目標標籤是均勻分布的。若某類目標的樣本相比其他類在數量上佔據極大優勢，則可以將該數據集視為不平衡的數據集。這種不平衡將導致兩個問題：

訓練效率低下，因為大多數樣本都是簡單的目標，這些樣本在訓練中提供給模型不太有用的信息；

簡單的樣本數量上的極大優勢會搞垮訓練，使模型性能退化。

一種常見的解決方案是執行某種形式的困難樣本挖掘，實現方式就是在訓練時選取困難樣本或使用更複雜的採樣，以及重新對樣本加權等方案。

對具體圖像分類問題，對數據增強技術方案變更，以便為樣本不足的類創建增強的數據。

焦點損失函數旨在通過降低內部加權（簡單樣本）來解決類別不平衡問題，這樣即使簡單樣本的數量很大，但它們對總損失的貢獻卻很小。也就是說，該函數側重於用困難樣本稀疏的數據集來訓練。

將 Focal Loss 應用於欺詐檢測任務

為了演示，我們將會使用 Kaggle上的欺詐檢測數據集構建一個分類器，這個數據及具有極端的類不平衡問題，它包含總共6354407個正常樣本和8213個欺詐案例，兩者比例約為733：1。對這種高度不平衡的數據集的分類問題，若某模型簡單猜測所有輸入樣本為「正常」就可以達到733 /（733 1）= 99.86％的準確度，這顯然是不合理。因此，我們需要的是這個模型能夠正確檢測出欺詐案例。

為了證明focal loss 比傳統技術更有效，讓我們建立一個簡單地使用類別權重 class_weight訓練的基準模型，告訴模型「更多地關注」來自代表性不足的欺詐樣本。