結合主動學習與遷移學習:讓醫學圖像標註工作量減少一半
和普通圖像的標註不一樣,生物醫學圖像的標註需要有專業知識和技能的人來做,因此難以獲得大型的有標註數據集供卷積神經網路學習。近日,IEEE 一篇論文提出可以將主動學習和遷移學習結合起來降低標註任務的工作量,實驗結果也證明了這種方法的有效性。機器之心對該論文進行了編譯介紹,詳細的數學過程和結果分析請參閱原論文。
在 ImageNet 和 Places 等大規模有標註數據集的幫助下,卷積神經網路(CNN)已經為計算機視覺領域帶來了革命性的發展。正如 IEEE TMI 專刊 [4] 和最近的兩本書 [5,6] 談到的那樣,人們對在生物醫學圖像分析中應用 CNN 有著廣泛且濃厚的興趣;但由於生物醫學領域缺乏如此大量的有標註數據集,所以 CNN 在這一領域的成功之路還有所阻礙。標註生物醫學圖像不僅耗時耗力,而且需要高成本的、特定專業的知識和技能,這些都不易取得。因此,我們希望解答這個重要問題:如何顯著降低將 CNN 應用於生物醫學圖像的標註成本;另外我們也想解答一個附屬問題:給定一個有標籤數據集,如何確定它充分覆蓋了不同的相關對象。為此,我們提出了一種名為 AFT* 的全新方法,可以自然地將主動學習(active learning)和遷移學習(transfer learning)整合成單一一個框架。我們的 AFT* 方法首先會使用一個預訓練 CNN 來尋找未標註數據中的「顯著」樣本來進行標註,然後這個(經過微調的)的 CNN 會根據新標註的樣本以及所有誤分類的樣本而持續得到調整改進。我們在三種不同的應用上評估了我們的方法,其中包括結腸鏡檢查幀分類、息肉檢測和肺栓塞(PE)檢測;結果表明標註成本至少可以減少一半。
這種出色表現主要得益於一個簡單而又強大的觀察結果:為了提升 CNN 在生物醫學圖像上的表現,通常會通過數據增強方法為每個候選數據自動生成多個圖塊(patch);這些根據同一候選數據生成的圖塊具有同樣的標籤,所以當它們被放入訓練集中時,自然能夠預見當前 CNN 會為它們給出相似的預測結果。因此,它們的熵和多樣性能提供有關候選數據的「能力」的有用指標,從而可幫助提升當前 CNN 的表現。但是,自動數據增強無可避免地會為某些候選數據生成「困難的」樣本,注入有雜訊的標籤;因此,為了顯著增強我們的方法的穩健性,我們會根據當前 CNN 的預測結果,通過選擇每個候選數據的一小部分圖塊來計算熵和多樣性。
演算法 1:AFT*——使用混合數據進行主動且持續的微調
有些研究已經表明對生物醫學圖像分析 CNN 進行微調是有用的,但這些研究只執行了一次微調,也就是說,只使用所有可用的訓練樣本對預訓練的 CNN 進行一次微調,而不涉及任何主動選擇過程。就我們所知,我們提出的方法是首次以連續的方式將主動學習整合到 CNN 的微調中,可以使 CNN 對生物醫學圖像分析更加友好,實現極大降低標註成本的目標。演算法 1 給出了我們的方法的概覽;與傳統的主動學習相比,我們的方法有 8 項優勢:
從全空的有標籤數據集開始,不需要任何初始的有標籤候選數據;
通過持續的微調而非反覆的再訓練來逐步提升學習器的表現;
通過自然地利用每個候選數據中圖塊之間的預期一致性來主動選擇信息最豐富和最有代表性的候選數據;
在每個候選數據中的少量圖塊上局部地計算選擇標準,從而能節省可觀的計算時間;
通過多數選擇(majority selection)自動處理有雜訊標籤;
自動平衡不同類的訓練樣本;
將新選擇的候選數據與誤分類的候選數據結合到一起,去除簡單樣本以提升訓練效率,重點關注困難樣本以防止災難性遺忘(catastrophic forgetting);
將隨機性納入主動選擇過程,以在探索(exploration)和利用(exploration)之間達到接近最優的平衡。
更重要的是,我們的方法有望對使用生物醫學成像的計算輔助診斷(CAD)產生重要影響,因為當前法規要求 CAD 系統必須部署在「封閉」環境中,其中所有的 CAD 結果都要經過放射科醫生的檢查,如有錯誤就會得到糾正;由此,所有的假正例結果都應該被移除,所有的假負例結果都應該補充上來,這是一種即時的在線反饋,也許能讓 CAD 系統能夠具備自我學習能力並且可能能在我們的方法的持續性微調能力的幫助下在部署之後繼續改進。
3 我們提出的方法
AFT* 是在生物醫學成像計算機輔助診斷(CAD)的背景下設計的。CAD 系統通常有一個候選數據生成器,可以快速生成一個候選數據集合,其中有些是真正例,有些是假正例。在生成候選數據之後,任務目標是訓練一個分類器來儘可能地去除假正例結果同時儘可能地保留真正例結果。為了訓練分類器,必須對每個候選數據進行標註。我們假設每個候選數據都要取多個可能標籤中的一個。為了提升用於 CAD 系統的 CNN 的表現,通常要通過數據增強為每個候選數據自動生成多個圖塊;這些根據同一候選數據生成的圖塊會繼承該候選數據的標籤。換句話說,所有標籤都是在候選數據層面上獲取的。
但是,AFT* 是通用型的,可以應用於計算機視覺和圖像分析領域中的很多任務。為了說明清楚,我們將使用 Places 資料庫在自然圖像中的場景解讀任務上闡述 AFT* 背後的思想,其中不需要候選數據生成器,因為每張圖像都可以直接被當作是候選數據。為了說明簡單同時不失一般性,我們將其限制到了 3 種類別(廚房、客廳和辦公室),並且將每一類中的 Places 圖像都分成了訓練集(14 000 張圖像)、驗證集(1000 張圖像)和測試集(100 張圖像),這三個子集之間沒有重疊。
設計主動學習演算法涉及兩個關鍵問題:(1)如何確定一個標註候選數據的「價值度(worthiness)」;(2)如何更新分類器/學習器。
3.1 主動候選數據選擇
圖 3 給出了用於多類分類的主動候選數據選擇過程,同時為了便於理解,表 1 用二元分類情況對其進行了闡述。如表 1 第 1 行所示,二元分類情況有 7 種典型預測模式。
圖 3:在第 10 步時(經過了 3000 個圖像標籤查詢後),兩張圖像(A 和 B)以及由 CNN 在主導類別上根據預測結果列出的增強後的圖像圖塊。
表 1:主動候選數據選擇的 7 種預測模式和 4 種方法之間的關係。
3.2 尋找有價值的候選數據
主動學習的關鍵是開發用於確定標註候選數據「價值度」的指標。我們的標準基於一個簡單而強大的觀察結果:所有根據同一候選數據增強得到的圖塊都具有同樣的標籤;預計當前 CNN 對它們的預測也相似。因此,它們的熵和多樣性能提供有關候選數據的「能力」的有用指標,從而可幫助提升當前 CNN 的表現。直觀上講,熵代表了分類的確定性——更高的不確定性值表示更高程度的信息(比如,表 1 中的模式 A);而多樣性是指在一個候選數據的多個圖塊上所得到的預測的一致性——多樣性值更高說明預測不一致性程度更高(比如,表 1 中的模式 C)。
3.3 通過多數選擇處理雜訊標籤
自動數據增強對提升 CNN 的表現而言至關重要,但卻無可避免地會為某些候選數據生成「困難的」樣本(如圖 4(c) 所示),注入有雜訊的標籤;因此,為了顯著增強我們的方法的穩健性,我們會根據當前 CNN 的預測結果,通過選擇每個候選數據的一小部分圖塊來計算熵和多樣性。
3.4 將隨機性注入主動選擇
如 [41] 中討論的那樣,簡單的隨機選擇在一開始時的表現可能優於主動選擇,因為主動選擇依賴於當前模型來選擇用於標註的範例;因此,在早期階段做出的糟糕選擇可能會對後續選擇的質量造成不良影響;而隨機選擇則更不易受到糟糕假設的約束。也就是說,主動選擇重在利用從已獲得的標籤中取得的知識以探索決策邊界,而隨機選擇則重在探索,所以能夠定位到特徵空間中分類器表現糟糕的區域。因此,有效的主動學習策略必須找到探索和利用之間的平衡。為此,我們通過根據採樣概率主動選擇而向我們的方法中注入了隨機性。
3.5 比較多種學習策略
根據上面的討論,可以推導出幾種主動學習策略,如表 2 所示。我們對這些策略進行了全面的比較,結果表明:(1)AFT" 不穩定;(2)AFT"" 需要仔細調整參數;(3)AFT 與 AFT" 和 AFT"" 相比是最可靠的,但需要在每一步使用所有目前可用的有標註樣本從一開始就對原始模型進行微調。為了克服這個短板,我們開發了一種優化版本 AFT*,可以使用新標註的候選數據以及被誤分類的候選數據來持續優化當前模型。有些研究者已經證明微調能帶來更好的表現,而且比從頭開始訓練更加穩健。此外,我們的實驗表明 AFT* 的收斂速度比反覆微調原來的預訓練的 CNN 更快,從而可以節省訓練時間;AFT* 還能通過去除簡單樣本,重點關注困難樣本,防止災難性遺忘來提升性能。
表 2:主動學習策略
圖 2(a) 比較了使用 Places 資料庫的 AFT* 和 RFT。RFT 通過系統性的隨機採樣生成了 6 個不同的序列。最後的曲線是根據 6 次運行的平均結果繪製的。如圖 2(a) 所示,在 AUC(曲線下面積)方面,僅使用了 2906 個候選數據查詢的 AFT* 可以實現使用了 4452 個候選數據查詢的 RFT 的表現;同時 AFT* 僅使用 1176 個候選數據查詢就能實現使用全部 42000 個候選數據的完全訓練(full training)的表現。因此,AFT* 相比於 RFT 能節省 34.7% 的標註成本,相比於完全訓練能節省 97.2% 的標註成本。當使用了大約 100% 的訓練數據時,其表現仍然在繼續增長;因此,考慮到 GoogLeNet 架構有 22 層,所以這個數據集的大小還是不夠。AFT* 是一種通用演算法,不僅可用於生物醫學數據集,而且也能用於其它數據集;AFT* 可用於有很多類別的問題。
圖 2
※Yann LeCun卸任FAIR實驗室主任,改任首席AI科學家
※可視化線性修正網路:看Fisher-Rao範數與泛化之間的關係
TAG:機器之心 |