華為美研所推出EnAET：首次用自監督學習方法加強半監督學習

科技 12-02

新智元報道

來源：新智元投稿

整理編輯：元子

【新智元導讀】Futurewei近日提出了半監督學習的新思路，不同於以前的半監督工作，該方法第一次通過引入複雜的圖像變換信息進一步加強了模型的學習能力同時有效避免了過擬合問題。相比於以前的半監督和全監督演算法，本文在模型相對簡單的基礎上，不僅實現了所有半監督任務的SOTA結果，並且在不適用validation數據集的情況下實現了CIFAR-10，STL-10數據集上全監督的SOTA結果。來新智元AI朋友圈和AI大咖們一起討論吧。

Futurewei近日提出了半監督學習的新思路，不同於以前的半監督工作，該方法第一次通過引入複雜的圖像變換信息進一步加強了模型的學習能力同時有效避免了過擬合問題。相比於以前的半監督和全監督演算法，本文在模型相對簡單的基礎上，不僅實現了所有半監督任務的SOTA結果，並且在不適用validation數據集的情況下實現了CIFAR-10，STL-10數據集上全監督的SOTA結果。

1. 簡介

EnAET全稱是Self-Trained Ensemble AutoEncoding Transformations for Semi-Supervised Learning，本文首次引入圖像變換信息利用自監督的方法來推動半監督學習。

通常來說，半監督學習希望達到兩個目標，一是能夠在有限標註樣本情況下藉助無標註樣本完成模型學習，二是探索出一種方法能夠解決over-fitting問題。EnAET通過自監督學習的思路，成功實現了這兩個目標。同時，不同於傳統思路專註於預測一致性和預測自信度的研究，本文首次提出了一種通用的自監督學習方法來加強半監督學習並取得了SOTA效果。

同時，EnAET首次探索了數據集極限情況下的模型學習，在每類僅有10張圖片的情況下，在CIFAR-10取得了90.65%的準確率，在SVHN取得了83.08%的準確率。

2. 思路

EnAET最主要的貢獻是以多種複雜圖像變換作為切入點引入了一種新的自監督架構，通過這個架構我們不僅利用變換信息加強了模型的表徵能力，而且進一步利用變換圖片加強了預測一致性。不同於以前的基於變換的自監督方法，本文首次提出了融合多種變換的思想來進一步加強模型的表徵能力，本文提出了兩種基本變換方案spatial transformation（圖1）和non-spatial transformation （圖2）。

對於spatial變換而言，本文引入了四種經典的變換:projective, affine, similarity 和euclidean變換，詳見表1. 對於non-spatial變換，引入了color，contrast，brightness和sharpen四種變換，並且將四種結合形成CCBS變換作為一種代表性的non-spatial變換加入EnAET框架。

圖1 spatial transformation

從左到右依次是原圖，projective變換，affine變換，similarity變換和euclidean變換。

圖2 Non-Spatial Transformation

圖片依次是：原圖，color變換，contrast變換，brightness變換，sharpen變換，color contrast變換，color contrast brightness變換，color contrast brightness sharpen變換。

表1 spatial transformation詳解

基於這兩種變換的基礎上，文章中提出了如圖3所示的EnAET架構：

圖3.EnAET演算法示意圖

簡而言之，針對半監督中的分類網路，將其劃分為兩部分:編碼器E和分類器C。同時針對不同變換tk提供不同的解碼器Dk ,這裡所有Dk的網路結構和C保持一致。對於不同變換後的圖片和原圖，E和C始終共享權重，這樣做的原因是希望每種變換都能利用原圖和變換後的圖片經過E編碼的特徵預測，從而實現加強E表現性能同時避免過擬合的目標。

為實現這個目標，可以針對每種變換tk使用MSE損失函數來來計算AET損失從而達到增強編碼器E的目的。

在AET損失函數的基礎上，為了進一步增強模型的預測一致性，文章中進一步引入KL散度達到了模型的變換一致性。如下公式所示：

這裡P(y|x)是模型對原圖的預測，Pt(y|x)是模型對原圖經過t變換後圖像的預測。這裡對原圖的預測本文使用了average和sharpen等思路讓原圖預測更加可靠。

EnAET的具體訓練思路如圖4所示：

圖4 EnAET演算法

可以看出，因為EnAET是一種全新的基於圖像變換的訓練思路，所以針對任何以前的半監督演算法，都可以將EnAET作為一種類似於正則化的方法引入訓練，因此簡而言之，針對任何半監督演算法， EnAET可表述為:

3. 實驗結果

為同以往半監督方法對比，論文中使用了"Wide Resnet-28-2"的網路結構，以經典結構設計作為模型1，同時改換初始卷積核數量為135作為模型2. 最為重要的是，針對EnAET中的超參數，實驗過程中針對所有數據集保持不變，極大地保證了方法的可遷移性。

3.1 半監督實驗

在CIFAR10上，EnAET首次對僅有100張有標註圖片的情況進行實驗，取得了9.35%的錯誤率,同時在250張有標註圖片分類任務下，相比於以前的SOTA，成功將錯誤率從11.08%下降到7.6%。具體對比如下：

在CIFAR-100上，EnAET首次實驗了每類僅有十張圖片的情況，取得了58.73的錯誤率。在經典的10000張有標註圖片分類任務下，成功將錯誤率從38.65%降到了26.93%。具體對比如下:

在STL10任務下，EnAET在1000標註樣本下將錯誤率從10.18%下降到8.04%，在使用所有標註樣本情況下將錯誤率從5.59%降到4.52%。

在SVHN任務下，EnAET在經典250有標註樣本下將錯誤率從3.78%進一步降到3.21%，具體對比如下:

同時為對比以前基於複雜模型的方法，我們模型2與其他方法對比如下，所有任務均取得顯著提升。

3.2 全監督實驗

基於模型1，與所有基於該模型的全監督方法進行了對比，其中包括基於數據增強策略搜索的AutoAugment的方法，EnAET模型均取得顯著提升，具體對比如圖8所示。

基於模型2，考慮到其他方法沒有用過EnAET中的網路結構，因而採用Wide Resnet-28-10結構作為baseline。相比於我們的模型，該模型結構更加複雜並且擁有更多的參數，因此這種比較是公平的。同時對於不同數據集引入了全監督SOTA方法作為對比。

在這種對比下，相對於baseline，EnAET取得了巨大的提升，同時在Wide Resnet-28-10結構下相對其他方法取得顯著提高。最值得一提的是，對於CIFAR-10，基於相對簡單的架構，超越了基於PyramidNet和網路架構搜索（NAS）的方法，取得了該數據集的全監督SOTA。

4. 結論

本文通過引入EnAET，一種基於變換自監督的架構，成功地提升了半監督的性能。通過實驗，在半監督所有數據集上刷新了SOTA，同時在同等網路架構下達到了全監督的SOTA。考慮到超參數對所有數據集均是固定的，因此這種自監督的方法可以進一步遷移到無監督學習和全監督學習。

本文代碼全開源：

https://github.com/wang3702/EnAET

論文鏈接：

https://arxiv.org/abs/1911.09265

在新智元你可以獲得：

與國內外一線大咖、行業翹楚面對面交流的機會

掌握深耕人工智慧領域，成為行業專家

遠高於同行業的底薪

五險一金＋月度獎金＋項目獎勵＋年底雙薪

舒適的辦公環境（北京融科資訊中心B座）

一日三餐、水果零食

新智元邀你2020勇闖AI之巔，崗位信息詳見海報：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※Quoc Le推新論文：打破常規，巧用對抗性樣本改進圖像識別性能
※Nature：中國科學家發現最大恆星級黑洞！有望開創黑洞發現新紀元