如何利用大規模無監督數據建立高水平特徵？

知識 10-23

作者：Jae Duk Seo

翻譯：Nicola

校對：丁楠雅

本文約3000字，建議閱讀9分鐘。

本文帶你一窺Twitter整個產品鏈的構成，了解數據科學是怎樣在各類型公司中發揮作用的。

GIF來自：https://giphy.com/gifs/features-7BldZFcv2pof6

如何構建更厲害的特徵檢測器？我們可以通過無監督學習來做到這一點嗎？

請注意，本文是一篇我自己留檔用的回顧總結材料。

Paper來自此網站：

https://arxiv.org/pdf/1112.6209.pdf

摘要

這篇文章的作者們喜歡利用未標記數據製作特定的分類特徵識別器。（例如，使用未標記的人臉圖像製作人臉識別器。）為實現這一目標，作者在大型數據集上製作了一個9層的自動稀疏編碼器。與普遍的認知相反，這可以在沒有任何標籤數據的情況下構建面部檢測器，而且優於ImageNet數據的最新性能。（在2012年）。

介紹

這篇文章的目的是只依靠未標記圖像構建一個特定的分類特徵識別器，同時這也是神經科學的構想：「人類大腦中存在高度特定類的神經元」，通常被非正式地稱為「母神經元」。在傳統的計算機視覺中，大多數研究人員使用標記數據來獲得這些識別器，然而大量數據時就比較困難。這個實驗的成功說明，可以從未標記數據中學習高級特徵和母神經元。大多數這些方法（如自動稀疏編碼器）僅僅可以用於低級特徵，如邊緣或斑點（edges or blobs）。

作者假設深度學習花費如此多時間的原因是由於缺少高級特徵，例如，圖像被重新調整得更小，這樣的降級會破壞高級特徵的學習。作者沒有縮小圖像，也沒有使用大量計算能力。經證明，有可能從未標記的數據中學習更高級別的特性。最後，使用學習過濾器，他們能夠超越ImageNet數據集的最新技術性能。（2012年）。

數據集結構/演算法

如上所述，來自1000萬個Youtube視頻隨機選擇的片段，他們通過使用OpenCV臉部識別得出結論，在1000萬個採樣片段中，面部出現的概率不到3％。

這裡使用的演算法的靈感來自不同類型的無監督學習演算法的成功。（RBM，稀疏自動編碼器等......）。作者的目的是學習更高水平的特徵，而不僅僅是低水平。

如上所述，作者使用的架構可以被認為是深度自動的稀疏編碼器，帶有一些轉動（twist）同時它們也是局部感受器，池和局部響應歸一化（使用了L2池）。堆疊（stacking）一系列統一模塊，大腦所採用的架構是在選擇性和允差層(tolerance layers)之間轉換。有一件需要注意的重要的事是，雖然網路使用局部感受器，但是它們並不是卷積的（參數在圖像中的不同位置不可共享），這在生物學上更合理。

學習和優化

在學習期間第二子層會被固定為均勻的權重，所有編碼器和解碼器中的其他權重通過上面的成本函數來處理。優化問題也稱為重建地形獨立成分分析（Topographic ICA），基本上第一項確保編碼中關於數據的重要信息，第二項鼓勵將有相似特徵的特性組合在一起以實現方差。

這篇文章的作者使用了非同步隨機梯度下降（ASGD），並使用1000簇機器對網路進行了為期三天的處理。

面部實驗

這個測試數據由37，000個來自Labeled FacesIn the Wild數據集和ImageNet數據集的圖像組成。經過訓練之後，作者使用測試集來測量每個神經元檢測面部的表現。令人驚訝的是，最好的神經元能夠以81.7％的準確度檢測到面部。對於沒有局對比度歸一化的層，精度會降低至78.5％。

他們將激活值轉化為直方圖得到上面的圖表，可以明顯看出，即使沒有標記數據，也是有可能訓練人臉檢測器的。

作者通過使用兩種技術使神經元的刺激最大化。（使測試集里響應最積極的刺激物可視化，最大化數值以找到最佳刺激物）。這樣可以驗證神經元是否確實在尋找一張臉。並且通過額外的實驗，結果顯示已知的權重會對應不同的方差，例如，垂直方向或左右方向旋轉和縮放。

貓和人體探測器

作者還想知道網路是否能夠學習更高級別的特性例如貓和人體等。如上所述，網路中的一些神經元能夠檢測到更高級別特徵的形狀例如貓或人體。在他們自己的數據集上測試的結果顯示在貓和人體上分別達到74.8％和76.7％。

通過ImageNet進行圖像識別

在經過訓練後的權重上添加一對所有邏輯分類器後，他們在ImageNet數據集上重新訓練網路（此方法也稱為無監督預訓練），能夠比當時的基線（2012年）表現得更好。在具有22,000類別的ImageNet上，它超越了其他最高結果70％。同時所有的表現都可以在上面的表格看到。

結論

總結來看，使用大量數據和計算機力量，有可能實現僅使用未標籤數據識別臉部和身體高級性能。另外，這種方法會比2012年ImageNet數據集的基準線表現要優越。

尾聲

這是一個非常酷的實驗，但是所需的數據量特別大（以及計算能力），也許這就是它沒有實現的原因。

參考

1,Le, Q., Ranzato, M., Monga, R., Devin, M., Chen, K., & Corrado, G. et al.(2011). Building high-level features using large scale unsupervised learning.Arxiv.org. Retrieved 15 August 2018, from https://arxiv.org/abs/1112.6209

原文標題：

[ Google / ICML /Paper Summary ]Building High-level Features Using Large Scale Unsupervised Learning

譯者簡介

Nicola，北美東部大四在讀，喜歡政治和數據的商科生。空餘時候通過翻譯學術文檔擴充知識，假期會去不同的地方旅遊，平時研究香氛研究護膚。同時也在聯繫資料庫分析等，希望能認識更多未來的數據科學家們。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 數據派THU 的精彩文章:

※初學者的問題：在神經網路中應使用多少隱藏層/神經元？
※全解用Python建立能源市場演算法交易的機器學習框架

TAG:數據派THU |