何愷明團隊神經結構搜索最新力作:設計隨機連接網路,效果超ResNet
新智元報道
來源:arXiv
編輯:肖琴
【新智元導讀】FAIR何愷明團隊近日發表神經結構搜索NAS方面的最新力作,通過隨機連接的神經網路,探索了更多樣化的連接模式,所提出的RandWire網路ImageNet基準測試中獲得了有競爭力的準確度。
用於圖像識別的神經網路經過大量的人工設計,已經從簡單的鏈狀模型發展到具有多個連接路徑的結構。ResNets 和 DenseNets 的成功在很大程度上歸功於它們創新的連接規劃。
目前,神經結構搜索 (NAS)的研究正在探索連接 (wiring) 與操作類型 (operation types) 的聯合優化,然而,由於可能的連接空間受到限制,儘管採用了神經結構搜索,優化仍然是由人工設計驅動的。
近日,FAIR 何愷明等人發表最新論文,探討了在圖像識別中NAS方法的優化。研究人員通過隨機連接的神經網路,探索了更多樣化的連接模式。
論文地址:
https://arxiv.org/pdf/1904.01569.pdf
作者首先定義了一個隨機網路生成器 (network generator)的概念,該生成器封裝了整個網路生成過程,從而提供了 NAS 和隨機連接網路的統一視圖。
然後,研究人員採用三種經典的隨機圖模型來生成網路的隨機連接圖。
實驗結果令人驚訝:這些隨機生成器生成的網路實例在 ImageNet 基準測試中獲得了有競爭力的準確度。
研究人員表示,這些結果表明,專註於設計更好的網路生成器的研究可以通過探索更少約束的搜索空間,為新設計提供更多空間,從而帶來新的突破。
不過,該研究被指其思想早已在2013年PCA-Net論文中提出過,在演算法設計思想方面沒有本質的創新。
何愷明等人的這一新研究到底意義如何?本文對這篇論文進行了譯介:
研究概述:網路生成器的設計很重要
今天我們所稱的深度學習是從連接主義方法發展起來的,這一範式反映了這樣一種假設,即計算網路的連接方式對構建智能機器至關重要。
與這一觀點相呼應的是,計算機視覺領域的最新進展是由使用鏈狀連接的模型向更精細的連接模式 (如 ResNet 和 DenseNet) 的轉變所驅動的,這些連接模式之所以有效,在很大程度上是因為它們的連接方式。
在這一趨勢的推進中,神經結構搜索 (neural architecture search, NAS) 已經成為聯合搜索連接模式和執行操作方式的一個有前景的方向。NAS 方法專註於搜索,同時隱式地依賴於一個重要但常常被忽視的組件 ——網路生成器(network generator)。
NAS 網路生成器定義了一系列可能的連接模式,並根據可學習的概率分布對網路進行採樣。然而,就像 ResNet 和 DenseNet 中的連接模式一樣,NAS 網路生成器是手工設計的,允許的連接模式的空間被限制在所有可能的圖的一個小的子集中。從這個角度來看,我們會問:如果我們放開這種約束,並設計新的網路生成器,會發生什麼 ?
我們通過隨機網路生成器採樣的隨機連接神經網路來探討這個問題,其中人工設計的隨機過程定義了生成。
圖1:隨機連接網路的計算圖
我們使用了三個經典的隨機圖模型:Erdos-R?enyi (ER) ,Barabasi-Albert (BA),以及Watts-Strogatz (WS) 模型。
如圖1所示,隨機連接網路的三個實例在ImageNet基準測試中分別達到79.1%、79.1%和79.0%的精度,超過了ResNet-50的77.1%。
為了定義完整的網路,我們將一個隨機圖轉換成一個有向無環圖 (DAG),並應用從節點到其函數角色 (例如,到相同類型的卷積) 的一個簡單映射。
結果令人驚訝:這些隨機生成器的幾個變體在 ImageNet 上產生了準確率上具有競爭力的網路。
使用 WS 模型的最佳生成器生成的多個網路性能優於或可與完全手工設計的同類網路和通過各種神經結構搜索方法找到的網路相媲美。
我們還觀察到,對於同一生成器生成的不同隨機網路,精度的方差較低,但不同生成器之間存在明顯的精度差距。這些觀察結果表明,網路生成器的設計很重要。
最後,我們的工作表明,從設計單個網路到設計網路生成器的新過渡是可能的,類似於如何從設計特徵過渡到設計學習特徵的網路。
我們建議設計新的網路生成器來生成用於搜索的新模型家族,而不是主要關注使用固定生成器進行搜索。設計的網路生成器的重要性還意味著機器學習尚未實現自動化 —— 底層的人工設計只是從網路工程轉變到網路生成器工程 (network generator engineering)。
研究方法
接下來介紹網路生成器的概念,這是隨機連接神經網路的基礎。
網路生成器 (network generator)
我們定義一個網路生成器為從參數空間 Θ 到神經網路結構空間 N 的一個映射g,表示為g:ΘN。對於一個給定的θ∈Θ,g(θ) 返回一個神經網路實例n ∈ N。N 通常是一組相關網路,例如 VGG nets、ResNets 或 DenseNets。
生成器 g 決定了計算圖的連接方式。
隨機連接神經網路 (Randomly Wired Neural Networks)
對 NAS 的分析表明,網路生成器是人工設計的,並且是人類知識的先驗編碼。網路生成器的設計很可能起了相當大的作用,如果是這樣的話,目前的方法還沒有實現「AutoML」,仍然需要大量的人工。
為了研究生成器設計的重要性,僅比較相同 NAS 生成器的不同優化器是不夠的;有必要研究新的網路生成器,它們與 NAS 生成器有本質的不同。
這就引出了我們對隨機連接神經網路的探索。也就是說,我們將定義網路生成器,這些生成器生成具有隨機圖的網路,受不同的人類特定先驗影響。
我們在研究中使用了三個經典的隨機圖模型 (如上文所述)。生成隨機連接網路的方法涉及以下概念:
生成通用的圖 (general graphs)。
網路生成器首先生成一個 general graph,包含一組節點和連接節點的邊,而不受限於圖和神經網路的對應關係。這允許我們自由地使用圖理論中的任意通用圖生成器(ER/BA/WS)。一旦生成一個圖,它就被映射到一個可計算的神經網路。
邊操作 (Edge operations)。
假設生成的圖是有方向的,我們定義邊是數據流,即有向邊將數據 (張量) 從一個節點發送到另一個節點。
節點操作 (Node operations)。
有向圖中的節點可以具有一些輸入邊和一些輸出邊。如圖 2 所示。
圖2:節點操作
輸入和輸出節點。
到目前為止,即使給定邊 / 節點操作,通用圖也不是一個有效的神經網路,因為它可能有多個輸入節點和多個輸出節點。對於典型的神經網路,如圖像分類,最好有一個單一的輸入和輸出。我們應用了一個簡單的後處理步驟。
階段 (Stages)。
由於具有唯一的輸入和輸出節點,一個圖就足以表示一個有效的神經網路。然而,特別是在圖像分類中,始終保持完整輸入解析度的網路是不可取的。通常的方法是將網路劃分為逐步向下採樣特徵映射的階段。
表1:RandWire架構
表 1 總結了我們實驗中使用的隨機連接神經網路,稱為 RandWire。網路以一個分類器輸出結束 (表 1,最後一行)。
圖 1 顯示了三個隨機連接網路樣本的完整計算圖。
實驗和結果
我們對 ImageNet 1000 類分類任務進行了實驗。訓練在~1.28M 圖像的訓練集上進行,並在 50K 驗證圖像上進行測試。
實驗結果如下:
隨機生成器
圖3
圖 3 比較了小型計算環境中不同生成器的結果:每個 RandWire 網路有~580M FLOPs。
圖4
圖 4 顯示了每個生成器的一個示例圖。圖生成器由隨機圖模型 (ER/BA/WS) 及其參數集指定,如 ER(0.2)。我們觀察到:
所有隨機生成器在所有 5 個隨機網路實例上都提供良好的準確度,而且它們沒有一個不收斂。
此外,隨機網路實例之間的差異很小。圖 3 中的幾乎所有隨機生成器的標準偏差 (std)都為 0.2 ~ 0.4%。
Graph damage.
我們通過隨機移除一個節點或邊來探索 Graph damage。
圖5
當刪除邊時,我們評估了精度損失與該邊的目標節點的輸入程度 (圖 5,底部)。
節點操作
圖6
圖 6 顯示了圖 3 中列出的每個生成器的平均精度。
結果比較
小型計算設置
表2
表 2 比較了在較小計算條件下的結果,這是現有 NAS 論文中研究的一種常見設置
表3
表 3 比較了 RandWire 與 ResNet 和 ResNeXt 在與 ResNet-50/101 類似的 FLOPs 的情況下的性能。RandWire 的平均準確率分別比 ResNet50 和 ResNet-101 高 1.9% 和1.3%,比 ResNeXt 高 0.6%。
更大的計算條件
表4
表 4 比較了在更大計算條件下的結果
COCO 對象檢測
最後,我們報告了通過微調網路進行 COCO 對象檢測的結果。我們使用 Faster R-CNN和 FPN 作為目標探測器。
表5
表 5 比較了對象檢測結果。觀察到的趨勢與表 3 中的 ImageNet 實驗相似。這些結果表明,我們的隨機連接網路學習到的特徵也可以遷移。
論文地址:
https://arxiv.org/pdf/1904.01569.pdf
※最新TensorFlow能碾壓PyTorch?兩大深度學習框架最全比拼
※Science專欄:關於AI黑箱的終極答案
TAG:新智元 |