向頻域方向演進的卷積網路:OctConv用更低計算力做到更高準確率
AI 科技評論按:近幾天,一篇改進卷積網路的論文引發了不小的關注和討論。簡單來說,這篇論文對傳統的卷積操作做了簡單的通用改進,就同時獲得了更低的計算能力消耗和更高的準確率。知名機器學習研究員、「GANs 之父」Ian Goodfellow 就在推特上公開稱讚了這篇論文。
這篇論文的一作是陳雲鵬,目前在新加坡國立大學(NUS)讀最後一年博士生,他的導師是馮佳時助理教授和顏水成副教授。此前,陳雲鵬在華中科技大學獲得學士學位,並曾在香港大學做助理研究員、在 Facebook 機器學習應用部門(Facebook AML) 做實習研究員。從新加坡國立大學畢業之後,陳雲鵬將於今年正式加入 Facebook,成為一名研究科學家。
下面雷鋒網 AI 科技評論簡單介紹一下論文的主要內容。
(降低一個八度:通過 Octave Convoluation 減少卷積神經網路中的空間冗餘度)
卷積神經網路(CNN)在許多計算機視覺任務中都取得了前所未有的成功,並且隨著近期研究中對於密集的模型參數以及 feature map 通道維度的固有冗餘性的改進,CNN 的效率也在不斷提高。不過,CNN 生成的 feature map 中仍然存在著顯著的空間冗餘度,具體來說,feature map 中的每個位置都只獨立存儲自己的特徵描述器,但相鄰的位置其實也會存儲一些相同信息;這些信息可以共同存儲並處理。
圖 1 - (a) 研究出發點:通過視覺的空間頻域模型可以把自然圖像分解為低頻部分和高頻部分
圖 1 - (b) 卷積層輸出的特徵圖也可以被分解並根據不同的空間頻率重新分組。(c) 論文中提出的多頻率特徵表徵會在低解析度張量中存儲平滑變化的低頻特徵圖,這樣就降低了空間冗餘度。(d) 論文中提出的 Octave Convoluation 直接在這種表徵上進行運算,它會更新每一組中的信息,並更進一步地允許不同組之間交換信息。
如上方圖 1 - (a) 所示,一張自然圖像可以被分解為低空間頻率部分和高空間頻率部分,前者描述了平滑變化的結構,後者描述了快速變化的圖像細節。與之類似,論文作者們提出卷積層的特徵圖輸出也可以被分解為具有不同空間頻率的部分,並提出了一個新的多頻率特徵表徵,它在不同的組中分別存儲高頻和低頻的特徵圖,如圖 1 - (b) 所示。這樣,低頻組的空間解析度就可以安全地降低,通過在相鄰的位置之間共享信息的方式降低空間冗餘度,如圖 1 - (c) 所示。為了與這種新的特徵表示方法相容,作者們從原始的卷積操作進行了泛化,提出了 Octave Convolution (OctConv),它的輸入是含有高低不同頻率張量的特徵圖,然後直接從低頻的特徵圖中提取信息,不需要把它解碼回高頻,如圖 1 - (d) 所示。
作為原始的卷積操作的替代方案,OctConv 消耗的存儲和計算資源明顯更小。同時,OctConv 處理低頻信息時使用的是對應的低頻卷積,這種做法顯著增大了原像素空間中的感知域大小,所以還能提升識別性能。
作者們把 OctConv 設計為了一種通用的方法,它可以作為現有卷積網路中卷積操作的直接替換。由於 OctConv 的重點在於在不同空間頻率上處理特徵圖並降低空間冗餘度,它就形成了對現有的各種改進 CNN 網路方案的另一個方向的補充;現有的方法包含更好的拓撲結構、降低卷積特徵圖中的通道冗餘度、降低密集模型參數冗餘度等等。
作者們還進一步討論了如何把 OctConv 集成在分組、深度優先、以及三維卷積用例中。此外,與嘗試利用多尺度信息的方法不同,OctConv 可以輕鬆地替換原本的卷積操作,不需要更改網路結構或者超參數調節。
論文中的實驗表明,只需要簡單地把原本的卷積替換為 OctConv ,就可以穩定提高各種熱門二維 CNN 主幹網路的表現,包括 ResNet、ResNeXt、DenseNet、MobileNet、Se-Net 在 ImageNet 上的二維圖像識別,以及 C2D、I3D 在 Kinetics 數據集上的三維視頻動作識別。換裝了 OctConv 後的 ResNet-152 可以達到目前最先進的手工設計網路的表現,同時消耗的存儲和計算卻要小很多。
論文原文:https://arxiv.org/abs/1904.05049,相關代碼近期會在 GitHub 上開源。雷鋒網 AI 科技評論編譯
※對話IJCAI2019特邀講者Leslie Kaelbling:與AI和機器人結緣背後的故事
※贏了世界冠軍不意外,和AI在DOTA中並肩作戰才讓人又糾結又興奮
TAG:AI研習社 |