MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」
MIT 計算科學與人工智慧實驗室日前發文,闡述了一種最新的深度視覺表徵的量化表示——網路解剖(Network Dissection),作者是David Bau、 Bolei Zhou、 Aditya Khosla、 Aude Oliva、Antonio Torralba,該實驗室科研人員公開了論文,並開源代碼,機器人圈將其編譯如下。
文章頭圖顯示的是三個最先進的網路架構(Resnet-152、GoogleNet、VGG-16)的圖片,當進行訓練以對場所的圖像進行分類(Places365)時,從三個最先進的網路架構顯示出選定的單元。許多單獨的單元響應特定的高級概念(對象分割),沒有直接表示在訓練集(場景分類)中。
為什麼我們研究可表示單元
可表示單元很有趣,因為它們暗示了深度網路可能不是完全不透明的黑匣子。
然而,表示的發現到現在僅僅是一個提示:對於是否或如何表示一個單元是所謂的「解開表示(distentangled representation)」,目前還沒有完整的理解。
什麼是「網路解剖」
我們的論文研究了三個問題:
1、什麼是解開的表徵,它的因素是如何量化和檢測的?
2、可表示的隱藏單元是否反映特徵空間的特殊對準,還是說表示是一個妄想?
3、在最先進的訓練中,哪些條件會導致更多或更少牽連的表現?
網路解剖是我們用於量化深層CNN中各個單元的可表示性的方法(即我們對問題1的回答)。它的工作原理是,通過測量單元響應與從被稱為Broden的廣泛、密集的分割數據集中繪製的一組概念之間進行對準,來進行工作。
表示是妄想嗎?
網路解剖表明可表示的概念是表示空間的異常取向。它們的出現證明網路正在分解中間概念(回答問題2)。
表示性隨著基礎的逐漸變化而逐漸下降。矛盾的是,人們普遍認為,表示性在表示空間中不是各向同性,網路似乎會軸對齊分解。
什麼會影響可表示性?
我們看問題3:什麼情況導致更高或更低的可表示性?
ResNet > VGG >GoogLeNet > AlexNet,在主要訓練任務方面,我們發現 Places365 > Places205 > ImageNet.
在一系列自監督的任務中,表示性差異很大,沒有一種方法可以通過ImageNet或Places進行監督。
源代碼可以重現我們的可表示性基準,並使你測量並找到方法,來提高深度卷積神經網路的可表示性。
網路解剖結果
★AlexNet模型基準
AlexNet-ImageNet
AlexNet-Hybrid
AlexNet-Places205
AlexNet-Places365
AlexNet-random
★深度架構
GoogLeNet-ImageNet
GoogLeNet-Places205
GoogLeNet-Places365
VGG-Hybrid
VGG-ImageNet
VGG-Places205
VGG-Places365
ResNet152-ImageNet
ResNet152-Places365
★寬架構
AlexNet-Places365-GAP-Wide
AlexNet-Places365-GAPplus
★多種訓練條件
AlexNet-Places205-BN
AlexNet-Places205-nodropout
AlexNet-Places205-repeat1
AlexNet-Places205-repeat2
AlexNet-Places205-repeat3
AlexNet-Places205-repeat4
★表示基礎的變化
AlexNet-Places205-rotated-020
AlexNet-Places205-rotated-040
AlexNet-Places205-rotated-060
AlexNet-Places205-rotated-080
AlexNet-Places205-rotated-100
★自監督模式
audio
colorization
context
crosschannel
egomotion
frameorder
moving
objectcentric
puzzle
tracking
★迭代訓練
AlexNet-Places205-iter-1
AlexNet-Places205-iter-2
AlexNet-Places205-iter-4
AlexNet-Places205-iter-9
AlexNet-Places205-iter-20
AlexNet-Places205-iter-44
AlexNet-Places205-iter-99
AlexNet-Places205-iter-223
AlexNet-Places205-iter-492
AlexNet-Places205-iter-1108
AlexNet-Places205-iter-2446
AlexNet-Places205-iter-5509
AlexNet-Places205-iter-12164
AlexNet-Places205-iter-27396
AlexNet-Places205-iter-60491
AlexNet-Places205-iter-136238
AlexNet-Places205-iter-300818
AlexNet-Places205-iter-600818
AlexNet-Places205-iter-1200818
AlexNet-Places205-iter-2400818
機器人圈附上了源代碼及論文地址,歡迎圈友學習研究:
GitHub源代碼:
https://github.com/CSAILVision/NetDissect
論文地址:
※Snapchat是如何實現個性化「Discover」標籤的?
※亞馬遜研究員手把手教你用AWS Batch玩轉深度學習
※IBM推出PowerAI最新版本,大幅降低深度學習訓練時間
※「激光雷達」PK「攝像頭」,誰是無人駕駛的王道?這裡為你解惑
TAG:機器人圈 |
※清華魯繼文:深度強化學習與視覺內容理解
※Cell:可視化觀察視覺信息從視網膜到大腦中的單向傳播
※OPPO何朝文:AI視頻理解將成為計算機視覺的聚焦方向
※爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計
※《LOL》四名英雄新視覺特效預覽 視覺更清晰、更細緻
※深度|卷積神經網路十五問:CNN與生物視覺系統的研究探索
※潘石屹表示:視覺中國曾投訴望京SOHO侵權
※建構當代中國視覺文化理論
※何愷明CVPR演講:深入理解ResNet和視覺識別的表示學習
※微軟強化Bing的文本轉語音和視覺搜索功能
※MIT提出「透明設計」網路,揭開視覺黑盒
※一文詳解計算機視覺的廣泛應用:網路壓縮、視覺問答、可視化、風格遷移等
※新華網再評視覺中國:莫把版權變霸權
※搜狗ICASSP論文:基於模態注意力的端到端音視覺語音識別
※ET城市大腦三項視覺技術論文入選CVPR:不改變攝像頭,提高視頻識別技術
※MIT提出TbD網路,讓視覺問答模型更易於解釋同時保持高性能
※掌網科技:數字·可視未來,改變世界由視覺認知開始
※享受視覺大餐:《宇宙的色彩——深空攝影與天文圖像全解析》
※盛世大唐的視覺盛宴——簡析電影《妖貓傳》的視覺語言
※微軟:WinML API可提升遊戲的視覺質量和性能