MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

科技 05-14

MIT 計算科學與人工智慧實驗室日前發文，闡述了一種最新的深度視覺表徵的量化表示——網路解剖（Network Dissection），作者是David Bau、 Bolei Zhou、 Aditya Khosla、 Aude Oliva、Antonio Torralba，該實驗室科研人員公開了論文，並開源代碼，機器人圈將其編譯如下。

文章頭圖顯示的是三個最先進的網路架構（Resnet-152、GoogleNet、VGG-16）的圖片，當進行訓練以對場所的圖像進行分類（Places365）時，從三個最先進的網路架構顯示出選定的單元。許多單獨的單元響應特定的高級概念（對象分割），沒有直接表示在訓練集（場景分類）中。

MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

為什麼我們研究可表示單元

可表示單元很有趣，因為它們暗示了深度網路可能不是完全不透明的黑匣子。

然而，表示的發現到現在僅僅是一個提示：對於是否或如何表示一個單元是所謂的「解開表示（distentangled representation）」，目前還沒有完整的理解。

MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

什麼是「網路解剖」

我們的論文研究了三個問題：

1、什麼是解開的表徵，它的因素是如何量化和檢測的？

2、可表示的隱藏單元是否反映特徵空間的特殊對準，還是說表示是一個妄想？

3、在最先進的訓練中，哪些條件會導致更多或更少牽連的表現？

網路解剖是我們用於量化深層CNN中各個單元的可表示性的方法（即我們對問題1的回答）。它的工作原理是，通過測量單元響應與從被稱為Broden的廣泛、密集的分割數據集中繪製的一組概念之間進行對準，來進行工作。

MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

表示是妄想嗎？

網路解剖表明可表示的概念是表示空間的異常取向。它們的出現證明網路正在分解中間概念（回答問題2）。

MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

表示性隨著基礎的逐漸變化而逐漸下降。矛盾的是，人們普遍認為，表示性在表示空間中不是各向同性，網路似乎會軸對齊分解。

什麼會影響可表示性？

我們看問題3：什麼情況導致更高或更低的可表示性？

MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

ResNet > VGG >GoogLeNet > AlexNet，在主要訓練任務方面，我們發現 Places365 > Places205 > ImageNet.

MIT最新視覺論文「網路解剖：深度視覺表徵的量化表示」

在一系列自監督的任務中，表示性差異很大，沒有一種方法可以通過ImageNet或Places進行監督。

源代碼可以重現我們的可表示性基準，並使你測量並找到方法，來提高深度卷積神經網路的可表示性。

網路解剖結果

★AlexNet模型基準

AlexNet-ImageNet

AlexNet-Hybrid

AlexNet-Places205

AlexNet-Places365

AlexNet-random

★深度架構

GoogLeNet-ImageNet

GoogLeNet-Places205

GoogLeNet-Places365

VGG-Hybrid

VGG-ImageNet

VGG-Places205

VGG-Places365

ResNet152-ImageNet

ResNet152-Places365

★寬架構

AlexNet-Places365-GAP-Wide

AlexNet-Places365-GAPplus

★多種訓練條件

AlexNet-Places205-BN

AlexNet-Places205-nodropout

AlexNet-Places205-repeat1

AlexNet-Places205-repeat2

AlexNet-Places205-repeat3

AlexNet-Places205-repeat4

★表示基礎的變化

AlexNet-Places205-rotated-020

AlexNet-Places205-rotated-040

AlexNet-Places205-rotated-060

AlexNet-Places205-rotated-080

AlexNet-Places205-rotated-100

★自監督模式

audio

colorization

context

crosschannel

egomotion

frameorder

moving

objectcentric

puzzle

tracking

★迭代訓練

AlexNet-Places205-iter-1

AlexNet-Places205-iter-2

AlexNet-Places205-iter-4

AlexNet-Places205-iter-9

AlexNet-Places205-iter-20

AlexNet-Places205-iter-44

AlexNet-Places205-iter-99

AlexNet-Places205-iter-223

AlexNet-Places205-iter-492

AlexNet-Places205-iter-1108

AlexNet-Places205-iter-2446

AlexNet-Places205-iter-5509

AlexNet-Places205-iter-12164

AlexNet-Places205-iter-27396

AlexNet-Places205-iter-60491

AlexNet-Places205-iter-136238

AlexNet-Places205-iter-300818

AlexNet-Places205-iter-600818

AlexNet-Places205-iter-1200818

AlexNet-Places205-iter-2400818

機器人圈附上了源代碼及論文地址，歡迎圈友學習研究：

GitHub源代碼：

https://github.com/CSAILVision/NetDissect

論文地址：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※Snapchat是如何實現個性化「Discover」標籤的？
※亞馬遜研究員手把手教你用AWS Batch玩轉深度學習
※IBM推出PowerAI最新版本，大幅降低深度學習訓練時間
※「激光雷達」PK「攝像頭」，誰是無人駕駛的王道？這裡為你解惑

TAG:機器人圈 |

您可能感興趣

※清華魯繼文：深度強化學習與視覺內容理解
※Cell：可視化觀察視覺信息從視網膜到大腦中的單向傳播
※OPPO何朝文：AI視頻理解將成為計算機視覺的聚焦方向
※爆款論文作者現場解讀：視覺語言導航、運動視頻深度預測、6D姿態估計
※《LOL》四名英雄新視覺特效預覽視覺更清晰、更細緻
※深度｜卷積神經網路十五問：CNN與生物視覺系統的研究探索
※潘石屹表示：視覺中國曾投訴望京SOHO侵權
※建構當代中國視覺文化理論
※何愷明CVPR演講：深入理解ResNet和視覺識別的表示學習
※微軟強化Bing的文本轉語音和視覺搜索功能
※MIT提出「透明設計」網路，揭開視覺黑盒
※一文詳解計算機視覺的廣泛應用：網路壓縮、視覺問答、可視化、風格遷移等
※新華網再評視覺中國：莫把版權變霸權
※搜狗ICASSP論文：基於模態注意力的端到端音視覺語音識別
※ET城市大腦三項視覺技術論文入選CVPR：不改變攝像頭，提高視頻識別技術
※MIT提出TbD網路，讓視覺問答模型更易於解釋同時保持高性能
※掌網科技：數字·可視未來，改變世界由視覺認知開始
※享受視覺大餐：《宇宙的色彩——深空攝影與天文圖像全解析》
※盛世大唐的視覺盛宴——簡析電影《妖貓傳》的視覺語言
※微軟：WinML API可提升遊戲的視覺質量和性能