當前位置:
首頁 > 科技 > MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」

MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」



MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」



MIT 計算科學與人工智慧實驗室日前發文,闡述了一種最新的深度視覺表徵的量化表示——網路解剖(Network Dissection),作者是David Bau、 Bolei Zhou、 Aditya Khosla、 Aude Oliva、Antonio Torralba,該實驗室科研人員公開了論文,並開源代碼,機器人圈將其編譯如下。


文章頭圖顯示的是三個最先進的網路架構(Resnet-152、GoogleNet、VGG-16)的圖片,當進行訓練以對場所的圖像進行分類(Places365)時,從三個最先進的網路架構顯示出選定的單元。許多單獨的單元響應特定的高級概念(對象分割),沒有直接表示在訓練集(場景分類)中。



MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」


為什麼我們研究可表示單元


可表示單元很有趣,因為它們暗示了深度網路可能不是完全不透明的黑匣子。


然而,表示的發現到現在僅僅是一個提示:對於是否或如何表示一個單元是所謂的「解開表示(distentangled representation)」,目前還沒有完整的理解。



MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」



什麼是「網路解剖」


我們的論文研究了三個問題:


1、什麼是解開的表徵,它的因素是如何量化和檢測的?


2、可表示的隱藏單元是否反映特徵空間的特殊對準,還是說表示是一個妄想?

3、在最先進的訓練中,哪些條件會導致更多或更少牽連的表現?


網路解剖是我們用於量化深層CNN中各個單元的可表示性的方法(即我們對問題1的回答)。它的工作原理是,通過測量單元響應與從被稱為Broden的廣泛、密集的分割數據集中繪製的一組概念之間進行對準,來進行工作。



MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」



表示是妄想嗎?


網路解剖表明可表示的概念是表示空間的異常取向。它們的出現證明網路正在分解中間概念(回答問題2)。



MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」



表示性隨著基礎的逐漸變化而逐漸下降。矛盾的是,人們普遍認為,表示性在表示空間中不是各向同性,網路似乎會軸對齊分解。


什麼會影響可表示性?

我們看問題3:什麼情況導致更高或更低的可表示性?



MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」



ResNet > VGG >GoogLeNet > AlexNet,在主要訓練任務方面,我們發現 Places365 > Places205 > ImageNet.



MIT最新視覺論文「網路解剖:深度視覺表徵的量化表示」



在一系列自監督的任務中,表示性差異很大,沒有一種方法可以通過ImageNet或Places進行監督。


源代碼可以重現我們的可表示性基準,並使你測量並找到方法,來提高深度卷積神經網路的可表示性。


網路解剖結果


★AlexNet模型基準

AlexNet-ImageNet


AlexNet-Hybrid


AlexNet-Places205


AlexNet-Places365


AlexNet-random


★深度架構


GoogLeNet-ImageNet


GoogLeNet-Places205


GoogLeNet-Places365


VGG-Hybrid

VGG-ImageNet


VGG-Places205


VGG-Places365


ResNet152-ImageNet


ResNet152-Places365


★寬架構


AlexNet-Places365-GAP-Wide


AlexNet-Places365-GAPplus


★多種訓練條件


AlexNet-Places205-BN

AlexNet-Places205-nodropout


AlexNet-Places205-repeat1


AlexNet-Places205-repeat2


AlexNet-Places205-repeat3


AlexNet-Places205-repeat4


★表示基礎的變化


AlexNet-Places205-rotated-020


AlexNet-Places205-rotated-040


AlexNet-Places205-rotated-060


AlexNet-Places205-rotated-080

AlexNet-Places205-rotated-100


★自監督模式


audio


colorization


context


crosschannel


egomotion


frameorder


moving


objectcentric

puzzle


tracking


★迭代訓練


AlexNet-Places205-iter-1


AlexNet-Places205-iter-2


AlexNet-Places205-iter-4


AlexNet-Places205-iter-9


AlexNet-Places205-iter-20


AlexNet-Places205-iter-44


AlexNet-Places205-iter-99

AlexNet-Places205-iter-223


AlexNet-Places205-iter-492


AlexNet-Places205-iter-1108


AlexNet-Places205-iter-2446


AlexNet-Places205-iter-5509


AlexNet-Places205-iter-12164


AlexNet-Places205-iter-27396


AlexNet-Places205-iter-60491


AlexNet-Places205-iter-136238


AlexNet-Places205-iter-300818


AlexNet-Places205-iter-600818


AlexNet-Places205-iter-1200818


AlexNet-Places205-iter-2400818


機器人圈附上了源代碼及論文地址,歡迎圈友學習研究:


GitHub源代碼:


https://github.com/CSAILVision/NetDissect


論文地址:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器人圈 的精彩文章:

Snapchat是如何實現個性化「Discover」標籤的?
亞馬遜研究員手把手教你用AWS Batch玩轉深度學習
IBM推出PowerAI最新版本,大幅降低深度學習訓練時間
「激光雷達」PK「攝像頭」,誰是無人駕駛的王道?這裡為你解惑

TAG:機器人圈 |

您可能感興趣

清華魯繼文:深度強化學習與視覺內容理解
Cell:可視化觀察視覺信息從視網膜到大腦中的單向傳播
OPPO何朝文:AI視頻理解將成為計算機視覺的聚焦方向
爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計
《LOL》四名英雄新視覺特效預覽 視覺更清晰、更細緻
深度|卷積神經網路十五問:CNN與生物視覺系統的研究探索
潘石屹表示:視覺中國曾投訴望京SOHO侵權
建構當代中國視覺文化理論
何愷明CVPR演講:深入理解ResNet和視覺識別的表示學習
微軟強化Bing的文本轉語音和視覺搜索功能
MIT提出「透明設計」網路,揭開視覺黑盒
一文詳解計算機視覺的廣泛應用:網路壓縮、視覺問答、可視化、風格遷移等
新華網再評視覺中國:莫把版權變霸權
搜狗ICASSP論文:基於模態注意力的端到端音視覺語音識別
ET城市大腦三項視覺技術論文入選CVPR:不改變攝像頭,提高視頻識別技術
MIT提出TbD網路,讓視覺問答模型更易於解釋同時保持高性能
掌網科技:數字·可視未來,改變世界由視覺認知開始
享受視覺大餐:《宇宙的色彩——深空攝影與天文圖像全解析》
盛世大唐的視覺盛宴——簡析電影《妖貓傳》的視覺語言
微軟:WinML API可提升遊戲的視覺質量和性能