當前位置:
首頁 > 新聞 > 「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

新智元編譯

「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

最新的用於計算機視覺的前饋性深度神經網路使用來自大量靜態圖像的數據和標籤進行監督訓練。這些神經網路缺少視頻流中存在的時間變數,並且不用於觀看視頻中場景的平滑轉換。因此,當應用於視頻流時,標準前饋網路的輸出穩定性較差。這個問題是其前饋架構和訓練框架的直接結果。該項目通過提出一種新穎的網路模型和兩種訓練方案,來解決標準前饋深度神經網路的架構和訓練缺陷。受到人類視覺系統的啟發,CortexNet 通過向自下而上的前饋連接添加自上而下的反饋和橫向連接,提供了魯棒性強的視覺時間表徵。所有這些連接都存在於我們的視覺皮層中。

在上圖中,我們看到(a)完整的 CortexNet 架構,它由幾個(b)判別和(c)生成塊組成。對數是嵌入的線性變換,其通過(d)對上一個判別塊的輸出進行空間平均而獲得。

CortexNet 可以通過兩種方式進行訓練,MatchNet 和 TempoNet。細節如下:

TempoNet

TempoNet 形式的 CortexNet,可以提供更穩定的輸出表徵,如下面的動畫所示。

「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

在上面的兩個圖表中,我們可以看到完整的 CortexNet 架構(中)在時間穩定性方面與經典卷積網路(上)的比較。我們注意到作為 TempoNet 訓練的 CortexNet,能夠預測正確的目標類,即使它的判別部分沒有預測。TempoNet 自動學習如何隨時間跟蹤和處理對象(track and tend)(下),從而提供更穩定的時間預測。

MatchNet

MatchNet 在 CortexNet 中實施了預測,並且被訓練為再現視頻流中的下一幀。下面是輸入面中 MatchNet 預測能力的一個例子。

「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

μ-matching loss 顯示了模型輸出h[ t ] 與完美匹配視頻 v 的下一個輸入 「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀距離有多遠。我們可以關注一下 ρ-replica loss,看看模型是否簡單複製了其輸入幀「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀。最後,你可以檢查這些損失並與時間信號相比較,即下一幀和當前幀之間的差值。

這裡,MatchNet 被訓練用於再現視頻中未來的輸入幀。一個更有趣的方法是能夠預測更高層的表徵。在這個激動人心的研究領域,我們需要你的幫助和想法。請告訴我們你的想法,為我們的 GitHub 項目做出貢獻。

MatchNet 和 TempoNet 的訓練方案

「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

為了訓練我們的模型,我們使用了幾個損失函數的組合。當饋送視頻流時,我們使用了 μ-matching 和 ρ-replica 均方誤差損失,τ-temporal 和 π-periodic 交叉熵損失來調校模型參數。

在 MatchNet 模式下,網路將嘗試在完全無監督的學習框架中生成視頻剪輯中的下一幀。在 TempoNet 模式下,我們要求網路在少量弱監督下通過跟蹤運動對象來學習查看。

摘要

「新式DNN」CortexNet模擬視覺系統,預測視頻下一幀

在過去的五年中,我們觀察到了針對視覺相關任務進行監督訓練的前饋神經網路令人難以置信的良好表現。這些模型在靜態圖像中的物體識別、定位和檢測方面取得了超過人類的表現。然而,需要確定一個使用這些視覺輸入並獲得視頻數據魯棒且穩定表徵的最佳策略。受人類視覺系統的啟發,我們提出了一個深度神經網路 CortexNet,它不僅具有自下而上的前饋連接,而且還模擬了我們視覺皮層中存在的豐富的自上而下的反饋和橫向連接。我們介紹了兩種訓練方案 - 無監督的 MatchNet 和弱監督的 TempoNet 模式——其中神經網路通過學習自我運算線索以及如何自動跟蹤多個對象,來學習如何正確預測視頻剪輯中的後續幀。

原文地址:https://engineering.purdue.edu/elab/CortexNet/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「Science」DeepMind關係推理ANN,在圖像理解中擊敗人類
「不在谷歌?沒關係」不在大公司,如何做好深度學習
「AI TOP 10」騰訊Angel正式開源;BAT伺服器總和不及亞馬遜一半;百度回應騰訊副總裁黃海跳槽百度
谷歌開源移動設備視覺模型MobileNets

TAG:新智元 |

您可能感興趣

新一代iPad Pro預測總匯:全面屏+Face ID
Intel CPU 再現新漏洞:預測執行攻擊 L1 Terminal Fault
iPhone X plus新機預測
Half Dome已超OC3預測,Oculus再預測VR未來發展與挑戰
Pytorch實現CNN時間序列預測
Themis Chain聯手Lomostar 重新定義世界盃預測
OpenAI提出Sparse Transformer,文本、圖像、聲音都能預測,序列長度提高30倍
CSGO:倫敦Faceit Major今晚開打 多數網友預測Liquid奪冠
Christopher Nolan 預測《Black Panther》將獲得下屆奧斯卡「最佳電影」提名!?
你的New Year Resolution,從這裡開始——THE YEAR AHEAD「展望2019」峰會上海成功開啟新年預測
爆款預測:Supreme和Dolce&Gabanna可能要合作了
AI賦能DevOps:基於TensorFlow的端到端軟體缺陷預測
iPhone XR本周五開啟預購!預測iPhone XR將大賣!
2018WSOP大預測:Daniel Negreanu的獎金收入會高過Doug Polk!
Perceptive Automata加入Renovo的Aware生態系統 為自動駕駛車輛預測人類行為
Hedi Slimane 執掌 Céline 後的5大預測
IBM與Broad Institute研究中心合作啟動預測心血管病的項目
DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
Sensor Tower預測:《PUBG Mobile》上月收入超《堡壘之夜》手游
Superdata報告預測AR和MR將崛起