中科院王亮：基於視覺大數據，我們下一步該做什麼？

最新 04-12

4月8日，在北京航空航天大學新主樓會議中心，由北京圖象圖形學學會主辦的「第十三屆圖像圖形技術與應用學術會議」中，中國科學院自動化所博導、研究員、模式識別國家重點實驗室副主任王亮與我們分享的論壇報告《Analysis and Understanding of Big Visual Data》，對視覺大數據領域有更為全面和透徹的分析，也讓我們對視覺大數據分析有清晰地認識和了解。

AI技術現在已經進入了一股熱潮流，與AI相關的應用領域也猶如雨後春筍般層出不窮。例如在實地應用場景方面，安防領域是落地場景最早的應用領域，除此之外，還有機器人、無人機、醫療、智能製造等方面，對於AI技術的應用落地，後期也會出現過江之鯽的汛勢。在人工智慧如此興起的時代，計算機視覺也是個可關注可實現的重要層面，它所涉及到的視覺大數據分析領域非常具有研究意義。

從王亮的會議報告中了解到，我們在感知外部世界的時候，至少有70%的外部信息都是來自於視覺，所以計算機視覺是一個非常重要的研究方向。從第一台光學成像設備產生的那一天開始，人們就在不斷的改進成像系統，包括現在的紅外成像、RGB成像、深度成像和雷達成像等等。希望能夠更加真實的記錄這種客觀世界，同時也希望藉由不同的成像系統、從不同的角度、不同的時刻能夠記錄我們看到或者看不到的現象。

所以說，隨著成像設備的不斷更新，視覺大數據時代已經悄然到來。在我們身邊最明顯的例子，就是無處不在的監控攝像機，到處都是CCTV camera系統。與我們每個人息息相關的，就是這樣一個無處不在的視覺監控。

另外一個方面，視覺數據打造了一個爆炸性的時代。比如說我們每一天大概有300萬左右的新圖片產生，而每一分鐘大概有50小時新的視頻產生，再比如說，每一天，我們的監控視頻有350TB這樣產生的一個過程，每一天進進出出的任何一個交通安全的場合，都有成千上萬的這樣一個生活數據產生的過程。所以說，視覺大數據已經到了這樣一個爆發的時代。

當然，視覺大數據在很多領域有非常重要的應用。有兩個例子，一個是在監控領域數據的一個增長，以及視頻監控在當前一個工業輸出的市場佔有量的情況，再比如說，我們平時看愛奇藝這一類的在線網路視頻。對於這樣一個過程而言，它消費的規模也是隨著逐年在增長的。雖然我們進入到了視覺大數據這樣一個時代，而且視覺大數據在很多領域都有它潛在的應用前景或市場。但是，真正來講要做到從大規模的視覺大數據中有效的去採集去分析或者去理解為我們所用的信息，還是比較有挑戰性的研究工作。

視覺大數據可以簡單歸納成四個「大」：

一、在規模上的一個「大」數據集；

二、在視頻數據的類型方面的變化「大」，比如說新聞視頻、廣播視頻、體育視頻、娛樂視頻等等；

三、在屬性方面，可能具有多元和益智的特性，比如說紅外線成像、RGB成像等；

四、在圖像或者是視頻質量上的千差萬別、「大」不同，比如說光照的變化、姿勢的變化等等。

正是因為這四「大」，所以給視覺大數據的分析也帶來了一些挑戰性的問題。但是大數據分析的應用前景非常廣泛，比如視頻監控、安全入口的安全檢查、信息濾波、無人機無人車、機器視覺導航等等。可以說，視覺大數據的分析和理解是非常重要的，在近年來也開展了許多與其相關的學術研討會議，比如說《Big Vision 2012》、《BIG DATA COMPUTER VISION 2013》等等。

近年來，人工智慧再次興起，而它的兩個主要的驅動力分別是高性能計算和大數據。大數據這個名詞在前些年的使用是非常廣泛的，而且很多地方都成立了大數據相關的科研機構或者學科。可以說，高性能計算和大數據時代也導致了深度學習的復甦。深度學習以前本身只是一個神經網路，而神經網路本身的兩個缺陷：一個是皮層複雜度比較高，另一個就是小規模的數據集容易導致模型的吻合問題。大數據時代的到來，高性能計算的飛速發展，使得深度學習恰恰能夠滿足了那兩個弊端的問題。

所以深度學習是在高性能計算和大數據兩個關鍵技術到來的情況下，得以復甦，而且驅動了很多領域的快速發展，包括計算機視覺、圖形學、語音語言處理等等。視覺大數據在很多方面也取得了巨大的成功，包括語音、語言處理等，熱點在表達學習，利用強大的神經網路的深層次的分層級的表達學習的能力，來代替傳統表達的一個過程。

2012年，ImageNet網路的使用使得準確度從74%淺層的網路模型，到85%深度學習模型這樣一個極大的提高。所以在2012年以後，卷積信息網路在我們計算機視覺的圖像與視頻更一級的理解過程中發揮了重要的作用，比如說在人臉識別方面，在目標檢測方面等等都有很廣泛的應用。但是CNN有一個巨大的特點就是，只能夠有效的處理比較有結構化的數據來源，比如說圖像信號等，但是在時序建模方面，相比於其他的時間模型來講，還是有缺陷的，所以在2015年前後的時候，循環神經網路再次引起大家的注意，所以RNN在不同的應用場景得到了廣泛應用，比如說行為識別、看圖說話的圖像、視頻描述等等。

視覺大數據面對的挑戰：

一、難於讀取或是檢索有效數據

二、難於建模，多態和多元的雜訊數據

三、難於計算，數據量的規模比較大

四、難於使用，在一個視覺任務上學到的模型很難泛化到不同的視覺人物。