當前位置:
首頁 > 新聞 > 深度學習在CV領域已觸及天花板?

深度學習在CV領域已觸及天花板?

機器之心原創

作者:王子嘉

編輯:Haojin Yang


隨著深度學習研究的不斷深入,越來越多的領域應用到了深度學習。但是,深度學習取得成功的同時,也不可避免地遭受到越來越多的質疑,特別是在CV領域。本文沒有對他人的觀點直接做出批判,而是從深度學習的本質出發,探討它的優勢以及相關局限性,最後對深度學習可能的應對方法和未來展開討論。本文作者為王子嘉,帝國理工學院人工智慧碩士在讀。

1. 深度學習從未停止前進

圖像數據的特徵設計,即特徵描述,在過去一直是計算機視覺(Computer Vision, CV)頭痛的問題,而深度學習在計算機視覺領域的興起使得這一領域不再需要很多的人為干預,大大降低了對專業知識的需求(見下圖)。對應的,圍繞著深度學習開始出現大量的炒作,這樣的炒作使得很多人開始對深度學習產生懷疑,但是同樣不得忽視的是深度學習在計算機視覺任務上已經獲得的大量成功。

深度學習在CV領域已觸及天花板?

(圖源:https://trantorinc.com/blog/top-computer-vision-trends-2019/)

CNN 從 AlexNet 之後,新模型以肉眼可見的速度在增長,比較經典的如 LeNet(1998)、AlexNet(2012)、ZF-net(2013)、GoogleNet(2014)、VGG(2014)、ResNet(2015);2014 年提出的 GAN 更是一個里程碑式的突破。但近年來,CV 領域雖然新論文不斷,但更多的是在填前人挖好的坑(改進模型),比如 2018 的 BigGAN 以及今年的的 Mask Scoring RCNN 等,都沒有引起很大的轟動。相比之下,NLP 繼 BERT 之後又出現了 XLNet,就顯得熱鬧的多。對應的,對於 Deep Learning 在 CV 領域是否觸頂的質疑聲也開始變得更加強烈。

對此問題,本文不會做直接評判,而是首先簡單介紹什麼是 Deep Learning,再介紹 Deep Learning 的優勢,然後介紹當下較為主流的對於 Deep Learning 的批判,最後兩個部分會對 Deep Learning 可能的應對方法和未來展開討論。

1.1 什麼是深度學習

想要了解什麼是深度學習,最簡單的方法莫過於打開一個深度學習課程或者入門書籍,看一下它的目錄,就大概了解深度學習包括什麼了。本文引用 Lecun 在 2015 年曾經給深度學習下過的定義——深度學習方法由多個層組成,用於學習具有多個等級的數據特徵。所以有些學者也把深度學習叫做分級學習(Hierarchical Learning)。

如今的深度學習不只是本文在開頭提及的 Deep CNN,它還包括 Deep AE(AutoEncoder,如 Variational Autoencoders, Stacked Denoising Autoencoders, Transforming Autoencoders 等)、R-CNN(Region-based Convolutional Neural Networks,如 Fast R-CNN,Faster R-CNN,Mask R-CNN,Multi-Expert R-CNN 等)、Deep Residual Networks(如 Resnet,ResNeXt)、Capsule Networks、GAN(Generative Adversarial Network) 等,以及 RNN、LSTM 等處理用於處理序列類數據的 Recurrent 類模型。

1.2 深度學習的優勢

深度學習之所以能在 CV 領域火起來,除了本文開頭提及的減少了特徵提取的麻煩外,還有其他的優勢。比如它是端到端模型;訓練中的特徵提取器,甚至於訓練出的模型都可以用於其他任務;它可以獲得相較於傳統方法更好的效果;同時它還是由極其簡單的組件組成的。本文將就這幾個優勢分別進行闡述。

自動特徵提取

計算機視覺領域的主要研究重點是從數字圖像中檢測和提取有用的特徵。這些特徵提供了圖像的大量信息,並且可以直接影響到最後任務的效果。因此過去出現了很多很優秀的手動的特徵提取器,比如尺度不變特徵變換(SIFT),Gabor 濾波器和定向梯度直方圖(HOG)等,它們也一直是特徵提取的計算機視覺焦點,並取得了很好的效果。

而深度學習的優勢在於它做到了直接從大型圖像數據集中自動學習複雜且有用的特徵,可以從神經網路模型的提供的圖像中學習並自動提取各種層次的特徵。舉個很簡單的例子,當把深度神經網路的每一層中提取到的特徵畫出來,最底層可能提取的是輪廓類的特徵,而最高層可能提取的就是最基本的線條類的特徵。而現在各種比賽(如 ILSVRC)和標準集中從複雜的人工特徵檢測器(如 SIFT)向深度卷積神經網路過渡就很好的證明深度學習網路的確很好的解決了這一問題。

端到端(end-to-end)

端到端模型解決了 CV 中需要使用模塊的任務的問題。這類任務中每個模塊都是針對特定任務而設計的,例如特徵提取,圖像對齊或分類任務。這些模塊都有自己的輸入輸出,模塊的一端是原始圖像,另一端就是這個模塊的輸出,當然深度學習模型也可以作為這些模塊中的一部分。然後這些模塊組成一個整體,從而完成最後的任務。

但是深度學習模型自己也可以完成整個任務(端到端),它可以只使用一個模型,這個模型同時包含多個模塊(比如特徵提取和分類),這樣使得其可以直接在原始圖像上訓練並進行圖像分類。這種端到端的方法也有取代傳統方法的趨勢。比如在物體檢測和人臉識別中,這種端到端的模型就會同時訓練多個模塊的輸出(如類和邊界框)和新損失函數(如 contrastive 或 triplet loss functions)從而得到最終的模型。

模型遷移

深度神經網路一般會在比傳統數據集大得多的數據集(數百萬乃至數十億張圖片)上訓練。這允許模型學習到所有照片的普遍特徵和特徵的層次結構。這一點被很多人注意到,並提出了遷移學習的概念,這個概念也在一定程度上緩解了深度學習對數據的依賴。

更好的效果

深度學習帶給 CV 最大的好處就是它所具有的更好的性能。深度神經網路性能的顯著提高正是深度學習領域迅速發展的催化劑。比如前文提到的 Alex Net 就以 15.8% 的 top-5 錯誤率獲得了 2012 年 ILSVRC 的冠軍,而當年的第二名卻有 26.2% 的錯誤率。而這些模型也很快應用在 CV 的各個領域,並解決了很多曾經很難解決的問題

簡單的組件

我們可以發現 CV 領域裡大部分優秀的深度學習網路都是基於相同的元素——卷積層和 Pooling 層,並將這些元素進行不同的組合。卷積網路是一種專門處理網格結構數據的網路,並可以將這些模型進行擴展。目前看來,這種方法已經在二維圖像上取得了不小的成功。

2. 深度學習的局限性

儘管深度學習有很多優勢,也取得了不小的成績,但是也有很多局限性導致其在前幾年的飛速發展後似乎進入了一個瓶頸期。Gary Marcus 曾經說過,深度學習是貪婪,脆弱,不透明和淺薄的。這些系統很貪婪,因為它們需要大量的訓練數據;它們是脆弱的,因為當神經網路應用在一些不熟悉的場景時,面對與訓練中使用的示例不同的場景,它並不能很好的完成任務;它們是不透明的,因為與傳統的可調試代碼不同,神經網路的參數只能根據它們在數學中的權重來解釋,因此,它們是黑盒子,其輸出很難解釋;它們是淺薄的,因為它們的訓練缺乏先天知識,對世界沒有常識。

貪婪

前文中提到過深度學習的一大優勢就是當你給你的網路更多的數據時,相應的你也會獲得更好的結果。但是如果把這句話反過來說,這個優勢就變成了問題——想要獲得更好的結果,你就需要大量的標註數據。

脆弱

當下的深度學習網路在做分類的時候,很難輸出一個百分百肯定的結果,這也就意味著網路並沒有完全理解這些圖片,只能通過各種特徵的組合來完成大概的預測。而不管我們用來訓練的圖片庫有多大,都是有限的,從而有些圖片是沒有在我們的訓練庫內的(對抗樣本),這些圖片很可能跟我們已有的圖片具有極其類似的特徵,從而出現下圖中將對抗樣本完全分錯類的情況。

深度學習在CV領域已觸及天花板?

(圖源:[3])

可以想像,一輛自動駕駛汽車可以行駛數百萬英里,但它最終會遇到一些沒有經驗的新事物;一個機器人可以學會拿起一個瓶子,但如果讓他拿起一個杯子,它就得從頭學起。

同時,當在圖片中摻雜一些人類不可見的噪音,或是對背景進行一些改變,都可能會讓模型的預測出錯。下圖就是一個改變背景的例子,從下圖可以看出,當背景物品從自行車變為吉他之後,這隻猴子被預測成了一個人,這大概是因為模型在訓練的時候認為人比猴子要更可能有一把吉他。

深度學習在CV領域已觸及天花板?

(圖源:https://thegradient.pub/the-limitations-of-visual-deep-learning-and-how-we-might-fix-them/)

最後,深度學習大多是基於卷積的,卷積可以很好的處理二維圖像,但是對三維圖像的處理效果卻不甚理想。

不透明

深度學習說到底還是一個數學模型,雖然本源是來自於人類的大腦的工作機制,但是還是無法真的理解這個模型的各個參數的含義,從而導致整個深度學習網路成為了一個黑盒模型,除了一些超參以外,很難進行內部的調參。

淺薄

當下的深度學習網路大部分傾向於表徵學習,而非真正的智能,很依賴於其訓練數據,很難從有限的數據中學習到全局的東西;同時在一些不斷變化的情景下,這些網路也很難有很好的表現。換句話說,這些網路缺少「創造力」和「想像力」。

3. 深度學習的應對

仔細觀察上述缺點的話,不難發現深度學習目前能解決的就是數據的問題,而至於其「智能」的問題,可能需要一個新的框架來實現了。本文剩下的部分主要陳述深度學習為了解決上述缺陷而興起的部分領域,以及這些領域較新的論文與進展。

數據合成

為了解決數據問題,最簡單也最直接的方法就是合成更多的數據。在過去的一年中,數據合成一直是計算機視覺研究的一個巨大趨勢。它們由人工生成,可以用來訓練深度學習模型。例如,SUNCG 數據集可以用於模擬室內環境,Cityscapes 數據集用於駕駛和導航,合成人的 SURREAL 數據集用於學習姿勢估計和跟蹤。

除了這些數據集,還有一些論文也在就如何更好的使用合成數據以及如何更好的合成數據做出研究:

這篇聚焦於數據質量的論文 [5] 在 Auto City 數據集上進行實驗,最終證明分割任務的效果確實與生成標記所花費的時間量密切相關,但與每個標籤的質量無關;[9] 使用了一個利用合成預想來訓練的多任務深度網路,使得特徵學習可以從不同的信息源中學習,極大減少了標註數據所需的時間;[13] 提出了一種基於合成數據訓練的實物檢測系統。

遷移學習

遷移學習現在在 CV 領域很受歡迎,簡單的說,遷移學習就是在一個很大的資料庫上對模型進行預訓練,再將這個預訓練過的模型用於其他任務上,有點類似於 NLP 中的 Word Embedding。

深度學習在CV領域已觸及天花板?

(圖源:https://trantorinc.com/blog/top-computer-vision-trends-2019/)

舉個例子,假設你有一個經過訓練的 ML 模型 A 來識別動物的圖片,你可以用 A 來訓練識別狗的圖片的模型 D。就數據而言,訓練 D 需要向 A 添加一些額外的層,但是大大減少了訓練 D 所需的數據量。

遷移學習是一個很大的領域,最近發表的與遷移學習相關的論文也很多,本文只挑選幾篇較新且已發表的的論文進行簡單介紹:

[7] 中提出了基於不完整實例的對抗模仿學習——Action-Guided Adversarial Imitation Learning (AGAIL),它在基本的 GAN 中(Generator + Discriminator 的組合)加入了一個 guide,從而達到從不完整實例中學習的目的;[8] 中提出了兩種提升 CNN 表徵泛化度的方法,其中一種依賴於分類學知識,另一種是利用微調進行重訓練,並提出了一種衡量遷移學習泛化度的集成方法;[14] 雖然還沒經過 peer-review,但是其使用 GAN 進行化妝遷移的想法很具有啟發性,不同於傳統的 GAN,本文使用了兩個編碼器,一個身份編碼器(identity encoder)和一個化妝風格編碼器(Makeup encoder),並使用一個解碼器將兩個編碼器的輸出重建成人臉,最後還有一個鑒別器來鑒別人臉的真假。

3D 對象理解

前文說過,當前的卷積層和 Pooling 層在二維數字圖像中有很好的應用,但是 3D 對象理解對於深度學習系統成功解釋和現實世界導航至關重要。例如,網路可能能夠在街道圖像中定位汽車,為其所有像素著色,並將其分類為汽車。但它是否真的了解圖像中的汽車相對於街道中的其他物體的位置?

為此深度學習專家們提出了可以準確地表示物體在空間中的位置的點雲(point cloud)。點雲是 3D 空間中的一組數據點。簡單地說,物體表面上的每個點都有三維坐標(X,Y,Z),稱為點雲。其中,PointNet++ [4] 就是一種很好的利用點雲的深度學習模型。

除了點雲,[11] 延伸了 2017 年出現的 Mask R-CNN,提出一種 3D Mask R-CNN 架構,它使用時空卷積來提取特徵並直接識別短片中的姿勢。完整的架構如下所示。它在姿勢估計和人體追蹤方面實現了當前最優結果。

深度學習在CV領域已觸及天花板?

(圖源自論文)

[12] 提出了一種行人重識別(person re-identification)的新方法,這個問題一般是通過基於檢索的方法來解決的,即求導查詢圖像與來自某個嵌入空間的存儲圖像之間的相似度度量,而本文中的框架將姿勢信息直接嵌入到 CNN 中,並設計了一個新的無監督重排序方法。完整的框架如下圖所示,其中 Baseline Architecture 使用的是 ResNet-50,同時一個簡單的 View Predictor 與 Baseline Architecture 一起提供了姿態信息作為後面的輸入。

深度學習在CV領域已觸及天花板?

(圖源自論文)

域適應(Domain Adaptation)

嚴格來說,域適應應該也算遷移學習的一種,不過上文提到的遷移學習主要說的是樣本遷移。域適應的目的其實跟數據合成類似,都是為了得到更多的有標註數據。簡單來說,就是用任務 A 的數據來為任務 B 準備數據,或者說是將這個數據改造成適合任務 B 的數據。

舉一個例子,利用相似性學習的無監督域適應 [1] 使用對抗性網路來處理域適應。作者使用一個網路從有標記源中提取特徵,又利用另一個網路從未標記的目標域中提取特徵,這些特徵的數據分布相似但不同。為了標記來自目標域的圖像,作者將圖像的嵌入與來自源域的原型圖像的嵌入進行比較,然後將最近鄰居的標籤分配給它。另一個域適應的例子是 [15],文中提出了一種圖像到圖像的轉換,主要用了 3 種主要技術:(i)domain-agnostic feature extraction(無法區分領域的特徵的提取),(ii)domain-specific reconstruction(嵌入可以被解碼回源域和目標域),和(iii)cycle consistency(正確學習映射)。從根本上來說,這個方法的目的就是找到從源數據分布到目標數據分布的映射結構。

除了上面的例子,最近 [10] 也提出了一種利用 Bayesian 來做域適應的方法。

深度學習在CV領域已觸及天花板?

(圖源:[1])

4. 總結

由本文可見,當下深度學習有自己的優勢,也有一定的局限性,而深度學習專家們也在儘力解決這些局限性。對於深度學習的未來,我相信除了它自己的改進外,它也會在一些新興領域如 NLP 與 CV 結合的產物——Visual Question Answering(VQA)中大放異彩。當然,未來也很有可能會出現更加智能的模型來代替現在的深度學習模型。

References

[1] Pedro Oliveira Pinheiro. Unsupervised domain adaptation with similarity learning. CoRR, abs/1711.08995, 2017.

[2] Matiur Rahman Minar and Jibon Naher. Recent advances in deep learning: An overview. CoRR, abs/1807.08169, 2018. [3] Alan L. Yuille and Chenxi Liu. Deep nets: What have they ever done for vision? CoRR, abs/1805.04025, 2018.

[4] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J. Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. CoRR, abs/1706.02413, 2017.

[5] Aleksandar Zlateski, Ronnachai Jaroensri, Prafull Sharma, and Fr′edo Durand. On the importance of label quality for semantic segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[6] Artidoro Pagnoni, Stefan Gramatovici, and Samuel Liu. PAC learning guarantees under covariate shift. CoRR, abs/1812.06393, 2018.

[7] Mingfei Sun and Xiaojuan Ma. Adversarial imitation learning from incomplete demonstrations. CoRR, abs/1905.12310, 2019.

[8] Y. Tamaazousti, H. Le Borgne, C. Hudelot, M. E. A. Seddik, and M. Tamaazousti. Learning more universal representations for transferlearning. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1–1, 2019.

[9] Zhongzheng Ren and Yong Jae Lee. Cross-domain self-supervised multitask feature learning using synthetic imagery. CoRR, abs/1711.09082, 2017.

[10] Jun Wen, Nenggan Zheng, Junsong Yuan, Zhefeng Gong, and Changyou Chen. Bayesian uncertainty matching for unsupervised domain adaptation. CoRR, abs/1906.09693, 2019.

[11] Rohit Girdhar, Georgia Gkioxari, Lorenzo Torresani, Manohar Paluri, and Du Tran. Detect-and-track: Efficient pose estimation in videos. CoRR, abs/1712.09184, 2017.

[12] M. Saquib Sarfraz, Arne Schumann, Andreas Eberle, and Rainer Stiefelhagen. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking. CoRR, abs/1711.10378, 2017.

[13] Jonathan Tremblay, Aayush Prakash, David Acuna, Mark Brophy, Varun Jampani, Cem Anil, Thang To, Eric Cameracci, Shaad Boochoon, and Stan Birchfield. Training deep networks with synthetic data: Bridging the reality gap by domain randomization. CoRR, abs/1804.06516, 2018.

[14] Honglun Zhang, , Wenqing Chen, Hao He, and Yaohui Jin. Disentangled makeup transfer with generative adversarial network. CoRR, abs/1804.06516, 2019.

[15] Zak Murez, Soheil Kolouri, David J. Kriegman, Ravi Ramamoorthi, and Kyungnam Kim. Image to image translation for domain adaptation. CoRR, abs/1712.00479, 2017.

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

如何光明正大地學習KISS?當然是用這個DL接吻檢測器了
比宣傳更誇張,秒殺18核i9!AMD新旗艦Ryzen 9跑分出爐

TAG:機器之心 |