萬物皆可「計算機視覺」

知識 01-23

本文為 AI 研習社編譯的技術博客，原標題：

How to do everything in Computer Vision

作者 |George Seif

翻譯 |chesc、Disillusion、Ophria

校對 | 鄧普斯?傑弗審核 | Lam-W 整理 | 菠蘿妹

https://towardsdatascience.com/how-to-do-everything-in-computer-vision-2b442c469928

萬物皆可「計算機視覺」

Mask-RCNN進行目標檢測和實例分割

想做計算機視覺？深度學習是最近的發展方向。大規模數據集加上深度卷積神經網路（CNNs）的表徵能力使得超精確和穩健的模型成為可能。現在只剩下一個挑戰：如何設計你的模型。

由於計算機視覺領域廣泛而複雜，因此解決方案並不總是很清晰。計算機視覺中的許多標準任務都需要特別考慮：分類，檢測，分割，姿態估計，增強和恢復，動作識別。儘管用於每個任務的最先進的網路表現出共同的模式，但他們都需要自己獨特的設計風格。

那麼我們如何為所有這些不同的任務建立模型呢？

讓我來告訴你如何用深度學習在計算機視覺中做所有事情！

分類

所有任務中最為人所知的！圖像分類網路以固定尺寸的輸入開始。輸入圖像可以具有任意數量的通道，但對於RGB圖像通常為3。在設計網路時，解析度在技術上可以是任何尺寸，只要它足夠大以支持你將在整個網路中執行的下採樣數量。例如，如果您在網路中進行4次下採樣，那麼您的輸入尺寸需要至少為 42 = 16 x 16 像素。

當你進入網路更深層時，空間解析度將會降低，就像我們儘力擠壓所有信息並降低到一維向量表示。為了確保網路始終具有繼承其提取的所有信息的能力，我們根據深度按比例增加特徵圖的數量以適應空間解析度的降低。也就是說，我們在下採樣過程中丟失了空間信息，為了適應損失，我們擴展了我們的特徵圖以增加我們的語義信息。

在你選擇了一定數量的下採樣後，特徵圖會被矢量化並送入一系列全連接層。最後一層的輸出與數據集中的類一樣多。

目標檢測

目標檢測器有兩種形式：單階段和兩階段。它們兩者都以「錨框」開始；這些是默認的邊界框。我們的檢測器將預測這些方框與邊界框真值之間的差異，而不是直接預測方框。

在兩階段檢測器中，我們自然有兩個網路：一個框提議網路和一個分類網路。框提議網路得到了邊界框的坐標，它認為目標在這裡的可能性很大；再次提醒，這些坐標都是相對於錨框的。然後，分類網路獲取每個邊界框並對其中的潛在物體進行分類。

在單階段檢測器中，提議和分類器網路被融合到一個單獨的階段中。網路直接預測邊界框坐標和在該框內物體的類別。因為兩個階段融合在一起，所以單階段檢測器往往比兩階段更快。但是由於兩個任務的分離，兩階段檢測器具有更高的精度。

Faster-RCNN 兩階段目標檢測架構

SSD 一階段目標檢測架構

分割

分割是計算機視覺中更獨特的任務之一，因為網路需要學習低級和高級信息。低級信息通過像素精確地分割圖像中的每個區域和物體，而高級信息用於直接對這些像素進行分類。這就需要將網路設計成結合低級信息和高級信息的結構，其中低級空間信息來自於前面層且是高解析度的，高級語義信息來自於較深層且是低解析度的。

正如我們在下面看到的，我們首先在標準分類網路上運行我們的圖像。然後，我們從網路的每個階段提取特徵，從而使用從低到高的級別內的信息。每個級別的信息都是獨立處理的，然後依次將它們組合在一起。在組合信息時，我們對特徵圖進行上採樣以最終獲得完整的圖像解析度。

要了解更多有關如何用深度學習進行分割的詳細信息，請查看此文章。

GCN分割架構

姿態估計

姿態估計模型需要完成兩個任務：（1）檢測每個身體部點陣圖像中的關鍵點（2）找出如何正確連接這些關鍵點的方式。這分為三個階段：

1、使用標準分類網路從圖像中提取特徵

2、鑒於這些特點，訓練一個子網路來預測一組2D熱力圖。每張熱力圖都與一個特定的關鍵點相關聯，並且包含每個圖像像素是否可能存在關鍵點的置信值。

3、再次給出分類網路的特徵，我們訓練一個子網路來預測一組2D向量場，其中每個向量場編碼關鍵點之間的關聯度。具有高度關聯性的關鍵點就稱其為連接的。

以這種方式訓練模型與子網路將共同優化檢測關鍵點並將它們連接在一起。

開放式姿態估計體系結構

增強和恢復

增強和恢復網路是它們自己的獨特之處。因為我們真正關心的是高像素/空間精度，所以我們不會對這些進行任何降採樣。降採樣真的會殺死這些信息，因為它會減少我們空間精度的許多像素。相反，所有的處理都是在完整的圖像解析度下完成的。

我們首先將要增強/恢復的圖像以全解析度傳遞到我們的網路，而不進行任何修正。網路僅僅由一堆卷積和激活函數組成。這些塊通常是最初為圖像分類而開發的那些塊的靈感，有時是直接副本，例如殘餘塊、密集塊、擠壓激勵塊等。由於我們希望直接預測圖像像素，不需要任何的概率或分數，所以在最後一層上沒有激活功能，甚至沒有sigmoid或softmax。。

這就是所有這些類型的網路！在圖像的全解析度下進行大量的處理，以獲得高空間精度，這些使用已經證明與其他任務相同的卷積。

EDSR超解析度架構

行為識別

動作識別是少數幾個需要視頻數據才能正常工作的應用之一。要對一個動作進行分類，我們需要知道隨著時間的推移場景發生的變化；這導致我們需要視頻。所以我們的網路必須訓練以學習空間和時間信息。也就是空間和時間的變化。最適合的網路是3D-CNN。

3D- CNN，顧名思義，就是一個使用3D卷積的卷積網路！它們不同於常規CNN的地方在於其卷積應用於三維空間：寬度、高度和時間。因此，每個輸出像素都是基於它周圍的像素和相同位置上的前幀和後幀中的像素進行計算預測的！

直接進行圖像的批量傳遞

視頻幀可以通過以下幾種方式傳遞:

(1)直接以大批量，如圖1所示。由於我們正在傳遞一組序列幀，因此空間和時間信息都是可用的

單幀光流(左)。視頻光流(右)

(2)我們還可以在一個流(數據的空間信息)中傳遞單個圖像幀，並從視頻(數據的時間信息)中傳遞其相應的光流表示。我們將使用常規的2D CNNs從兩者中提取特徵，然後將它們組合起來傳遞給我們的3D CNN，它將組合這兩種類型的信息

(3)將我們的幀序列傳遞給一個3D CNN，將視頻的光流表示傳遞給另一個3D CNN。這兩個數據流都有可用的空間和時間信息。這可能是最慢的選項，但同時也可能是最準確的選項，因為我們正在對視頻的兩個不同表示進行特定的處理，這兩個表示都包含所有信息。

所有這些網路都輸出視頻的動作分類。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI研習社 的精彩文章:

※對話系統中的口語理解技術（二）
※一文帶你讀懂計算機視覺

TAG:AI研習社 |