白話卷積神經網路

最新 02-10

這幾年深度學習快速發展，在圖像識別、語音識別、物體識別等各種場景上取得了巨大的成功，例如AlphaGo擊敗世界圍棋冠軍，iPhone X內置了人臉識別解鎖功能等等，很多AI產品在世界上引起了很大的轟動。在這場深度學習革命中，卷積神經網路（Convolutional Neural Networks，簡稱CNN）是推動這一切爆發的主力，在目前人工智慧的發展中有著非常重要的地位。

【問題來了】那什麼是卷積神經網路（CNN）呢？

1、小白一下，什麼是神經網路？

這裡的神經網路，也指人工神經網路（Artificial Neural Networks，簡稱ANNs），是一種模仿生物神經網路行為特徵的演算法數學模型，由神經元、節點與節點之間的連接（突觸）所構成，如下圖：

每個神經網路單元抽象出來的數學模型如下，也叫感知器，它接收多個輸入（x1，x2，x3...），產生一個輸出，這就好比是神經末梢感受各種外部環境的變化（外部刺激），然後產生電信號，以便於轉導到神經細胞（又叫神經元）。

單個的感知器就構成了一個簡單的模型，但在現實世界中，實際的決策模型則要複雜得多，往往是由多個感知器組成的多層網路，如下圖所示，這也是經典的神經網路模型，由輸入層、隱含層、輸出層構成。

人工神經網路可以映射任意複雜的非線性關係，具有很強的魯棒性、記憶能力、自學習等能力，在分類、預測、模式識別等方面有著廣泛的應用。

2、重點來了，什麼是卷積神經網路？

卷積神經網路在圖像識別中大放異彩，達到了前所未有的準確度，有著廣泛的應用。接下來將以圖像識別為例子，來介紹卷積神經網路的原理。

（1）案例

假設給定一張圖（可能是字母X或者字母O），通過CNN即可識別出是X還是O，如下圖所示，那怎麼做到的呢

（2）圖像輸入

如果採用經典的神經網路模型，則需要讀取整幅圖像作為神經網路模型的輸入（即全連接的方式），當圖像的尺寸越大時，其連接的參數將變得很多，從而導致計算量非常大。

而我們人類對外界的認知一般是從局部到全局，先對局部有感知的認識，再逐步對全體有認知，這是人類的認識模式。在圖像中的空間聯繫也是類似，局部範圍內的像素之間聯繫較為緊密，而距離較遠的像素則相關性較弱。因而，每個神經元其實沒有必要對全局圖像進行感知，只需要對局部進行感知，然後在更高層將局部的信息綜合起來就得到了全局的信息。這種模式就是卷積神經網路中降低參數數目的重要神器：局部感受野。

（3）提取特徵

如果字母X、字母O是固定不變的，那麼最簡單的方式就是圖像之間的像素一一比對就行，但在現實生活中，字體都有著各個形態上的變化（例如手寫文字識別），例如平移、縮放、旋轉、微變形等等，如下圖所示：

我們的目標是對於各種形態變化的X和O，都能通過CNN準確地識別出來，這就涉及到應該如何有效地提取特徵，作為識別的關鍵因子。

回想前面講到的「局部感受野」模式，對於CNN來說，它是一小塊一小塊地來進行比對，在兩幅圖像中大致相同的位置找到一些粗糙的特徵（小塊圖像）進行匹配，相比起傳統的整幅圖逐一比對的方式，CNN的這種小塊匹配方式能夠更好的比較兩幅圖像之間的相似性。如下圖：

以字母X為例，可以提取出三個重要特徵（兩個交叉線、一個對角線），如下圖所示：

假如以像素值"1"代表白色，像素值"-1"代表黑色，則字母X的三個重要特徵如下：

那麼這些特徵又是怎麼進行匹配計算呢？（不要跟我說是像素進行一一匹配的）

（4）卷積(Convolution)

這時就要請出今天的重要嘉賓：卷積。那什麼是卷積呢，不急，下面慢慢道來。

當給定一張新圖時，CNN並不能準確地知道這些特徵到底要匹配原圖的哪些部分，所以它會在原圖中把每一個可能的位置都進行嘗試，相當於把這個feature（特徵）變成了一個過濾器。這個用來匹配的過程就被稱為卷積操作，這也是卷積神經網路名字的由來。

卷積的操作如下圖所示：

GIF

是不是很像把毛巾沿著對角捲起來，下圖形象地說明了為什麼叫「卷」積

GIF

在本案例中，要計算一個feature（特徵）和其在原圖上對應的某一小塊的結果，只需將兩個小塊內對應位置的像素值進行乘法運算，然後將整個小塊內乘法運算的結果累加起來，最後再除以小塊內像素點總個數即可（註：也可不除以總個數的）。

如果兩個像素點都是白色（值均為1），那麼1*1 = 1，如果均為黑色，那麼(-1)*(-1) = 1，也就是說，每一對能夠匹配上的像素，其相乘結果為1。類似地，任何不匹配的像素相乘結果為-1。具體過程如下（第一個、第二個……、最後一個像素的匹配結果）：

根據卷積的計算方式，第一塊特徵匹配後的卷積計算如下，結果為1

對於其它位置的匹配，也是類似（例如中間部分的匹配）

計算之後的卷積如下

以此類推，對三個特徵圖像不斷地重複著上述過程，通過每一個feature（特徵）的卷積操作，會得到一個新的二維數組，稱之為feature map。其中的值，越接近1表示對應位置和feature的匹配越完整，越是接近-1，表示對應位置和feature的反面匹配越完整，而值接近0的表示對應位置沒有任何匹配或者說沒有什麼關聯。如下圖所示：